ファイルの全比較とHASH値比較 (3)

知人から、まじめに計算してみって言われた。
でも結局、なんパーセントのファイルがどうこうだった場合に、どちらが速いという境が出る程度で、実際にディレクトリ内のファイルがそうである確率が統計から見て半分より低いか高いなら、あっちにしたらいいんじゃね? という結果しか出ないと思うし、それはたぶん実ファイル比較にしたほうがいいという結果だってなんとなく感じ取っています。
Fuktommy氏からは、


結局はどんな環境でどんなファイルを比較するか、ということだと思うです。どんなハッシュ関数を使うかということも。

ときました。
確かにその通りだとは思うけど、こういう問題って毎回こんなバランス論でうやむなになってしまうのがどうも気持ち悪いです。
でも、その通りだと思うし、難しい。

  • どんな小さな確率であっても最悪の条件の場合にかかる時間を少なくしたいのならHASH値比較、それ以外ならファイル全比較がオススメ

というのは……これも同じようなものか……。