2007-03-31から1日間の記事一覧

ファイルの全比較とHASH値比較 (2)

ファイルはデータサイズが大きい可能性があるというのが、HASH比較をオススメできない一番の理由かな。 先頭1バイトが違う10000000000000000000TBのファイル2つだと全比較で1byte比較するだけすむ。

ファイルの全比較とHASH値比較

同一ファイルかどうかを調べるのにMD5を使うというのは、比較するファイルが両方手元にある場合はおすすめ出来ません。 その一番の理由は、コストです。 ファイルどおしの単純比較の倍以上します。 という話があり、 MD5比較は先にファイル数分だけHASH計算…

ファイルの全比較とHASH値比較 (5)

自分で書いて気づいたのですが、ファイルの比較用ハッシュ値も別にファイル全体のハッシュ値を完全に計算する必要なんてなくて、例えば先頭10KBだけを使うとした場合でも十分平均速度向上の効果があると思います。どうせ、ハッシュ値が一致したら全体比較す…

ファイルの全比較とHASH値比較 (4)

はっきりしないと気持ちが悪い原因は、人間の意志が介入しなければ完全にうまくいかないプログラムしか作れないからなので、そこから考えると試行なりコスト計算なりして最適なアルゴリズムを動的に選択するような機能まで含めてしまえばいいのだと思いまし…

Googleで"5 + 4 + 3 + 2 + 1"を完全一致検索する方法

web

分かりません。記号が無視される。できないのか。 5 + 4 + 3 + 2 + 1 = 15 5の○○は15である の○○ってなんだっけ……+だから階乗じゃないし……と思って、調べようとしたのですが、どうやって調べたらいいのか分かりませんでした。とりあえず、10..1は例がどこか…

ファイルの全比較とHASH値比較 (3)

知人から、まじめに計算してみって言われた。 でも結局、なんパーセントのファイルがどうこうだった場合に、どちらが速いという境が出る程度で、実際にディレクトリ内のファイルがそうである確率が統計から見て半分より低いか高いなら、あっちにしたらいいん…