今週はグロ画像のブラックリストを作りたい

2ちゃんねるのログを収集するものの通信部分とクラスにセットするところだけできた。
あとは取ってきたデータをDBに突っ込む処理を作って(DBはローカルVistaPostgreSQL+Ludiaで環境をつくた)、なんかいろいろとクエリを発行します。
まずはグロ画像のMD5値をSELECTできるようなクエリを考えて、NGリストでも作ってみようと思います。
『>>1 グロ』『>>1 氏ね』『>>1 5秒で消せ』とかで指定されている人のレス内に画像があればそれなんじゃないかなとか。これをするためにレスの参照関係も高速に引き出せるようにテーブルを作っておかないといけません。このNGリストは今後僕自身が機械学習のために大量の画像を手動で処理する羽目になったときにグロ画像をできるだけ踏まないためのリストになるのです。とてもすばらしいリストです。
グロ画像って判定が難しいと思うんです。虫とかぐちゃってなってる人とか、なんか変な生き物っぽいものとか。モザイク越しでも分かんなかったり。なので、画像自身のリストを作るしかないような気がしています。ちょっと変更されたらダメですが。大体はコピペでしょーと思うので。