captcha

『4』を検出するブースト分類器のカスケード

haarcascade_digit4.zip 下の記事で作った数字の『4』を検出するブースト分類器のカスケードです。分類器は10stageです。使い方は、opencv.jp - OpenCV: 物体検出(Object Detection)サンプルコード -あたりに。

自重

あまりやるとまたどこかの弁護士とかからなんか送られてきたら嫌なので、怪しい行動は自重。 この検出関係は別のネタでやります。たぶん。 実運用しているのをターゲットにしなければOKかな。 でも正直、全データ('0'..'9','a'..'z','A'..'Z')を学習させるの…

某Y

『4』の学習が完了

完了というか、ダメな感じだったらしく途中(10stage)で終わってしまいました。入力データが足りないのかな。 結果 ウェーブ(大)でも全ての『4』が検出できるようになりました。しかし、全部検出できるパラメーターだと誤検出があります。誤検出をなくす…

CAPTCHA破りの基礎となりそうな手法を少し試した

グロ画像収集はすでに放置中。ただこれは僕にとってとても面白そうなことなのでたぶん近いうちに再開する。 今週は、『自分のBBSのCAPTCHAを破ってみた - KENJI’S BLOG』について、kenjiくんにテキトウに語ってしまったので、ちょっと調べてつつ実験してまし…

『4』を検出できる範囲を試した

いま予定している学習の1/2が終わったところで、検出率がかなり上がってきたので、どんな画像が苦手なのか試してみた。 アルゴリズムをみれーと言われそうだけど。(ソースは少しずつ見て、ちょっといじったりしています……) 左 ノーマル(色ランダム) 真ん中…

ある程度の認識は出来ると思うけど……

認識しやすい画像に変換する処理が難しいと思う。 生データじゃ無理だろうし。 実用的だと認定されているようなCAPTCHAは、この方法だけでは読めないと思う。 ただフィルタのパターンが分かっているなら、あらかじめサンプルを学習させれば検出できるかも?

CAPTCHAとOpenCVに関する情報

まだ僕自身よく分かっていないことが多いので説明は避けます。 興味ある方は僕のブクマにある参考にしたサイトを参照ください。 はてなブックマーク - id:ultraist's very own はてブ - opencv はてなブックマーク - id:ultraist's very own はてブ - captcha