（9月〜最近分）

5月くらいにやるよって書いて、ずっと進んでなかったけど、少し前の連休でgaーと進めた。今ちょっと仕事がアレなのでデモサイトを作る余裕がないけど、その2としては余裕できたら置きますってところまではできてます。
今回の内容は、前回ので候補を絞って、それに対してBag of visual-wordsの類似でソートして上位N件を表示するという方法。アニメ顔に特化させるための前処理など特徴ベクトルを作るまでの過程がたくさんあるけど、そのあたりの説明はデモサイトを作ってから。
とりあえずスクショ。検索対象は4chan /c/という画像掲示板に投稿された画像からImager::AnimeFaceを使って自動で切り取った顔画像4万件。old verが前回の部品の色によるもので、new verが今回の。

正直まだまだだけど、

上位の本人率が上がった
本人ではないなりに「髪形はちょっと似てる」「前髪のみ激似」など人から見て理解を得られそうな間違え方が増えた

あたりで前回よりはマシになったと思ってます。
問題は初音ミクのようにいろいろな人が自由に描いてるキャラクターで、初音ミクくらいデータがあればどうにかなりそうだけど、マイナーだと本人を上位に持ってくるのはちょっと難しい。本当は顔の類似ではなく元となるキャラクターの類似で集めないといけないけど、今回の方法だとまだ難しい。