2ちゃんねる Q&A 検索のその後

http://qarc.info/
のその後の日記です。

変更したこと

ドメインを変えた

ドメインは、前はkako.feezch.infoでしたが、Q&Aなのにkakoとかフィードを配信していないのにfeezch.infoのドメインとか意味不明な感じだったので変えました。qarc.infoです。これまたあまり意味のある名前ではないのですが、何か名前が必要だと思って、Q&Aスレをアーカイブするからqarcみたいな名前です。なぜsearchじゃないのかというと、arcのほうが響きがかっこいいからです。

質問スレ以外の過去ログを消した

公開時は、一部の板で1000に達したスレの過去ログを全部保存した上で、その中から質問スレを選んで、さらに質問文を選んで……としていましたが、レスのレコードが増すぎてやばい感じだったのと、全体の過去ログとか別にうちで持たなくてもいいやと思ったので消しました。
一度取り始めるとやめるのは勿体無い気がしてきますが、僕は●ユーザーなので過去ログはURLさえ分かればいつでも取れるし、また必要になったときに取ればいいです。
保存していたのは、今後質問レス抽出の精度が上がれば、質問スレ以外からも抽出しようと思っていたからですが、もう消したので、精度はあまり気にならなくなりました。

全文検索をちょっとマシにした
僕の魔界を救って→僕まか
モンスターハンターフロンティア→MHF

みたいな略語の辞書を作って、略されてても全文検索でヒットするようにしました。ただ、手動なのでつらいというか、ぜんぜん対応出来てない。Googleはこういうのがすごくよく出来ているので、Googleに慣れている人は平気で適当なクエリを投げてきますが、そんなの30分くらいで作ったうちの全文検索システムで出来るわけないです。
ただこのへんをきちんと作らないとトップページのQ&A検索を自信を持って勧められないので、全文検索をまともにするのが今後の主な課題になると思います。

XMLサイトマップを作ってクローラー目的の一覧を消した

公開時はQ&Aの一覧が新着順・人気順などありましたが、もともとクローラーがQ&Aごとのページをインデックスできるような意味が大きかったし、ログが増えて人間が見るのは不可能な量になっていたので、クローラー用のXMLサイトマップを作るようにして一覧を消しました。

アフィをいろいろアレした

省略します。

アクセス数

http://f5f3506df624bc426d789d5c0811abde.gazou.me/large.png
2/10に公開してからのGoogle Analyticsによる訪問者数(セッション数)のグラフです。
Google様の気分しだいで上がったり下がったりします。
今は大体一日12000UU、18000PVくらいです。

滞在時間はかなり短いのですが、質問文で検索すると2ちゃんねるで過去に行われた質問と回答のページが出てきてそれを見ると一発で答えが分かる(または分からないことが分かる)というのが基本的なモデルなので、短くていいと思います。

サーバー

SaaSesのOsukini Server GT 1台にクローラーからウェブ、DBまで何もかも入れています。検索と過去ログ一覧以外はページキャッシュしてnginxで配信しているだけなので、負荷はほとんどありません。
クローラーもfeezchのようなスレの差分を集めて回るタイプではなく、スレッド一覧から質問スレが落ちたのを検出して丸ごと取って終わりなので、あまり負荷はありません。
当分はこれ1台でいけるのではと思っています。

まとめ

サイトはシンプルになったと思います。
サイトのシステムは全自動で動いているので、僕はたまに思いついたことを実装して反映して、あとは結果を観測しているだけという状態です。さまざまな反応がゆっくりと進んでいる感じなので、早く時間がたって、どうなったか見たいと思っています。