読者です 読者をやめる 読者になる 読者になる

辞書データ

辞書

辞書データはとりあえず版ができた。
データは、JMdictのglossを単語単位に分解して、自作の超怪しい原型戻し関数で戻して、それにヒットするWordNetの情報と例文集にリンクさせた感じ。リンクはJMdictをその他へつなげているだけで、WordNet同士やWordNetから例文集へはリンクしてない。これは、たとえばWordNetの情報として類義語や同義語があるが、これらからWordNetへはリンクしていない。偶然JMdictにその単語があるとリンクできるけど、複数の意味を持っている単語の場合どの意味へリンクすべきかは分からない。このあたりは真面目にやると面倒くさいことになりそうなだったので、Onlineで使えるWordNetにでもリンクしとけばええやろという、すでにテキトウな雰囲気。
JMdictから出した語が43000件ほどで、WordNetと繋がったのが33000件ほど。残り1万は……怪しいアレが原因だろうから追々修正していくか、いいライブラリが見つかったらそれでまたデータ作成したらええじゃろという、これまたテキトウな雰囲気。
ただ、個人的には十分すぎる情報が引き出せる。正直自分が追いつけていなくて、なにを作っているのかよく分からなくなってる。評価不能。unn...