y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

”全文検索システムの検索結果精度を上げる方法(案)”の結果

9/7のエントリで「業務件名を形態素解析した複数語を指定して、その業務に該当する文書の全文検索精度を向上する」という方法を検証していくと書いた。
その後、(非常にサンプルとしては心もとないのであるが)10件の業務名称と2800件のドキュメントに対して、検証を行った。
ターゲット文書をあらかじめ決めておき、どれだけ正確にその文書が検索され、上位にランクされるかという実験である。
”GoogleMiniのランキングの正確さ”に助けられている点も無視できないであろうが、結果は良好で気分がとっても良い。何かをやり遂げた感じ
例えば、業務件名そのものが、1ページ目に記されている文書の場合、業務件名全体を検索キーワードとして指定した場合、2件中のトップに出てくる。業務件名を形態素解析した結果の複数キーワードを指定した場合で、16件中の7番目にランクされた。この業務件名のフォルダパス名を使った検索では、477件の文書が存在し、内訳は数値データのCSVJPEG写真データを除けば15件の文書であるので、かなり精度の高い検索結果であると言える。2件別物件名の文書が混じっており、内容を詳しく見てみると、非常に似通った内容についての文書であった。
さらに多くのサンプルデータを投入することによって、また多くの検索実験を行うことにより、この方式の有効性が現れることだろう。
現在は、業務一覧をそのままHTMLとして表現しているが、もちろん業務を検索する機能を追加したり、フォルダツリー分類したりといった、”インタフェースの改良”の余地がある。また、業務件名を登録した際に、自動的に形態素解析を行い、キーワードを抽出する部分も自動化しなければならない。
しかし、業務件名が記された文書でない場合でも、なかなか良い感じで絞込みを行えることが分かっただけでも収穫なのである。