y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

特徴キーワードの精度を調査してみた

Lingua-JA-Summerize-0.06による自動キーワード抽出で、文書から特徴キーワードを抽出できることは分かったが、それなら「特徴キーワードから、適切に文書を絞り込めるのか?」気になるではないか。
早速、news.google.co.jpの記事を無作為に選んで、抽出してみる。
抽出した単語を、googleの検索窓に貼り付けて・・
検索上位に出てくるかな?

→結果
完璧に検索できちゃう。しかも検索上位にばっちりランクされる。ニュース分野の異なる、10程度の記事でやってみたが、どれも素晴らしい結果。芸能関係でヒットしなかったものもあったが、結果が出すぎて困るということは無い。(検索結果を広めに取ることは簡単でも、絞り込むのは難しいからコレでもOK)
これは、Lingua-JA-Summerize-0.06の評価が素晴らしいのもそうだし、Googleのランキングが適切だということだ。
使えるねぇ