y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

コンテンツの代表キーワードを決定する方法

形態素解析Webサービスなんてないかな?と調べていたら
コンテクストサービスの基礎知識なんていうページを発見。
Webページを検索した時に、検索条件とマッチしたテキスト広告を表示させる”GoogleAdSense”みたいなことをするための技術。
コンテンツを形態素解析して、キーワードの出現頻度っていうところまでは分かっていたのだが、TF-IDFっていう評価は知らなかった。
yahooやgoogleでの検索ヒット数をAPIから取得して、世界中のコンテンツ量との比のlogを取るってことで、「ページ中にある単語が含まれる数だけでは、客観的じゃないので、googleやyahooがクロールしているコンテンツの数で補正しました」って感じなのかな。
コンテンツの内容を広告とマッチさせるこまかな方法はあまり興味がなく、ドキュメントの代表キーワードをいくつか割り出して、タグとして使いたい。単純に出現頻度のトップ10を代表キーワードにしちゃおうかとも思ったが、なんとなくゴミワードばっかりになりそうな気がして。