y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

考察:タグクラウドの使い道

タグクラウドの使い道をなんとなく考察。
1:サイトのメニューとして使う
サイト全体で話題になっているキーワードのタグクラウド
→記事作成者が付与したキーワードを使う方法
→外部検索エンジンやサイト内の検索エンジンで使われた検索キーワードをそのままタグと見なす方法
→ユーザが記事に付与したタグを使う方法
2:記事のサマリーの表現に使う
記事単体でよく使われているキーワードのタグクラウド
3:サイト全体の文書をマッピング
サイト内の全文書から自動的に抽出した単語のタグクラウド(自動分類)

コンテンツをあらわすか、ユーザの趣向をあらわすか?
ユーザの趣向は、記事にタグをつけるという能動的な行為以外にも、検索して、実際に記事を読んだ場合に、その検索条件をタグとして記事内に登録してしまう方法などでタグクラウドの生成できそう。
記事内の文章を、形態素解析して、出現頻度ランキング上位をDB化するのは、やっぱりちょっと重たそう。上で言うと、2とその発展である3。
でも、出来るとかなり面白い。
形態素解析と言うと全文検索エンジンにつきものの技術というニュアンスがあるが、記事をRDBMSに格納する際、1レコード分の全文を形態素解析して(ChaSenに処理を渡して)、出現頻度の高い単語10個程度をDBのフィールドに登録すれば出来そうだ。文書番号と単語と出現頻度を入れておけば良いかな。