y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

自動抽出した特徴キーワードで自己組織化タグクラウド(ワードマップ)

Lingua-JA-Summerize-0.06のShift-JIS動作で、俄然勢いに乗るサラリーマン1人。
今度は、データベースに単語レコードと、単語と単語のつながりレコードを保存し、自己組織化するタグクラウドとして表現してみる。

Make_Keyword.cgi
テキストエリアにペーストされた文章から、特徴キーワードを抽出する。docid、記事URL、登録先グループなどの属性情報を加えて、SaveKeyword.aspにPOSTする。
SaveKeyword.asp
抽出した特徴キーワードをASPにPOST,ASPは単語を配列に格納した後、ここの単語について、データベースに検索をかけ、新規の単語であれば登録、既存の単語であればコスト値をカウントアップさせる。複数単語間のつながりも同様に、新規・更新登録する。
WordNet.asp
保存されたワードとノードデータを、指定の条件で検索し、Javascriptの配列を書き出す。
Javascriptが自己組織化タグクラウドを描画する。
タグの検索条件として、任意の単語、日付範囲、グループ、表示するタグの閾値(単語出現頻度)などが使える。REST設計によって、外部から任意の条件で絞り込んだ結果のタグクラウドを表示できるように改造予定。

まだまだノードデータの検索が怪しく、直すところがいっぱいであるが、とりあえず動作するようになったので、news.google.co.jpの任意の記事から、特徴キーワードとキーワードネットワークを構築。
(出現頻度が高いキーワードが中心に表示される)自己組織化タグクラウドとして可視化してみた。
wordmap.gif