y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

ワードネットのテスト中

さまざまな情報を飲み込みながら、ワードネットが成長している。
単語レコードが24万件、ノードレコードが52万件である。
良くもまぁ、ちまちまと登録したものだ。
・・・といっても、登録ツールの方をいろいろと修正しているので、ちっとも意味のある単語ネットワークになっていないのが悲しい(-_-;)。

それでも、一番最近登録したニュース記事のヘッドラインから生成した単語ネットワークは、”狂牛病”の近くに、”全頭検査”とか”安全宣言””回収”なんていう単語がふわふわしてて、とっても良い感じ。

もともとのコンセプトからしても、意味の近い遠いなんていう情報は、DBに一切持っておらず、単に簡易形態素解析をした結果(文字種が異なる部分で単語を切断して)の単語が、隣り合っている単語を知っているだけという、イージーな単語ネットワークなので、意味があるかどうかは、人間が見て判断する。
使える使えないだけの世界なのである。

長文を全部読み込ませてみたり、件名だけにしてみたりといろいろ試した結果。
長文を読ませる→単語ネットワークの意味のつながりがぼやける
件名を読ませる→濃厚な味わいの意味ネットワークとなる(元々、意味が凝縮されているから)
ニュース記事などは、分野別にすると味わいが出てくる。逆に分野を限定しないと、意味のまとまりがぼやける。
結局、特定の分類でまとめる、件名などの意味のつながりが濃い文字列で単語ネットワークを構築すると良い。
長文コンテンツから、特徴語抽出によってキーワード化し、これを特定の文章のキーワードとして保存すれば、比較的良好なキーワードネットワークができそう。