y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

実験!ブログコンテンツをテキストマイニング(単語抽出)

自分の文章の単語を抽出、出現頻度でランキングしてみようと思い立つ。
blogの内容を表す単語を上手く抽出できれば、Blogのメニューにも使えるかもしれない。
■手順
0:y-matsui::Weblogの全コンテンツをテキストで書き出す(1.5MBのテキストファイル)
1:テキストマイニングソフト”BEN-TEN-SAN”に食わせる
2:JSCloudでタグクラウドにする

BENTENSANは数年前にシェアウェアで購入したもの。VBを使っているらしく、恐ろしく遅い。→断念
www.lynks.co.jpってアドレス・・・使えなくなってる。潰れたのかな
次に、BENTENSANに代わる、”フリーで使えるテキストマイニングソフト”を探してみた。
KHCoder
茶筌を使っている。さすが茶筅!品詞分解は完璧だ。出現頻度のCSV出力→Excel表示までしてくれる。まだまだ分からない分析機能がたくさんあるが、これがフリーっていうのは凄い。
※ブログのテキストをUTF-8S-JISに変換して食わせたら、127文字以上の品詞が云々とエラーが出て強制終了。(T_T;)HTMLのタグとかをきちんと除去しないとダメなのかも・・。
Windows用専門用語(キーワード)自動抽出システム"termex" の解説
以下、KHCoderを使ったテキストマイニング結果

HTMLタグを除去するため、MovableTypeからエクスポートしたmt.txtを、mt.htmlにリネームし、IEで読む。
コピーペーストでテキストエディタに。→s-jisのテキストファイルとして保存。
KHCoderで読み込む。→約2分半で品詞分解完了

■単語出現数ランキング
単語数:44760語
異なり語数:6231語、使用:5620語

<名詞TOP10>
音楽 122
エンジン 108
クラッチ 59
ベル 52
自分 48
燃料 48
サウンド 44
バンド 43
動画 42
ギター 38

おー。音楽とラジコン関係だ。エンジン、クラッチベルときたら、トラブル関係だ(笑)

サ変名詞TOP10>
走行 55
購入 40
演奏 36
ジャンプ 34
交換 27
回転 23
機能 22
話 20
ロック 17
調整 17

ラジコン・・・走行しては、(パーツを)購入して・・って言うことらしい。しかもジャンプだ。
・・で故障したから、パーツを交換して・・・って。あーあ。

<形容名詞TOP10>
非常 27
好き 17
フル 12
エスニック 10
嫌 9
大好き 9
強烈 8
幸福 8
重要 8
馬鹿 8

”非常に”って感じで良く強調するらしい。”嫌い”よりも”好き”が多く出て来ているのはいいことだ。
”馬鹿”ってもっと出て来てるかと思ったよ。

<組織名TOP10>
ラウドネス 10
タミヤ 7
ビートルズ 6
ローランド 5
ヤマハ 4
アクティブ 3
カーマ 2
キャデラック 2
クライスラー 2
ソニー 2

なんと、”ラウドネス”が一番出てきている組織名だとは・・。

<地名TOP10>
西欧 10
名古屋 9
インド 7
ブルガリア 7
桜淵 7
木曽川 7
新城 6
フランス 5
東欧 5
ポー 4

地名はたいして面白くないが、旅行好きな人のブログだったら、意味があるんだろう。
桜淵、木曽川、新城って全部ラジコンで遊んだ場所だ。

感動詞TOP10>
まぁ 10
ごめんなさい 4
あ 3
あー 3
え 3
おや 3
さぁ 3
ねぇ 3
へぇ 3
ま 3

感動詞もあんまりタグクラウドで使うには意味がないね。

<動詞TOP10>
思う 71
スる 56
見る 51
戻る 47
買う 42
聞く 39
言う 38
使う 36
走る 36
入る 31

※このへんも意味なし。

<形容詞TOP10>
良い 50
無い 26
凄い 18
悪い 16
高い 16
楽しい 15
新しい 15
大きい 15
速い 14
素晴らしい 12

※形容詞は結構面白い。”良い”が”悪い”よりも3倍も多く出てきてる←意外と楽天家?
素晴らしい、凄い、楽しい・・・が続く。もっと呪われた言葉を使っていると思っていたが。

<副詞TOP10>
初めて 24
特に 13
全然 11
早速 11
色々 8
実際 7
結構 6
少し 6
常に 6
全く 6

■もしかして・・
プログラミング関係の言葉は殆どが英語なので、日本語解析では弾かれている。IT関連の単語が、ランキングに一切出てこないというのは非常におかしい。