y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

Javascriptで形態素解析

MeCabなどの形態素解析器を使わず、正規表現とあらかじめテーブル化した助詞だけで品詞分解するJavascriptプログラムを発見。
■[JavaScript]ボキャブラリ解析ツールに解説されているボキャブラリ解析ツール
形態素解析もどきを改良してみた形態素解析もどきで単語の頻出度を調べる JavaScriptブックマークレットで形態素解析もどきは、同じ作者による一連のツール。
特徴語の抽出でなく、普通に頻度情報からタグクラウドを作るのなら、Javascriptも軽快で良いかも。

・・・で善は急げと言うことで、早速やってみた。
動作するサンプルはココ
実際にMeCabとLingua-JA-Summerize-0.06とボキャブラリ解析ツールの出力を比較してみると、
MeCab
複合語、英単語に弱い(英語の辞書がないから?)。本当に品詞にブツ切れになる。フィルタリングしないとそのままでは使いにくい。
Lingua:
複合語に強い。英単語に弱い(英語の辞書がないから?)。共起コストから単語の特徴を評価する(らしい)ので、品詞分解というよりも特徴語抽出に向く。
ボキャブラリ解析ツール(助詞&正規表現により分かち書き):
複合語、英単語に強い。助詞を配列として持ち、助詞を元に品詞分解していくので、複合語に強い。辞書をまったく使わないので、未知の単語にも強い(?)。全くの主観であるが、非常に欲しい形で単語が出力される。ひらがなを解析する/しないによって、結果的に形容詞、動詞を含めたり含めなかったり出来る。英単語と日本語名詞を1パスで処理できるようにするのと、出現頻度でフィルタをかけられれ完璧!