y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

専門用語辞書作成のためのツール”専門用語自動抽出システム”

全文検索システムのユーザ辞書(専門用語辞書)を作成するためのツール”専門用語自動抽出システム”を試してみる。
分かち書き(品詞分解)には、ChaSenMecabが紹介されている場合が多いが、複数語を組み合わせて表現される専門用語が、見事に分解されてしまう。・・・でどうしたものかということで、”専門用語自動抽出システム”に出会う。
東京大学情報基盤センター中川裕志教授と横浜国立大学環境情報研究院森辰則研究室は、共同で、与えられた特定分野のコーパスのみの情報から専門用語を特定、抽出するシステムを開発してきました。本システムは、その成果をプログラムとして広く公開するものです。
とのこと。なんともありがたい

以下、”Windows用専門用語(キーワード)自動抽出システム"termex lite" の解説を読んで、黙々とインストール。
ActivePerlを入れて、TermExtractwindows\win_install.plを叩いて、termex liteのconfigure.plを叩けば設定完了。
あとは、適当なテキストファイルを”重要度計算(和文)”ショートカットにドラッグすれば、専門用語の抽出と重要度ランキングが出来上がる。結果はex_word.txtとしてメモ帳で立ち上がってくる。
なんて素晴らしい仕組みなんだ。
しかし、重大な問題が!
「重要度がどのように評価されているのかが分からない!」
どういった評価でランキングされているのかが分からなければ、十分な活用もできないではないか。
その結果、スコアの高い順に候補語をソートしたものを出力します。なお、重要度計算には単名詞バイグラムを用いることにより複合名詞がどのような単名詞で構成されているかという連接情報と候補語の頻度情報を手掛かりとしています。重要度計算の詳細については、参考文献(PDF形式,108KB)を御覧下さい。(情報処理学会第145回自然言語処理研究会)
さ、PDF見て勉強しよ!
→複合名詞と単名詞の出現頻度評価方法を複数比較。複合名詞に重みを置く方法と、単名詞の出現頻度に重みを置く方法と、この中間の方法を検証し、単語数が増えた場合でも安定して、結果の精度が高い方法を選定した・・・という論文。

参考文献リスト