y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

セマンティックWeb・シソーラスなど

会社の業務として受託した調査研究業務で、多言語シソーラス辞書ってのがあった。
UTF-8で表現されたXMLで、同義語や類義語、反義語など、ある単語に関連する単語をくっつけていくっていう代物で、検索システムのフロントエンドに使用するもの。
ビートルズって入れると、ポールマッカートニーとかリンゴスターとかリバプールなんていうのが提示されて、検索にこれらの単語を指定できるように・・・みたいな使い方や、専門用語とか古語の辞書としての使い方が想定されていた。
・・・でシソーラス辞書の作成ってのが学者さんで進めてるんだけど、なかなか意味や位置づけが統一されなくて、かつ厳密すぎて進まない。(ありがちな話だね)
そこで、とある大学がセマンティックWebの実証実験っていうか、岩波の書籍をOCR処理して、コンピュータプログラムに食わせ、どの単語がどの単語の近くに出てくる可能性が高いから、同じ意味空間の言葉なんだろうということを勝手に処理していき、意味の相関をポイントと線分のつながりで表現するっていう凄いものだった。
データを食わせれば食わせるほど、データベースが様々な意味をつなげていき、ディテールが明確になっていくっていう仕掛けで、「なるほど、こういう仕組みでシソーラスを自動生成できればいいんだ」って感動した。

世の中には凄いことを考えてる人がいっぱいいるようで、英語と日本語のシソーラスを連携する方法やら(これって意味空間を英語圏と日本語圏で翻訳、意訳するわけで、単純な対応表とは違う)、もっと拡張して多国語の文化を関連付けちゃおうっていうことまで考えているらしい。
日本語であいまいな条件を指定して検索して、多国語のコンテンツが検索できちゃうみたいな”まさに夢のような”話。
セマンティックWebについては、学者さんの中にも懐疑派がいるようで、コンピュータに意味や推論をさせるなんていうことは、確かにSFめいている。
しかし、セマンティックWebを研究するということは、言語の成り立ちや、意味について深く知ることになるし、人間の脳が言語を習得するメカニズムの核心に触れるような”神がかり的な”サイエンスなのである。

・・・で私も、脳や言語、意味についての興味から、これらの動向が気になっちゃうわけである。