y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

自然言語処理

Javascriptで形態素解析

MeCabなどの形態素解析器を使わず、正規表現とあらかじめテーブル化した助詞だけで品詞分解するJavascriptプログラムを発見。 ■[JavaScript]ボキャブラリ解析ツールに解説されているボキャブラリ解析ツール 形態素解析もどきを改良してみたと形態素解析もど…

コンテンツの代表キーワードを決定する方法

形態素解析のWebサービスなんてないかな?と調べていたら コンテクストサービスの基礎知識なんていうページを発見。 Webページを検索した時に、検索条件とマッチしたテキスト広告を表示させる”GoogleAdSense”みたいなことをするための技術。 コンテンツを形…

”全文検索システムの検索結果精度を上げる方法(案)”の結果

9/7のエントリで「業務件名を形態素解析した複数語を指定して、その業務に該当する文書の全文検索精度を向上する」という方法を検証していくと書いた。 その後、(非常にサンプルとしては心もとないのであるが)10件の業務名称と2800件のドキュメントに対し…

形態素解析をWebスクリプトで実行したい

形態素解析を検索システムで使う”面白さ”に魅入られている。 自動要約や自動キーワード付与、コンテンツごとのタグクラウド生成に必須の技術だからだ。 Web経由でテキストを渡してやり、品詞分解された単語だけを返すWebサービスができたら、色んなプログラ…

全文検索システムの検索結果精度を上げる方法(案)

全文検索システムの検索結果精度を上げる方法として、 ・自然文解析技術の向上 ・属性検索と全文検索のハイブリッド ・ユーザの参照数をランキング評価に採用する ・・などなどの方法があるのだが、そもそも検索結果精度が問題になるのは、「探しあてられる…

専門用語辞書作成のためのツール”専門用語自動抽出システム”

全文検索システムのユーザ辞書(専門用語辞書)を作成するためのツール”専門用語自動抽出システム”を試してみる。 分かち書き(品詞分解)には、ChaSenやMecabが紹介されている場合が多いが、複数語を組み合わせて表現される専門用語が、見事に分解されてし…

知識情報処理(メモ)

Google 意味検索 村上晴美研究室 知識情報システム論 NTT-ATドキュメントマイニングシステム 検索エンジンの山 Wikipedia エキスパートシステム 日本語自然文意味検索による Blog 検索、KEYWALKER が20日にスタート 「現在の日本人の平均身長は?」gooウェブ…

連想検索システム

”キーワード自動 全文検索システム”をキーワードに指定した検索結果から得た情報。 memo.xight.org Googleの限界は「人の手」で破る――国産の新検索「想」 ページランクでは専門家が書いた記事と、blogの記事が同列に扱われてしまい、プロフェッショナルの”想…

自然言語解析や自動応答システム

調子に乗って、自然言語解析や自動応答システムの話題。 ろくにソースも自分の研究成果も無しに、適当なことを書き綴るのも非常に荒っぽいやり方だが・・。 少し前、どこだかの(シャープだったかな)コマーシャルで「東京で旨いラーメン店」なんて音声入力…

セマンティックWeb・シソーラスなど

会社の業務として受託した調査研究業務で、多言語シソーラス辞書ってのがあった。 UTF-8で表現されたXMLで、同義語や類義語、反義語など、ある単語に関連する単語をくっつけていくっていう代物で、検索システムのフロントエンドに使用するもの。 ビートルズ…

ページ内容を分析し文脈を読み取る検索サービス?

ヤフー、新検索サービス「Y!Q」を公開--AdSense狙い撃ちの布石か ”より関連性の高いコンテンツを””ユーザーが読んでいるページの内容を分析し、文脈を・・・”ってのがどのように実現されているのかに非常に興味があった。 ・・で早速Y!Qで検索し、ベータ版を…