HyperEstraier on Windowsのとんだ回り道

以前のエントリーで

> MeCABを使った分かち書き、単語抽出に対応できているのか・・・と知りたかっただけなんだけど。
>コマンドが通ってれば良いっていう話？
> 辞書の文字コードとHyperEstraier内部の文字コードの問題って？
> とか、色々。
> 自分でやってみるしかないのかな（まさか、ビルド？）

と書いた。
結果から言えば、配布されているWindowsバイナリで、そのままMecabに対応していた。
estseek.cgi.confで
relkeynum: 0
となっているところ
relkeynum: 10
とかすれば、抽出された単語が10個出てくる。
ただ、この状態では、文字種による単語分割なのか、Mecabによる形態素解析の結果なのかは判然としない。
なので
estcmd get d:\data\index\www 1 >c:\temp\sample.txt
みたいなコマンドで、ドラフト文書をダンプしてみた
"%VECTOR"なんて出ていればOKらしい。

でも、疑問が残る。
”京都”と検索したら”東京都”が検索結果に出る。
これって、文字列あいまい検索であって、形態素解析の結果ではない。
n-gramの検索結果とマージされちゃうのか？
「形態素解析されてます」と信用してしまった良いのか？
謎だ。

y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

HyperEstraier on Windowsのとんだ回り道