y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

HyperEstraier on Windowsのとんだ回り道

以前のエントリーで

> MeCABを使った分かち書き、単語抽出に対応できているのか・・・と知りたかっただけなんだけど。
>コマンドが通ってれば良いっていう話?
> 辞書の文字コードとHyperEstraier内部の文字コードの問題って?
> とか、色々。
> 自分でやってみるしかないのかな(まさか、ビルド?)

と書いた。
結果から言えば、配布されているWindowsバイナリで、そのままMecabに対応していた。
estseek.cgi.confで
relkeynum: 0
となっているところ
relkeynum: 10
とかすれば、抽出された単語が10個出てくる。
ただ、この状態では、文字種による単語分割なのか、Mecabによる形態素解析の結果なのかは判然としない。
なので
estcmd get d:\data\index\www 1 >c:\temp\sample.txt
みたいなコマンドで、ドラフト文書をダンプしてみた
"%VECTOR"なんて出ていればOKらしい。

でも、疑問が残る。
”京都”と検索したら”東京都”が検索結果に出る。
これって、文字列あいまい検索であって、形態素解析の結果ではない。
n-gramの検索結果とマージされちゃうのか?
形態素解析されてます」と信用してしまった良いのか?
謎だ。