以前のエントリーで
> MeCABを使った分かち書き、単語抽出に対応できているのか・・・と知りたかっただけなんだけど。
>コマンドが通ってれば良いっていう話?
> 辞書の文字コードとHyperEstraier内部の文字コードの問題って?
> とか、色々。
> 自分でやってみるしかないのかな(まさか、ビルド?)
と書いた。
結果から言えば、配布されているWindowsバイナリで、そのままMecabに対応していた。
estseek.cgi.confで
relkeynum: 0
となっているところ
relkeynum: 10
とかすれば、抽出された単語が10個出てくる。
ただ、この状態では、文字種による単語分割なのか、Mecabによる形態素解析の結果なのかは判然としない。
なので
estcmd get d:\data\index\www 1 >c:\temp\sample.txt
みたいなコマンドで、ドラフト文書をダンプしてみた
"%VECTOR"なんて出ていればOKらしい。
でも、疑問が残る。
”京都”と検索したら”東京都”が検索結果に出る。
これって、文字列あいまい検索であって、形態素解析の結果ではない。
n-gramの検索結果とマージされちゃうのか?
「形態素解析されてます」と信用してしまった良いのか?
謎だ。