y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

GoogleMini体験記

お仕事でGoogleMiniに触れるチャンスが到来。
事前情報で、「30分で楽々初期設定」と聞いていたが、その通りであった。
また「NTPの設定によっては、ライセンス認証(Webクロールも?)上手くいかない」という情報もあったが、これもその通り。
GoogleMiniでは、どこまで行ってもクロール設定が命なのである。WebクロールでもローカルクロールでもURL設定、クロールされる側のアクセス権設定、認証設定ができていなきゃNG。いつまで経っても、検索結果は出てこない。
ローカルクロールの場合、Windowsライクに\\サーバ名\共有名っていう指定ではなく、smb://IPアドレス/共有名って指定する部分がマニアック。もちろん、Windowsディレクトリの共有設定に見合ったアクセス権をGoogleMiniに設定しなければクロールできない。
試験的に取り込んだ約2800ファイル、2.21GBが晴れて、検索対象に!
あとはGoogleの世界ですわ。AND,OR,NOT、()付き組み合わせ検索、検索対象指定などなど

検索画面も検索結果画面もXSLTの記述でカスタマイズを行う。
そんなに大それたカスタマイズは出来ないものの、検索対象文書のグループをコレクションとして定義できて、検索時のドロップダウンとして指定できるので、簡単なカテゴリの機能があると見て良い。
検索キーワード指定で使う、類義語辞典なんかもWeb管理画面からメンテナンスできる。
キーワード指定時の支援機能として必要十分な気がする。
インデックスの中から単語を抽出して、意味(近接度を使って?)勝手にグループ化し、内容に応じたキーワードをどんどん出してくれると面白いと思うが、さすがにそこまで来ると、ジャストシステムのコンセプトベースサーチあたりの領域になってくるのだろう。
Webクロールが、NTLM認証とか基本認証だけでなく、フォーム認証に対応してくれると、既存Webシステムのコンテンツもガバガバっと吸い込んでくれるのでありがたいなぁ。
...とはいえ、既存システムの方でWebサービスを作成して、GoogleMiniのクロールに対して、検索結果を動的に書き出すようにカスタマイズすれば良いので、GoogleMiniをポータルにしちゃう方法が無いわけではない。
今後、GoogleMini標準のXSLTXML出力機能を使って、インタフェース周りをカスタマイズしてみようと思う。