y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

IndexServiceの全文検索で透明テキスト付きPDFがOK

IndexServiceにIFilterを適用した。特にお気に入り(利用度が高い)のはPDFのフィルタ。
元々ワープロ表計算ソフトから作成されたPDFで全文検索できるのは驚くに当たらない(いまや誰でも知っている当たり前の機能)。・・で今回テストして分かったのは、ラスターにオーバーレイした透明テキストもきちんと索引を作っているらしいこと。ラスター(画像)に透明テキストをオーバーレイしたPDFとは、HypergearやXeloなんかが出しているPDF-OCRで生成される”元が画像データなのに全文検索できる不思議なPDF”。
Hypergear製のPScanServというコンバータの場合は、スキャンしたTIFFデータを監視ディレクトリに放り込むと、自動的にPDF化とOCRを行い、ラスタの上にOCR化したテキストをオーバーレイしてくれる。10ポイントのA4文書でOCR,PDF化が1秒以内という凄いスピード。
これを使うと、スキャンしながら全文検索システムに自動登録する仕組みができる。
・・でWindows標準の全文検索機能では、この透明テキスト付きPDFを上手く検索にヒットできなかったのだが、IFilterをかませてやったら見事に検索にヒットしたという話。

資料の電子化でもっともお金が掛かるところは、属性データを付与する部分であるので、この透明テキスト付きPDFはかなりの費用対効果を期待できる。「所詮インデックスとして利用するテキストデータであるので、認識率が90%程度でもかまわないではないか!」という発想の元、全自動&全文検索なんていうニーズを掘り起こせるはずだ・・と鼻息が荒い。
テキストがいい加減なのであれば、全文検索システムの方で検索ヒット率を稼ぎたいところなのであるが、IndexServiceの素直な姿では、シソーラスだとか専門用語辞書とかが無いので、検索精度にちと問題がある。Googleで実現されているような「もしかして・・これ?」っていう検索も実現できたらかっこいいんだけどなぁ。

ともあれ、死蔵されている紙文書を、ナレッジとして活用できる道筋が立ったというだけでも、かなりの進歩。