y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

次はログ解析機能かな

段々楽しくなってきた、一人プロジェクト
検索機能が充実してきたので、次は、ログ解析かなぁと考えている。
文書管理システムに限らず、検索エンジンでは、どんな条件で探した、誰が何を見た、何が良く見られる・・・という情報がとっても有益。
Webサイトの場合は、querystringから抜き出した検索条件ランキングや時間帯、日毎のアクセス数なんかを気にするが、企業で文書を活用する上で、つまり文書(図面)の流用度や参照回数を正しく評価することは重要。
検索システムの開発者にとっても、キーワードの見直しやインデックスの張り方、使いやすいインタフェースのための貴重なデータになる。
データが集まれば、「グラフ」だの「統計処理」だのという話は当たり前といえば当たり前。もっと話を進めちゃえば、検索条件として指定される単語でヒストグラムやら相関をとって(これは時間で相関があるはず)、ということはテキストマイニングをするってわけ。テキストマイニングといえば、全文検索システムで盛んだが、RDBMSの検索条件式をテキストマイニングしても良いわけで、全文検索RDBMS検索の両方を兼ね備えた文書管理システムで、テキストマイニングのネタ(ログ)が取得できて、さらに解析のための材料まで提供できたら、これは結構便利なんじゃないかと。

とりあえずは、Web統計ソフト(WebalizerとかAwstats)であるような、日毎のアクセス数、良く参照されるコンテンツ(フォルダ)や検索条件のランキング表示、それからエラー集計と、良く利用しているユーザ・・・あたりから攻めてみる。グラフ表示はJavascriptコンポーネントをどこかから拾ってきて使っちゃおう。

実はこの”文書管理のログを詳細に取って活用したい”というアイディアは、この間文書管理システムを納品したお客さんが強烈にアピールしてきたニーズからの発想なのである。

団塊の世代が定年を迎え、現役から退いていくことが大きな社会問題になっている中、”技術の伝承”の問題がクローズアップされている。そこに、紙文書の電子化、検索システム導入などの動機があるのだが、このとき出来るだけ多くの属性情報やら非定型文書を集積して、誰でも簡単にナレッジを取り出せるようにするのが第一歩。団塊の世代の頭の中を、すべて電子情報にしなければいけないってわけ。
・・・で、今までの文書管理システムでは、誰がログインした、誰が改訂した・・・・程度の情報しか履歴に残していなくって、何を参照した、何をダウンロードしたっていうような参照系の情報は殆ど見過ごされていた。(・・っていうか、ログの方がはるかにでっかいデータベースになっちゃう)
誰が何を参照して、その結果何が良く見られていて、どれくらいの効果が出ているのか?
技術情報を扱う部署が、真っ先に”現場へのアピール材料”として扱いたい情報である。
電子文書として登録していくにしてもお金が掛かるわけで、「費用対効果の高いファイリングとは何か」というあいまいな問いかけに対して、利用度という確実なデータで応えられるというわけ。

やっぱり、ログ解析機能は必須だ。
単に検索して表示するだけのWebDBじゃつまらない。