y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

2006-09-01から1ヶ月間の記事一覧

続 エンタープライズサーチ

先の”エンタープライズサーチの売り文句”が「ほんとかいな?」と気になっていたので、さらに調べてみた。 まず、エンタープライズサーチというジャンル(情報ポータルとかナレッジベースの焼き直し?)が再燃したきっかけが、2005年1月のGoogle検索アプライ…

GoogleMiniのインタフェースカスタマイズ

GoogleMiniは、Googleそっくりだ。当たり前だ。 しかし、インタフェースが物足りない。汎用的な設計が素晴らしいのであるが、どうしてもフォルダツリーメニューや、グラフィカルな検索が出来る方が良い。 素晴らしいことに、GoogleMiniは、RESTで設計されて…

エンタープライズサーチの売り文句ってどうなの?

アットマークITに"イントラネットの夜明けエンタープライズサーチ"という記事があった。 業界からのスローガンなので、少し差し引いて判断する必要があると思うが、以下の主張は、なかなか挑発的で魅力的である。エンタープライズサーチの必要性を説得するデ…

全文検索キーワードの決定に形態素解析を役立てる

全文検索のキーワード選択は、結構難しい。 どこような単語が使われているかを、想像できれば的確な結果が得られるが、そうでない場合は多くのページを目で見て判断する必要がある。複数の単語を指定することにより、より絞り込めるようになっているものの、…

Fallen / Evanescence

エヴァネッセンスの1st こちらのアルバムは、ヴォーカルが宇多田ヒカルに聴こえる部分があり、楽曲自体もずいぶんと聴きやすい。なるほど1500万枚も売れるんだからね。 どれも曲調は暗く、ヒステリック、焦燥感、迷い、葛藤がアリアリ。全曲似ていて、アルバ…

Corrupting Redemption / d.fRost

へヴィロックコーナの視聴機で耳に止まった一品。ここに唯一の情報源が。 ”サンディエゴ・ロックの革命児、日本上陸!”って言われても、サンディエゴ・ロックなんていうのを聞いたこともなければ、ロックに革命っていう文句も良く言われる話なのである。 ロ…

The Open Door / Evanescence

”歌姫系へヴィロック”バンドエヴァネッセンスの2nd。本日発売。 店内で掛かっていたのを「今、かかってるの何?」と即買い。視聴機で、5曲程度チェックしたが、どれも大袈裟で悲しげで、ヒステリックで、美しい。 アルバムを通して聴く中で、「ん?ちょっと○…

懲りずに・・「みんなの意見」は案外正しい

・行き過ぎた権威(専門家)依存への”健全な”ゆり戻しとの指摘←ジャーナリスト ・”みんなの意見”=新しい権威を商売に繋げたいというIT企業の新サービス←Web2.0 ・真の民主主義=完全な機会平等を広めたいとの政治的活動←ネット民主主義 ・純粋に集合論、集…

まだまだ、「みんなの意見」は案外正しいネタ

まだ言い足りない「みんなの意見」は案外正しいに関するネタ 魅力的なテーマでもあり、言葉が独り歩きしがちなテーマであるからこそ、言い足りない感じが残っている。フォークソノミーやblogってそもそも、みんなの意見を大事にする仕組みだし、共起語を判定…

「みんなの意見」は案外正しい?

みんなの意見が、専門家の意見よりも優れる”場合がある”というアイディアが結構有名だ。 しかし、これ大事な前提があって、多様性、独立性、分散性がある集団である必要がある。 かつ、”予想に役立てる情報”と限定する必要もあるかもしれない。エキスパート…

グーグル・アマゾン化する社会 /森健

多様化、個人化、フラット化した世界で、なぜ一極集中が起きるのか?気鋭のジャーナリストが、ネット社会の矛盾に斬り込む。 amazonの商品紹介 グーグルやアマゾンを事例に挙げているが、この本が他のWeb2.0本と違うのは”複雑系ネットワーク”の知識を絡めてい…

スクリプトからバーコード付きのPDF帳票を生成してみる

FDFを使って、WebスクリプトからPDF帳票を生成する・・・を以前、PHPのインターネットアプリでやったことがあるが、今回は、イントラネットのASPアプリでやってみる。そう、いつぞやの文書・図面管理システムの追加機能として。情報をDBとファイルシステムで…

MeCabをPHPから使う・・・の情報など

PHPから使えると何かと便利ってことで MeCab PHP extension moduleを使ってみた MeCabで形態素解析した結果をタグクラウドにする MeCab - HTML::TagCloud そのPerlソース ほえー、こんなのあったんだ HTML::TagCloud

下流喰い〜消費者金融の実態/須田慎一郎

常々気になっていること”消費者金融”について 悪魔のビジネス・モデルと歯に衣を着せないモノ言いをしている新書を発見。 早速購入して、目を通してみると・・・ これがまぁ、呆れるほどの実態になっちゃってるわけです 全就業人口の1/4にあたる2000万人がサ…

フリーの全文検索システム”Hyper Estraier”って凄い

名前だけ聞いた事があった”HyperEstraier”っていう全文検索システム、これ、よくよく読んでみると凄いシステムであることが判明。・・・って知らなかったアタシが馬鹿ってだけなんだけど。 形態素解析とN-gramのハイブリッドで、類似文書検索ができて、関連…

ActivePerlでLingua-JA-Summarize-0.06 を動かす

ActivePerlでLingua-JA-Summarize-0.06 を動かすまでの作業履歴。 ■手順 ・ActivePerlをインストールする ・Perlのパスが通っているかどうかを確認する。 ・IISでplやcgiの実行が可能なように構成する。 ・MeCabのWindows版をインストールする ・MeCabのPerl…

サイボウズラボにキーワード抽出のサンプルが

キーワード抽出モジュールを作ってみたにこんな感じの完璧なキーワード抽出ツールが提示されていた。 ChaSenをPerlのCGIで動かしているようだ。 自分のblogの記事や、googleニュースの記事を貼り付けて、キーワード抽出してみたが、これが素晴らしい結果を出…

IISでPerl

KAKASIとかJUMANを使って、形態素解析をしたいので、開発用サーバ(Windows2003)にActivePerlを入れた。 IISでPerl CGIを動かすには?を参考にして、IISの初期設定をしたが、一緒にインストールされたbenchmarkのプログラムが動作しない。IIS 6.0のWeb拡張…

自己組織化するタグクラウドの実現に向けて(設計・・・らしきもの)

JoltMarkみたいなタグクラウド(意味ネットワーク)を構築する場合の手順(設計らしきもの)をメモしてみる。 ■システムイメージ 登録時処理 ・文書登録時・保存時に件名やコメント欄などの自由文を”形態素解析” ・形態素解析した結果(単語、単語間のつなが…

タグクラウドの空間配置版(メモ)

Visual Wordnetほどの凝ったものではなく、単純に、「massの部分を単語出現頻度の重みで表現したタグクラウドならどうだ?」と思い立ち、早速実験。 ノードデータを持っていないので、自動分類とかではなく、単に、中心が最も重要な単語であり、周辺に行くに…

Visual Wordnet(もしくはJoltMarkタグのグラフ)イイ!

元ネタとしてこれがあって Force Directed Graphs in Javascript? ここにjsファイルがあって Using Force Directed Graphs in Your App こんな風にかっこいい実装があって First Whack at JavaScript Visual Wordnet JavaScript Visual Wordnet FOAF(人間関…

ザ・サーチ〜グーグルが世界を変えた / ジョンバッテル

筆者のジョンバッテルという人は、あの”ワイアード”の共同創刊者とのこと。 ワイアードは、先端技術を紹介しながらも、文化の側面から現象を理解するといった視点を常に持っていた。この本も同じで、googleの技術に深く入り込みながらも、歴史をトレースしつ…

9・11テロ捏造―日本と世界を騙し続ける独裁国家アメリカ /ベンジャミン フルフォード

911陰謀説を解説した怖いもの知らずの一冊 軍産複合体に支配されているアメリカの現状や、911そのものについて書かれていることは、Webで調べることができる内容が多い。しかしネオコンや今に生き続ける”優生学”について書かれている部分は、戦慄を感じる。 …

コンテンツの代表キーワードを決定する方法

形態素解析のWebサービスなんてないかな?と調べていたら コンテクストサービスの基礎知識なんていうページを発見。 Webページを検索した時に、検索条件とマッチしたテキスト広告を表示させる”GoogleAdSense”みたいなことをするための技術。 コンテンツを形…

GoogleMiniを使ったシンプル・ローコストなナレッジベース

GoogleMini: Googleのテクノロジーを1Uサーバに詰め込んだ、検索専用アプライアンスサーバ。 50万円程度で買える。よくある階層検索の実現方法: 部課別、年度別などのフォルダツリー(各フォルダには業務件名を絞り込むクエリを設定する) フォルダをクリ…

”全文検索システムの検索結果精度を上げる方法(案)”の結果

9/7のエントリで「業務件名を形態素解析した複数語を指定して、その業務に該当する文書の全文検索精度を向上する」という方法を検証していくと書いた。 その後、(非常にサンプルとしては心もとないのであるが)10件の業務名称と2800件のドキュメントに対し…

形態素解析をWebスクリプトで実行したい

形態素解析を検索システムで使う”面白さ”に魅入られている。 自動要約や自動キーワード付与、コンテンツごとのタグクラウド生成に必須の技術だからだ。 Web経由でテキストを渡してやり、品詞分解された単語だけを返すWebサービスができたら、色んなプログラ…

また911がやってきた

今年もまたまた911がやってくる 誤解を招くような言い方だが、911のようなテロがまたまた起こるという予言ではもちろん”ない” 単純に、メディアがまた911を蒸し返すという意味だ 911は、事件直後から「本当に飛行機がビルを破壊したのかね?」という検証がさ…

全文検索システムの検索結果精度を上げる方法(案)

全文検索システムの検索結果精度を上げる方法として、 ・自然文解析技術の向上 ・属性検索と全文検索のハイブリッド ・ユーザの参照数をランキング評価に採用する ・・などなどの方法があるのだが、そもそも検索結果精度が問題になるのは、「探しあてられる…

PATIENT 14

聴覚が異常に敏感になる特殊な生体実験。(聴覚増強実験) 通常の10倍の聴覚と、人が頭で思ったことが聴こえてしまう。 刑事事件や諜報活動に使われる主人公。 本当の人体実験を題材にしているらしいのだが、面白い! いや、人体実験が面白いのではなく、こ…