y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

動画への字幕データ付加と動画検索の実現について

動画に埋め込まれたテキスト情報を対象とした、全文検索を行い、該当シーンを表示する動画検索システム&ビューアが欲しい。
動画そのものを、検索エンジンがインデキシングしてくれ、人手をかけなくてもテキスト情報を生成できる仕組みがあれば解決されるのだが、なかなかそういうSF的な展開も難しいだろう。
ITmedia総合 > キーワード一覧 > オ > 音声認識
GoogleWebサービスとして提供したとしても、個人的な映像記録をネット上に晒して「どうぞ検索して、自由に閲覧してください」なんていうことは考えにくい。Google検索に、GoogleEnterpriseやGoogleMiniなんかの企業内用途、個人用途にGoogleDesktopのニーズがあるように、そこには絶対に企業内用途や個人用途が必要で、その際には、SDKやらAPIやら、個人向けの安価なパッケージ提供などの流れが必須だ。
その前提では、音声や動画データから自動的にテキスト抽出を行い、検索対象とする技術というのは、まだまだ先の話になりそうだ・・・・と一応の結論を持つにいたった。
「じゃあ、動画検索ってできないの?」「もうしばらく指をくわえて待ってるの?」ということなのだが、
「テキスト化の部分で人手が介在しても、動画をテキスト検索すること自体は可能ではないか?」と考えている。
ちょうどテキスト起こし作業とOCRの関係のように、精度が上がってくれば全自動でもOKだけど、当面は人が介在する。
とか
検索文字列を抽出するだけなら、精度の高いテキストは必要ないから全自動でOK。
とか
透明テキスト付OCRみたいに、検索はOCRテキストで行うけど、結果表示はイメージだから誤読されることが無い
とか
ニーズに応じて、自動、人間の作業を選択できれば良い。
じゃあ、もう少し掘り下げて、動画データに字幕を埋め込む方法と、これを取りだす方法、取り出したテキストに該当する動画シーンを頭出し再生する方法を検討してみよう。

動画フォーマットの中で、各言語の字幕というのがどのように記録されているのかもわからないが、ともかく字幕作成ソフトというのを使って、字幕データを作成できることが分かった。
Subtitle Workshopで字幕作成
Subtitle Workshop : 56種の字幕フォーマットに対応するリアルタイム字幕編集ソフト
ここで動画を見ながら作成した字幕データを、今度は元の動画とマージする(フォントとか位置とか透過などの効果を演出しながら、”レンダリングする”っていう表現が正しいかな)
AviSynthとかVirtualDubなんかというツールを使うらしい。
字幕の入れ方やノウハウについては、人様の仕事ぶりを見ればなんとなく見えてくる。
字幕制作ご利用時に指定可能な各種条件
YouTubeのキャプション作成マニュアルにも目を通しておくと良いことがあるかもしれない。
Google ヘルプ › YouTube ヘルプ › アップロード › 動画の編集 › キャプションの追加/編集
上記で、手持ちの動画にキャプションを入れるとか、YouTubeが好んでくれるテキストデータ(*.SUBや*.SRTと書かれている)ができる。
「オリジナルの動画データと字幕データをマージして、どのような動画フォーマットにすれば良いのか?」
これが次の課題だ。
その次には
「埋め込んだ字幕データを、動画フォーマットから取り出して、外部テキスト化するにはどうすれば良いのか」という課題があり。
「字幕データを検索して、動画の該当箇所を表示する手法」の課題に移るわけだ。
ここまでで、動画に字幕を追加して、指定した単語を含む動画シーンを表示する検索システム・・・というところまで来る。
頭の中では。