y-matsui::weblog

電子楽器、音楽、コンピュータ、プログラミング、雑感。面倒くさいオヤジの独り言

テキスト読み上げ(Text To Speech)

テキスト読み上げを調べた。
英数カナ漢字混じりでも読み上げできて、音声ファイル(出来ればmp3)に書き出せるものを探した。
結果
SofTalkおしゃべりテキスト青空ろーどくTextToWavを探し当てた。
どれも内部でAquesTalkというライブラリを使っているのだが、このAquesTalkが素晴らしい。
音声記号列仕様にしたがって、アクセントや無声化、ガ行鼻濁音なんかを変えると、かなりリアルな読み上げになる。
SofTalkは、この音声記号列仕様をそのままテキストとして読み込ませることができるので、発音にこだわることが出来る。
青空ろーどくは、LAMEを出力オプションとして使うことで、MP3に書き出し出来る。
今のところお気に入りは、おしゃべりテキストをコマンドで起動して、バッチ処理する方法。その後LAMEをコマンドで起動して、mp3に変換する。
本当は、SofTalkをコマンド起動して、自動的に音声ファイルを書き出せれば良いのだが、コマンドで起動しかできていない。
・・とここまで書いててAquesTalkを作っている会社から、CmdTalkなんていうツールが出ていることを知る。コマンドライン音声合成出来るヤツ。
これで、音声データの保存まで出来れば最高なんだけどね。AquesTalkのDLLを使って、コマンドラインアプリを作ればいいってことか。この会社、他にもVocalizerなんていうVSTiのモジュールを作っていたり、PhontDesignerなんていう音声合成用のエディタを作っていたりする。渋いなぁ。憧れるなぁ。

なんとも恐れ多い事に・・・
バッチ処理で、玉音放送のテキストをロボット音声で読み上げて、Darwin Streaming Serverでmp3ストリーミングしてみた。格調高い日本語なので、ロボット音声でも、重みがある。
般若心経なんかもやってみるか。