私のブックマーク
音声認識・合成編
1.はじめに
近年音声情報処理技術は飛躍的に進歩しており,音声研究に縁の薄かったアプリケーションサイドの人達も,手軽に音声技術を使える環境が整いつつある。本報では,音声認識システムあるいは,音声応用システムを新たに開発しようとする技術者にとって,有用と思われるページを紹介する。
2.音声言語コーパス
音声認識・合成システムを作ろうとする場合,避けて通れないのがデータ収集であり,音声応用システムの開発者にとって最も有用なのは,音声・言語コーパスに関する情報であろう。
日本語に関しては,日本音響学会,電子協,ATR,RWCなどが重要なコーパスを開発し,公開している。日本音響学会の連続音声データベース[1],新聞記事読み上げ音声コーパスJNAS[2]などは,連続音声とその転記から成り,音響モデルの学習用に適している。電子協は,単語音声や騒音などのデータを収集している[3]。ATRは,音素や音響的イベントのラベルがついた音声から,大量の自由発話音声に至るまで,様々なデータを収集し,公開している[4]。RWCは,自然発話のデータベースや,マルチモーダルデータベース(ジェスチャーを交えた音声のデータベース),実環境における音のデータベースを作っている[5]。その他,筑波大学板橋教授のホームページに,代表的な日本語音声コーパスが紹介されている[6]。
米国では,多くの重要な音声コーパス作成において中心的役割を担った,NIST(National Institute of Standards and Technology)のページが興味深い[7]。その他,OGI(Oregon Graduate Institute)なども,多言語コーパスを始めユニークなコーパスを集めている[8]。
海外には,コーパスの共有を促進するための様々な組織があり,コーパスを収集するとともに,その頒布を行っている。米国にはLDC(Linguistic Data Consortium)という組織があって,米国に限らず世界中の音声・言語コーパスの情報を得ることができる[9]。欧州にはELRA(European Language Resources Association)があって,LDCと同様な役割を担っている[10]。日本においては,この種の組織整備が遅れていたが,最近GSKという組織ができ,今後日本におけるLDC的な役割を果たすことを期待されている[11]。また,データベースと評価のありかたを討議する場としてCOCOSDA(Coordinate Committee for Speech Database and Speech I/O Assessment)という委員会があって,会議予定を始め活動内容を広報している[12]。
3.ツール関係
データと並んで,有用なのがツールに関する情報である。
日本語ディクテーションの共有ソフトウェアとして,JULIUSが公開されている[13][14]。高精度な音響モデル,言語モデル,読み付与ソフトなどが提供されており,手軽に連続音声認識システムを実現できるようになっている。
より基礎的な研究のために必要となるソフトウェアも多くのものが公開されている。言語モデル開発用として,CMU-Cambridge Tool Kit が有用である[15]。NISTも音声の切り出しや,圧縮したファイル読書き,あるいは評価など,音声処理用のツールを数多く公開している[16]。波形ファイルのフォーマット変換にはSoXがある[17]。
ニュースグループのFQAなどを集めたページとして,[19]などがあり,主要なツール・データに対するリンクも用意されている。
開発に必要なAPIの情報は,[19][20]で得られる。
4.研究会・会議・文献検索
国内の重要な研究会としては,音声研究会[21],音声言語情報処理研究会[22],言語音声理解と対話処理研究会[23]などがあって,ホームページを通じて論文募集,会告などを行っている。
海外の音声関連学会組織としては,IEEE SP Society[24],ISCA(International Speech Communication Association)[25] などが重要である。
国際会議としては,IEEEのICASSP,Eurospeech,ICSLPなどが重要である。このうち,ICASSP2000[26],ICASSP2001[27],Eurospeech2001[28]などがホームページを用意している。
また,京都大学では,これらの研究会,国際会議を始め,主要学会誌に掲載になった論文のデータベースを作り,その内容を簡易に検索できるページを公開しており,非常に便利である[29]。
5.製品・研究システム情報
電子協の音声入出力委員会にて,毎年,調査を行なっている,国内で発売されている音声認識と音声合成関連製品の情報があり,昨年98年度の情報から公開されるようになった[30]。また,音声合成に関しては,幾つかの合成システムをインタラクティブに利用できるようになっているページがあり興味深い[31]。
6.むすび
音声研究開発に有用と思われるページを選んで紹介した。他に,音声関連の有用なページへのリンク集として,奈良先端科学技術大学鹿野研究室のホームページ[32]がある。日本のリンク集としては,群を抜いて充実しており非常に便利である。
尚,本稿をまとめるにあたり,京都大学河原達也助教授,NTT阿部匡伸氏,キャノン小森康弘氏に情報提供いただいた。記して感謝申し上げる。
(小林 哲則,早稲田大学理工学部)
[1] http://www.milab.is.tsukuba.ac.jp/corpus/jeida.html#7
[2] http://www.milab.is.tsukuba.ac.jp/jnas/
[3] http://www.jeida.or.jp/committee/humanmed/speech/
[4] http://www.atr.co.jp/results/
[5] http://www.rwcp.or.jp/wswg/rwcdb/
[6] http://www.milab.is.tsukuba.ac.jp/corpus/
[7] http://www.nist.gov/speech/corpora.htm
[8] http://cslu.cse.ogi.edu/corpora/
[10] http://www.icp.grant.fr/ELRA/home.html
[11] http://www.jeida.or.jp/gsk/
[12] http://www.itl.atr.co.jp/cocosda/
[13] http://www.lang.astem.or.jp/dictation-tk/
[14] http://winnie.kuis.kyoto-u.ac.jp/pub/julius/
[15] http://srv-www.eng.cam.ac.uk/prc14/toolkit.html
[16] http://www.nist.gov/speech/software.htm
[17] http://www.spies.com/Sox/
[18] http://www.itl.atr.co.jp/comp.speech/
[20] http://www.sunlabs.com.research/speech/
[21] http://www.ieice.or.jp/iss/sp/jpn/
[22] http://www.tk.elec.waseda.ac.jp/~koba/SLP/
[23] http://winnie.kuis.kyoto-u.ac.jp/sig-slud/
[25] http://www.isca-speech.org/
[26] http://icassp2000.sdsu.edu/
[27] http://www.elen.utah.edu/~cmyers/icassp.html
[28] http://cpk.auc.dk/eusp2001/
[29] http://winnie.kuis.kyoto-u.ac.jp/bibliography/
[30] http://www.jeida.or.jp/committee/humanmed/speech/doukou98/
[31] http://morph.ldc.upenn.edu/ltts/
[32] http://iw3.aist-nara.ac.jp/IS/Shikano-lb/database/database_list.html