Vol.15 No.2 (2000/03) 音声認識・合成 – 人工知能学会 (The Japanese Society for Artificial Intelligence)

私のブックマーク

音声認識・合成編

１.はじめに

　近年音声情報処理技術は飛躍的に進歩しており，音声研究に縁の薄かったアプリケーションサイドの人達も，手軽に音声技術を使える環境が整いつつある。本報では，音声認識システムあるいは，音声応用システムを新たに開発しようとする技術者にとって，有用と思われるページを紹介する。

2.音声言語コーパス

　音声認識・合成システムを作ろうとする場合，避けて通れないのがデータ収集であり，音声応用システムの開発者にとって最も有用なのは，音声・言語コーパスに関する情報であろう。

　日本語に関しては，日本音響学会，電子協，ATR，RWCなどが重要なコーパスを開発し，公開している。日本音響学会の連続音声データベース[1]，新聞記事読み上げ音声コーパスJNAS[2]などは，連続音声とその転記から成り，音響モデルの学習用に適している。電子協は，単語音声や騒音などのデータを収集している[3]。ATRは，音素や音響的イベントのラベルがついた音声から，大量の自由発話音声に至るまで，様々なデータを収集し，公開している[4]。RWCは，自然発話のデータベースや，マルチモーダルデータベース（ジェスチャーを交えた音声のデータベース），実環境における音のデータベースを作っている[5]。その他，筑波大学板橋教授のホームページに，代表的な日本語音声コーパスが紹介されている[6]。

　米国では，多くの重要な音声コーパス作成において中心的役割を担った，NIST(National Institute of Standards and Technology)のページが興味深い[7]。その他，OGI(Oregon Graduate Institute)なども，多言語コーパスを始めユニークなコーパスを集めている[8]。

　海外には，コーパスの共有を促進するための様々な組織があり，コーパスを収集するとともに，その頒布を行っている。米国にはLDC(Linguistic Data Consortium)という組織があって，米国に限らず世界中の音声・言語コーパスの情報を得ることができる[9]。欧州にはELRA(European Language Resources Association)があって，LDCと同様な役割を担っている[10]。日本においては，この種の組織整備が遅れていたが，最近GSKという組織ができ，今後日本におけるLDC的な役割を果たすことを期待されている[11]。また，データベースと評価のありかたを討議する場としてCOCOSDA(Coordinate Committee for Speech Database and Speech I/O Assessment)という委員会があって，会議予定を始め活動内容を広報している[12]。

3.ツール関係

　データと並んで，有用なのがツールに関する情報である。

　日本語ディクテーションの共有ソフトウェアとして，JULIUSが公開されている[13][14]。高精度な音響モデル，言語モデル，読み付与ソフトなどが提供されており，手軽に連続音声認識システムを実現できるようになっている。

　より基礎的な研究のために必要となるソフトウェアも多くのものが公開されている。言語モデル開発用として，CMU-Cambridge Tool Kit が有用である[15]。NISTも音声の切り出しや，圧縮したファイル読書き，あるいは評価など，音声処理用のツールを数多く公開している[16]。波形ファイルのフォーマット変換にはSoXがある[17]。

　ニュースグループのFQAなどを集めたページとして，[19]などがあり，主要なツール・データに対するリンクも用意されている。

　開発に必要なAPIの情報は，[19][20]で得られる。