連載
» 2015年09月02日 10時00分 公開

5分で分かる最新キーワード解説:失った声を音声合成で取り戻す「ボイスバンク」とは? (1/4)

病気で出すことが難しい「本人の声」を取り戻す音声合成技術研究プロジェクト「ボイスバンク」が始動した。音声合成の最前線に迫る。

[土肥正弘,ドキュメント工房]

 今回のテーマは、多くの人の声を基に、筋萎縮性側索硬化症(ALS)やがんによる喉頭摘出などで声が出せないことに悩む人の「本人の声」を取り戻そうという音声合成技術を背景にした研究プロジェクト「ボイスバンク」だ。

 長時間の録音が必要だった古い音声合成技術とは一線を画した「声の関数化」技術により、数分程度の録音音声があれば、本人の健常時の声に近い音声合成ができるが、多くの患者のための音声合成システムを作るには、多くの人の声を統計処理した「平均声」がさらに必要だ。そのために、さまざまな人の声を集めようというプロジェクトだ。その背後にある最新音声合成技術も解説する。

「ボイスバンク」って何?

 ボイスバンクは、国立情報学研究所の山岸順一准教授が推進する、正しい発音ができなくなったり、声を出しにくくなったり、声が出せなくなったりというような声の障害がある人のために、健常時の声を再現するプロジェクトだ。

 同プロジェクトでは、多数のボランティアが録音した音声を統計処理して関数化した「平均声」を作成した上、数分程度の本人の声(健常時に録音されたもの)を利用することで、健常時の本人の声に近い音声を合成する技術を開発した。この技術による音声合成システムを作成し、ALSなど進行性の病気による構音障害者やがんなどによる喉頭切除者などに試用しもらい、性能評価を行うのが当面の目標だ。

ボイスバンクプロジェクトの概要 図1 ボイスバンクプロジェクトの概要(出典:国立情報学研究所)

 音声合成システムのデータ量は数MB程度でよく、コンパクトなソフトウェアと合わせてPCやタブレットなど身近なデバイスに搭載して利用できるため、発声できない人や構音障害がある人などが、テキスト入力あるいはボタン操作など本人の状態に合った手段で文章を入力すれば、デバイスが本人の声に近い音声を合成して出力する(図2)。

タブレットのボタン操作で合成音声を出力するシステムの例 図2 タブレットのボタン操作で合成音声を出力するシステムの例(出典:国立情報学研究所)

 現在、基礎研究段階として国内のボランティア対象の声の収集がいったん終了し、研究に協力する発語に障害がある人を募っている段階だ。

       1|2|3|4 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

ホワイトペーパーや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。