音声認識技術とは？　議事録作成ツールの現在地、オンプレミスとクラウドの違いと選定ポイント（1/2 ページ）

音声認識技術にあらためて注目が集まる。近年は、働き方改革を背景として、議事録作成支援ツールやコールセンターを中心にビジネスでの活用が広まっている。その実力とは？　認識精度やメリット、オンプレミスとクラウドAPIの違い、製品選定のポイントを解説する。

» 2019年09月17日 10時00分公開

[吉村哲樹，オフィスティーワイ]

生産性向上のための手段として期待を集める音声認識

　音声認識技術を活用したITソリューションが注目を集めている。音声認識とはその名の通り、人が話した音声をコンピュータが自動的に認識し、テキストデータに変換するというもの。これを応用することで、多くの人手が費やされている仕事を省力化でき、業務効率化を実現できるといわれる。既にコールセンター業務や医療現場、議事録作成といった分野で活用されており、最近ではRPA（Robotic Process Automation）と連携させることで、ロボットによる自動化の範囲を押し広げるものとしても関心を集める。

　音声認識技術に対する注目度が増した直接的なきっかけは、2016年ころから花開いたディープラーニング技術の登場だ。ディープラーニングを応用することで認識率が飛躍的に向上し、音声認識技術はiPhoneの「Siri」やAndroidの“OK, Google”に代表されるようなコンシューマー製品向けの「物珍しい飛び道具」から、ビジネスシーンでの利用にも十分耐え得る実践的なものへ進化を遂げた。

　具体的に、音声認識技術は現在どのレベルまで到達しており、ビジネスの現場ではどのような用途で利用されているのだろうか。音声認識の専業ベンダーであるアドバンスト・メディアの大柳伸也氏（取締役執行役員事業本部本部長）に話を聞いた。まずは、音声の認識精度を決定付ける「3つのファクター」を紹介する。

いかに良好な音質で音声を取り込めるか

　「AIを使った音声認識」と聞くと、AIモデルそのものの優劣が認識率を左右すると思われがちだが、実はAIに投入する「音声データの品質」がとても重要で、認識率を大きく左右する。雑音がなく、音質が良好なデータであれば、認識率は向上する。一方、音声以外に雑音やノイズが混じっていたり、マイクと口が離れているために音質が悪かったり、複数人の声が重なったりしていると認識率は低下する。

　音声認識の製品やサービスを提供するベンダーは、AIモデルの開発だけでなく、優れた音質で音声データを取り込むための研究に多くのリソースを投入している。例えば、既に数多くの自治体や民間企業で実用化されている議事録作成支援システムでは、会議の参加者が話す声を極力クリアに取り込むため、話者一人一人に専用の指向性マイクを用意する。こうした録音環境が整い、互いの話がかぶらないよう議事を進行すれば、かなり高い精度で音声をテキスト化できる。

　一方、多人数が自由かつ不規則に発言する会議の模様を、卓上のICレコーダーのみで録音した音声データでは、現時点では高い精度の認識は期待できない。この壁を乗り越えるため、音声データの中からノイズを除去したり、人間の声だけをきれいに抽出したりする技術の研究が各所で進められており、将来的には音質の悪いデータでも高い精度の音声認識が可能になるかもしれない。

話者が丁寧かつ滑舌よく話しているか？

　2つ目のファクターは、話者の「話し方が正確かつ丁寧かどうか」という点だ。丁寧に正確な文法で話された音声は、認識しやすい一方、そうでない場合はどうしても認識率が低くなってしまう。声を入力する際にはなるべく滑舌よく丁寧に話すことが求められるが、会議や電話など話者に丁寧に話すよう頼みづらい場面では、ある程度目をつぶらざるを得ないだろう。

AIモデルの学習データの質と量は十分か？

#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}