音声認識AIのための自己教師学習とデータ拡張技術

音声認識AIの学習効率と認識精度を向上させる独自の学習手法

本技術に関する論文が、音声・言語処理技術の国際会議「INTERSPEECH 2024」で採択されました。

背景

音声認識AIは、人が発した言葉や声、会話をAIが認識・解析し、テキストデータへ変換して出力する技術です。会議中の字幕表示、議事録や報告書の作成等、ビジネスの現場で活用が広がっています。音声認識AIを使えば、人がキーボードを使って音声をテキスト化する場合に比べて、早くテキスト化・システムへのデータ入力が可能となるため、業務効率化につながる非常に有効な入力方式として期待されています。

音声認識AIの学習には以下の課題があります。

  • 音声認識AIの学習には、入力する音声とそれに対応する書き起こしテキストのペアを大量に学習させるのが一般的ですが、書き起こしにコストがかかります。学習のコストを抑えるため、大量の書き起こしのない音声と、ごく少量の書き起こし付き音声を用いて音声認識の機能を付与(ファインチューニング)する手法が研究されています。
  • 実際の使用環境で得られる音声は、用途・場所等により品質が異なります。さまざまな環境で利用できるようにするために、音響ノイズへの耐性の強化が求められます。

解決したこと

リコーが開発した音声認識AIの学習手法は、学習のコストと音声品質への頑健性の課題を解決することで、以下の実現に貢献します。

  • マイクから離れたノイズや残響を含む音声、さらに人同士のくだけた話し言葉も頑健に認識し、音声認識AIの利用を容易にします。
  • 多くの人が作業をシェアするワークプレイスにおいて、議事録や報告書の自動作成やミーティング中の字幕表示、さらにAIエージェントとの音声対話など、音声コミュニケーションのプロセスオートメーションのツールとして、多様な働き方を支援します。
ミーティングのイメージ

ミーティングのイメージ

技術の特徴

リコーの音声認識AIの学習手法には以下の特徴があります。

  • 独自の自己教師学習手法(書き起こし無しの音声のみを利用する学習方法)により、自己教師学習におけるラベル生成の過程を簡素化し、開発者が独自に事前学習モデルを構築する際の技術的な難易度を大きく下げることができます。
  • 元の音声の明瞭度をさまざまなレベルまで落とすデータ拡張技術により、ノイズの種類に関わらず、どのような音響環境でも音響ノイズ耐性を幅広く強化することができます。

この学習手法は、次の2つの新規技術により、音声認識AI用事前学習モデルを構成します。

1. 自己教師学習手法

音声認識AI用の自己教師学習では、学習に用いる教師ラベル(正解データ)を、書き起こしデータを用いずに、入力音声自体から推定します。

自己教師学習に用いるラベルを、データセットの統計的分布を用いずに、入力音声に応じて一意に決める決定論的演算を用いて導出します。この導出は、入力音声の音素情報(意味を区別する音声の最小単位)によった演算結果となるため、音声認識タスクへの順応性が非常に高い事前学習モデルの構築をシンプルなEnd-to-End学習(端対端学習:入力から出力までを一連の流れで学習すること)で実現します。

2. データ拡張手法

学習環境を使用環境に近づけるためのデータ拡張ではなく、どのような使用環境下でも、音声認識に必要な音素を主体とした情報のみを探り出すという能力を強化するためのデータ拡張を行います。具体的には、学習時の入力音声に対し、元のクリアな音声から、発話内容が何とか聞き取れる程度の明瞭度まで、さまざまな明瞭度の音声を生成し、それらが同じ認識結果を返すように学習を促します。この技術により、音声認識AIの音響環境耐性をより幅広く向上させることに成功しました。

技術の詳細は、INTERSPEECH 2024(英語サイト)で採択された『Self-Supervised Learning for ASR Pre-Training with Uniquely Determined Target Labels and Controlling Cepstrum Truncation for Speech Augmentation』をご覧ください。

リコーの想い

リコーではデジタルサービスを活用し、働く人の創造力の発揮を支えるワークプレイスデザインの実現を目指しています。また、プロセスオートメーションを成長領域と定め、幅広い統合的なソリューションを通じて、世界中のお客様の業務の効率化や高度化を支援しています。このデジタルサービスやプロセスオートメーションを支えるAI技術として、さらなる音声認識AIの研究開発に取り組んでいきます。

本技術の分類

PAGE TOP