本技術に関する論文が、音声・言語処理技術の国際会議「INTERSPEECH 2024」で採択されました。
音声認識AIは、人が発した言葉や声、会話をAIが認識・解析し、テキストデータへ変換して出力する技術です。会議中の字幕表示、議事録や報告書の作成等、ビジネスの現場で活用が広がっています。音声認識AIを使えば、人がキーボードを使って音声をテキスト化する場合に比べて、早くテキスト化・システムへのデータ入力が可能となるため、業務効率化につながる非常に有効な入力方式として期待されています。
音声認識AIの学習には以下の課題があります。
リコーが開発した音声認識AIの学習手法は、学習のコストと音声品質への頑健性の課題を解決することで、以下の実現に貢献します。
リコーの音声認識AIの学習手法には以下の特徴があります。
この学習手法は、次の2つの新規技術により、音声認識AI用事前学習モデルを構成します。
音声認識AI用の自己教師学習では、学習に用いる教師ラベル(正解データ)を、書き起こしデータを用いずに、入力音声自体から推定します。
自己教師学習に用いるラベルを、データセットの統計的分布を用いずに、入力音声に応じて一意に決める決定論的演算を用いて導出します。この導出は、入力音声の音素情報(意味を区別する音声の最小単位)によった演算結果となるため、音声認識タスクへの順応性が非常に高い事前学習モデルの構築をシンプルなEnd-to-End学習(端対端学習:入力から出力までを一連の流れで学習すること)で実現します。
学習環境を使用環境に近づけるためのデータ拡張ではなく、どのような使用環境下でも、音声認識に必要な音素を主体とした情報のみを探り出すという能力を強化するためのデータ拡張を行います。具体的には、学習時の入力音声に対し、元のクリアな音声から、発話内容が何とか聞き取れる程度の明瞭度まで、さまざまな明瞭度の音声を生成し、それらが同じ認識結果を返すように学習を促します。この技術により、音声認識AIの音響環境耐性をより幅広く向上させることに成功しました。
技術の詳細は、INTERSPEECH 2024(英語サイト)で採択された『Self-Supervised Learning for ASR Pre-Training with Uniquely Determined Target Labels and Controlling Cepstrum Truncation for Speech Augmentation』をご覧ください。
リコーではデジタルサービスを活用し、働く人の創造力の発揮を支えるワークプレイスデザインの実現を目指しています。また、プロセスオートメーションを成長領域と定め、幅広い統合的なソリューションを通じて、世界中のお客様の業務の効率化や高度化を支援しています。このデジタルサービスやプロセスオートメーションを支えるAI技術として、さらなる音声認識AIの研究開発に取り組んでいきます。
分野別