※所属・役職はすべて記事公開時点のものです。
2024年10月、リコーは経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する国内生成AI開発力強化プロジェクト「GENIAC※1」に採択され、マルチモーダルLLM(LMM)の本格開発に乗り出した。
リコーのAI開発は1990年代にスタート。画像認識技術を生かした深層学習AIなどの開発を進め、2022年からはいち早く大規模言語モデル(LLM)の研究・開発を行い、日本語モデルなどのリコー独自のLLMを発表するなど、お客様のご要望に応じて提供できるさまざまなAIの基盤開発やサービス展開を進めてきた。
今回は、GENIACの支援のもと開発が進むマルチモーダルLLMの特徴や、マルチモーダルLLMが実現する未来の働き方について、開発を手がけるデジタル戦略部デジタル技術開発センターの木下 彰氏、金箱 裕介氏に話を聞いた。
デジタル戦略部に所属する木下氏の専門は、AI技術を活用した医療画像処理。金箱氏はリコー入社以来、画像認識や機械学習のジャンルでキャリアを積んできた。専門性の高い技術をリコーの新規事業に横展開する活動の中で、木下氏が、技術戦略の経験を持つ金箱氏に声をかけ、画像処理技術を活用できるマルチモーダルLLM開発の事業をGENIACに提案。2024年10月に採択され、AI基盤の開発に必要な計算資源の提供や、企業間の連携支援といった経産省とNEDOのサポートを受けながら、約10名のチームで開発を進めている。
「計算資源の活用で学習や研究を加速でき、他社の技術者の方との横のつながりで技術面の知見も得られています。大規模な並列分散学習の工程などで苦戦することはありましたが、ツールの使い方や設定に関してもベンダーさんの支援を受けられるので、良い環境で開発を進められています」と木下氏は話す。
デジタル戦略部デジタル技術開発センター
木下 彰氏
マルチモーダルLLMとは、テキストや画像、音声、動画など、複数の形式のデータを一度に処理できるAI技術のこと。従来のLLM(大規模言語モデル)が、基本的にテキストでの入出力のみに対応している一方で、マルチモーダルLLMは、より多様なデータでの入出力が可能だ。画像や図表などを含む企業内の多様なドキュメントを読み取れるため、企業知の幅広い活用や、生産性向上の効果が期待されている。
金箱氏は、マルチモーダルLLMができることについてこう語る。「マルチモーダルLLMは、画像や音声、動画を用いた質問でも回答を得ることができます。たとえば、『この画像には何が映っていますか?』『この音声ではどういうことを話していますか?』という質問が可能です。たとえば、画像のグラフについても、数字だけでなく、売上の傾向などの視覚的な情報を読み取ることができるようになります。回答については、現段階ではテキストで答えるモデルが多いですが、既に英語などの音声で出力をしたり、画像や映像で回答が得られるモデルが出てきており、いずれはそのようなモデルの使われ方が一般的になると思います」。
デジタル戦略部デジタル技術開発センター
金箱 裕介氏
リコーのマルチモーダルLLM開発では、これまで手がけた日本語対応のLLMの技術や、複合機ビジネスで培ってきた高い画像処理技術、またグループ企業に加えた独スタートアップ「natif.ai」の先進的なOCR技術も活かされている。
「文字を正確に読み取るための画像の前処理や、AIを活用した画像認識やOCR技術も組み合わせることで、AIの性能を向上できると考えています」と木下氏。たとえば、そのまま提示するだけでは、マルチモーダルLLMが漢字を読み取れずに理解できない画像でも、前段階でOCRをかけることで、読み取りの精度を高められる。『ここにはこういう文字が書いてあります』というテキスト情報や、『タイトルはこの部分に書いてあります』というレイアウト情報を追加することで、質問に正確に答えられるようになるという。
多様なデータを扱えるマルチモーダルLLMは、企業での働き方やライフスタイルをどう変えるのだろうか。木下氏は、マルチモーダルLLMの活用で、人がやるべきことに集中できる世界が訪れると期待する。「言語しか理解できないAIモデルはすべて言葉で指示をしなければいけませんが、マルチモーダルLLMは、画像を見せながら『ここをこうして』というように指示が出せます。柔軟に指示ができるようになるので、人がやらなくていいことをAIに頼んで、本来やるべきことに時間をかけられるようになると思います」。
また、これまでAIに指示が出せなかった作業も依頼しやすくなるため、人ができる作業の範囲も広がる。「たとえば私はHTMLを書くのが苦手なのですが、AIを活用すればこうした作業も、ざっくりとした指示である程度の形のものを作ってくれます。実験結果の可視化など基本的なレベルであれば、自分の専門分野以外のこともできるようになる。そうした意味でも、仕事の効率がぐっと上がると思っています」(木下氏)。
マルチモーダルLLMは、人がビジュアル情報をもとに行う判断を代替できると金箱氏も言う。「目で見て行うべき判断や作業が自動化されることで、ディスプレイを見る時間が減ります。その分、人と話す時間を長くとれるので、より創造性の高い仕事ができるようなると思います。画像内の情報が理解できるマルチモーダルLLMは、いろいろなソースに関する相談役にもなってくれます。それまでグラフをひとりで眺めて煮詰まっていたのが、マルチモーダルLLMに聞くとアイディアがもらえます。優秀な同僚がひとり増えるようなイメージですね」。
AI活用の可能性を広げるこのプロジェクトは、初めての試みや乗り越えるべき課題も多い。金箱氏は、「マルチモーダルなLLMの性能を、学習データを増やす以外のアプローチでどう高めていくかが課題」と語る。
「画像処理と言語処理、両方のモデルに関して、どこに着目しながら解析を進めれば性能が上がるのか、模索しています。そこを乗り越えた先に、小型でも性能が出るマルチモーダルLLMを実現する道筋が見えてくるはずです」。
木下氏は、性能の評価や、目指すべきゴールの設定が今後の課題だと語る。「どういう性能のモデルが良いモデルなのかは、導入する企業や、使う人によっても違います。完成形をどうイメージしてまとめ上げていくのかが、今後の課題ですね」。
ドキュメント活用のカギを握るマルチモーダルLLMは、企業内で動きやすいサイズと性能が求められる。実用性を追求するため、開発チームは、製造業や保険会社などのリコーの顧客の協力のもと、企業の提供データを使った研究も進めている。データは、基盤の学習や、学習で得た知見をモデルの回路に反映するなどの方法で活用されている。今後は、データを学んだLLMを顧客に使ってもらいフィードバックを受けることで改良を重ね、各業界に強いモデルの開発を目指す。最先端のAI技術の開発においても、リコーが培ってきた顧客接点力という強みが活かされている。
近い未来の働き方に影響を与えるマルチモーダルLLMの開発は、木下氏、金箱氏自身の"はたらく"歓びにもつながっている。「私には小学生の娘がいるのですが、彼女たちが大人になる頃、自分が今開発している技術が役立っている未来を思い描きながら働けることが嬉しいですね」と、木下氏は語る。
金箱氏も、最先端の技術開発に携われることを大きなやりがいと捉え、日々挑戦を続けている。
「これまでは、世界最先端の技術開発の成果を論文で読むだけでしたが、今は自ら手を動かし、最前線で技術に取り組めることが"はたらく"歓びにつながっています。現時点では自分自身の歓びが大きいですが、今後はマルチモーダルLLMの技術を活かし、より多くの人がやりがいを感じながら、効率的に働ける社会の実現に貢献したいと考えています」。
マルチモーダルLLMの技術は、ひとりひとりが豊かに暮らせる社会も実現すると木下氏は考えている。
「企業単位でのプライベートLLMは徐々に浸透しつつありますが、これからは『個人にひとつのプライベートAI』を持つ時代が来ると思います。マルチモーダルLLMが、その人の趣味や好みに合わせて面倒な作業を代替してくれれば、より価値のあることに集中できるようになる。限られた人生の時間を、できるだけ楽しいことに使えたら幸せですよね。そんな社会が実現したら、私自身も心から嬉しく思います」。
世界の人々が楽しく働き、楽しく生きる社会の実現のため、リコーのAI開発は発展を続けていく。