ニュースリリース リコー、GENIACでマルチモーダルLLMの基本モデルを開発完了 日本企業の知の結晶であるドキュメント活用を目指し、7月に無償公開

2025年6月10日
株式会社リコー

株式会社リコー(社長執行役員:大山 晃)は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)※1」において、マルチモーダル大規模言語モデル(以下「LMM」)の開発に取り組んできました。このたび、リコーは日本企業の図表を含むドキュメントの読み取りに対応したLMMの基本モデルの開発を完了したことをお知らせします。視覚とテキストの両方の情報を活用する日本語の質問応答データセットであるJDocQAおよび独自ベンチマークツール※2による検証の結果、他のモデルと比較しても優れた性能を示すことが確認されました(2025年4月24日時点)。リコーは、7月29日から開催される画像の認識・理解シンポジウム 「MIRU2025」にて論文を発表し、本基本モデルおよび独自に開発したベンチマークツールを無償で公開します。

1. 取り組みの背景と社会課題

LMMとは、テキスト・画像・音声・動画など複数の種類のデータを同時に処理できるAI技術のことです。スクリーンショットからのテキスト要約や、図を用いた質問への適切な回答など、さまざまなタスクにおいて高い性能を発揮し、幅広いデータ形式を効果的に処理する適応性に期待が集まっています。

企業内で蓄積されるドキュメントには、請求書や領収書などのトランザクションデータ、事業戦略や計画などの経営資料、サービスマニュアルや社内で定めた技術標準、品質管理基準などの技術文書など、さまざまな形式があります。これらのドキュメントには、テキストだけでなく、図や表組、画像なども含まれています。企業内文書の効率的な利用や新たな価値・イノベーションを生み出すための活用が期待されていますが、「テキスト検索でも意図した結果が得られない」、「検索のみの利用では効果的な活用ができていない」などの課題があります。

また、近年の労働力の減少に対応した効率的な働き方や、ベテラン社員の退職に伴う技能伝承、外国人労働者の増加に伴う社内文書の多言語化への対応などの経営課題に対して、性能が著しく向上しているAIを活用し、より効率的で、付加価値のある企業知の活用のニーズが高まっています。既存のLLM/LMMでは、きめ細かな画像認識を必要とするビジネス文書の読解精度に課題があり、リコーはGENIACにおいて、日本企業で活用できるLMMの開発に取り組んでいました。

2. 今回の成果

リコーは、本基本モデルの開発に際して、文字/円グラフ/棒グラフ/フローチャートなどの視覚データ合計600万枚以上を人工生成しました。学習用データの人工生成手法を確立することで、大量の学習用データの整備が可能となり、LMMの性能向上に寄与しています。

開発パートナーの1社であるFastLabel株式会社(代表取締役CEO:鈴木 健史、以下「FastLabel」)からは、学習用および評価用の実データの収集とアノテーション※3業務の支援を受けました。FastLabelとは、リコーが主催するアクセラレータープログラム「TRIBUS(トライバス)2022」での採択がきっかけで、両社の協業が始まりました。

また、セキュリティやプライバシー、ガバナンスなどの観点から、オンプレミスや自社データセンターなどの社内専用環境でAIを利用したいと考える企業も多く、省リソースでのAI活用のニーズが高まっています。リコーが開発したLMMは、アーキテクチャも改良され、オンプレミス環境において、お客様情報を用いた追加学習が可能なコンパクトなモデルサイズを実現しています。具体的には、本モデルは、図表を処理するVision Encoder(ビジョンエンコーダー)※4という第1階層と、第1階層からの出力を後段のLLMが理解できる形式に変換するAdapter(アダプター)という第2階層、そして第2階層で変換された情報と文字情報を統合処理するLLMの第3階層の3層構造になっています。第1階層においては複数のVision Encoderを評価し、「Qwen2-VL-7B-Instruct※5」に採用されている手法を選定しました。また、第3階層においてもオンプレミス環境で実装可能な70Bクラスのモデルを複数評価し、「Llama-3.1-Swallow-70B-Instruct-v0.3※6」を選定しました。さらに、第2階層であるAdapterに独自の工夫※7を追加することにより、別々のモデルが由来であるため本来は接続できない第1・第3階層を、精度を維持しながら接続することに成功しました。

このように、アーキテクチャを改良する独自技術と大量の人工データによる学習を組み合わせることで、同規模のオープンソースモデルを凌ぐ性能を確保しながら、省コスト・省リソースでの運用を実現します。

評価手法としては、JDocQAに加えて、日本企業の文書に特有な複雑な図表をテストデータの中心に据えた、マルチモーダル性を評価する評価手法も独自に開発し、本モデルの性能を確認しました。

リコーは、本開発にあたり、アマゾン ウェブ サービス(以下、AWS)※8から、計算資源の提供及び技術サポートを受けています。「採択事業者が計算リソース提供事業者と個別に調整し直接確保」するスキームを通じて、NVIDIA H200 Tensor Core GPU を搭載するAmazon EC2 P5eインスタンスが提供されています。開発終盤での総合的な学習ならびに顧客向けファインチューニングにおいて、安定的で大規模な資源提供を迅速に受けることで、今回の成果につながっています。

リコーは、これまでのLLMの開発においても、「AWS LLM開発支援プログラム」と「AWS 生成AIイノベーションセンター(AWS Generative AI Innovation Center)」による支援のもと、効率的な開発を実現しています。

なお、今回の取り組みにおいて、基本モデルをチューニングして個社の業務に合わせて精度を向上させる手法も確立しました。具体的には、損害保険ジャパン株式会社(代表取締役社長:石川 耕治、以下「損保ジャパン」)が保有する保険の引受規定が記載された図表などを含むマニュアルを用い、同社の保険業務に対応するように学習(ファインチューニング)を行ったプライベートなモデルは、基本モデルに比べて顕著に性能が向上しました。今後、同社がトライアル運用する保険業務に関する規定、マニュアル、Q&Aデータなどを学習させ、社内外からの照会内容に対して最適な回答案を自動生成するシステム「おしそんLLM※9」に適用を検討していく予定です。

3. 今後の予定

リコーは、基本モデルと独自に開発したマルチモーダル性能を評価する環境を無償で公開します。リコーは、GENIACで得られた成果を広く社会に還元することで、日本企業の知の結晶ともいえるドキュメントの利活用を促進し、業務革新と効率的で付加価値の高い働き方を支援することで、日本企業の企業価値の向上に貢献することを目指して取り組みを進めてまいります。

ベンチマークツールにおける他モデルとの比較結果(上段は一般的な指標、下段はリコーが独自開発した指標による評価)

チューニングの成果(モデルが異なっていてもファインチューニングによりグラフの赤い部分の精度向上が見られる)

アマゾン ウェブ サービス ジャパン合同会社 常務執行役員 サービス & テクノロジー統括本部 統括本部長 安田 俊彦様からのコメント

リコー様が推進する高性能なマルチモーダルLLMの開発に、AWSがご支援できたことを嬉しく思います。AWS LLM開発支援プログラムならびにAWS 生成AIイノベーションセンターを通じたリコー様への包括的な支援が企業内文書の高度活用という課題解決に寄与し、リコー様のデジタルサービス会社への変革が加速することを期待しています。

FastLabel株式会社 代表取締役CEO 鈴木 健史様からのコメント

リコー様におけるGENIACのマルチモーダル LLM開発プロジェクトにおいて、パートナーとして参画できたことを大変光栄に思います。今回開発された基本モデルはLLMの性能向上に直結し、国内企業において業務効率化や生産性向上に大きく貢献する可能性を持った取り組みになるであろうと強く感じています。FastLabelでは、リコー様をはじめとしたLLMの開発を行う企業に、AI開発のデータ作成という観点で質の高い支援を引き続き行なってまいります。

株式会社リコー リコーデジタルサービスBU AIサービス事業本部 本部長 梅津 良昭からのコメント

FastLabel様には学習・評価に使えるデータの大量収集とアノテーションを実施いただきました。これら質の高いデータにより、モデル開発が加速し、ベンチマークの公開も可能になりました。誠にありがとうございます。
また、AWS様には先進的なAIチップ「Trainium」を512台規模で活用したLLM開発などでお世話になってきましたが、今回、新たな挑戦である国産LMM(大規模マルチモーダルモデル)の開発においても、高速で安定したGPU環境をご提供いただくだけでなく、先進的なAI技術のご支援や多大なサポートを賜り、心より感謝申し上げます。
今後も両社様との連携により、AI研究開発をさらに加速させていきたいと考えておりますので、引き続きよろしくお願いいたします。

  • ※1
    GENIAC(Generative AI Accelerator Challenge):リコーは、NEDOが、2024年7月に実施した公募「ポスト5G情報通信システムの開発/競争力ある生成AI基盤モデルの開発(助成)」(以下、「本事業」)に採択されました。本事業では、主に生成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活用に向けた実証調査の支援等が行われます。
  • ※2
    ベンチマークツールについて:図表を含む日本語文書をもとにして,視覚情報とテキスト情報の両方を参照する質問応答データセット JDocQAとリコーで独自開発したデータセットの2種類のベンチマークツールを活用して評価しました。 PDFを開く https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C3-5.pdf
  • ※3
    アノテーション(annotation):データにタグを付与して整理し、AIが正しく認識できるように加工するプロセス。AIが正しく学習できるよう、データに「正解」や「特徴」などを注釈のように書き込むことで、AIがデータから何を学習すべきかを明確にします。
  • ※4
    Vision Encoder(ビジョンエンコーダー):図表などの視覚情報を言語モデルが理解できる形に変換するモジュール。
  • ※5
  • ※6
  • ※7
    佐藤諒,木下彰,中田乙一,金箱裕介,麻場直喜. 大規模マルチモーダルモデルにおけるビジョンエンコーダーの付け替えと、日本語に強いモデル作成へ向けて. 言語処理学会 第31回年次大会 発表論文集. pp.954-959,2025.
  • ※8
  • ※9
    おしそんLLMについて:損保ジャパンのニュースリリース「大規模言語モデルを活用した照会回答業務の効率化トライアルの実施」 PDFを開く https://www.sompo-japan.co.jp/-/media/SJNK/files/news/2024/20241022_1.pdf

リコーのAI開発について

リコーは、1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声(VOC)などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始しました。

さらに、2022年からは大規模言語モデル(LLM)の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、お客様のニーズに応じて提供可能なさまざまなAIの基盤開発を行っています。また、画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始しています。

  • 社名、製品名は、各社の商標または登録商標です。
  • このページの内容は発表時のものです。
    既に販売終了になっている商品や、内容が異なっている場合があります。

| リコーグループについて |

リコーグループは、お客様のDXを支援し、そのビジネスを成功に導くデジタルサービス、印刷および画像ソリューションなどを世界約200の国と地域で提供しています(2025年3月期グループ連結売上高2兆5,278億円)。

“はたらく”に歓びを 創業以来85年以上にわたり、お客様の“はたらく”に寄り添ってきた私たちは、これからもリーディングカンパニーとして、“はたらく”の未来を想像し、ワークプレイスの変革を通じて、人ならではの創造力の発揮を支え、さらには持続可能な社会の実現に貢献してまいります。

詳しい情報は、こちらをご覧ください。

PDFダウンロード

このニュースリリースはPDFファイルでもご覧いただけます

PAGE TOP