Change Country/Area リコーグループ企業・IRサイト

“はたらく”を支えるリコーの大規模言語モデル(LLM)

リコーは、お客様の用途や環境に個別最適な企業独自の生成AIを、プライベート環境かつ低コスト・短納期で提供することを目指し、複雑な図表を多用する日本企業に特有の書式に対応した大規模言語モデル(LLM)を開発しています。

大規模言語モデル(LLM)とは

企業の生産性や競争力を強化するためのツールとして、「生成AI」が注目されています。イラストや画像の生成AI、音声の生成AI、動画の生成AIなどさまざまな種類が登場していますが、その中でも近年とくに関心を寄せられているのが「LLM」です。

LLM(Large Language Model)は、日本語では「大規模言語モデル」とも呼ばれます。ディープラーニング(深層学習)によって膨大なテキストデータを学習し言語処理を行うAIモデルを指し、文章生成をはじめ、さまざまな用途に活用されています。

また、LMM(Large Multimodal Model)は、テキストに加えて画像や動画などの複数のデータ形式を扱えるAIモデルです。日本語では「大規模マルチモーダルモデル」と呼ばれています。LLMが主にテキストの理解・生成に特化しているのに対し、LMMはテキスト・画像・音声など複数の形式を統合的に理解・生成できる点が特徴です。

お客様のニーズとリコーのLLMが解決すること

リコーは、お客様が業務に安心して活用できるLLMの開発に取り組んでいます。

お客様のニーズ・課題

労働力の減少に対応した効率的な働き方や、ベテラン社員の退職に伴う技能伝承が必要
外国人労働者の増加に伴う社内文書の多言語化への対応が求められている

知の結晶である社内文書の活用が急務だが、企業内にはデータ形式や項目名が定まっていない非構造化データが膨大に存在し、効果的な活用ができていない
例:スキャンされた紙の書類、PDFファイル、メールなど

個人情報、社外秘情報などのセキュリティを確保した環境で利用したい

リコーのLLMが解決すること

日本企業特有の、複雑な図表を含む文書からでもQ&A方式で知識を引き出せる

精度を維持したままコストを抑えることができる

セキュリティを担保できるオンプレミス環境で個別カスタマイズ(プライベート化)が可能

リコーのLLMの特徴

リコーでは、業務現場で安心して活用できる生成AIを実現するために、独自の大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)、さらにセーフティ技術を組み合わせたラインアップを開発しています。

特徴

  • 最新のOSS(オープンソース・ソフトウェア)のLLMを日本語に最適化し、お客様の業務にフィットするようチューニング
  • 国内有数のビジネス文書データ量を活用し、多様な文書に対応(図面混じりの設計図書、IR文書など)
  • オンプレミス環境を想定し、小型化と高性能を両立。ラックマウント型サーバーから小型PCサーバーまで搭載が可能なLLM/LMMラインアップを開発

モデル

リコーのLLM・LMMの中核となるモデルをご紹介します。

リコーのLLM/LMMモデルラインアップ(2026年3月30日時点)

大規模言語モデル(LLM:Large Language Model)— 日本語に強い高性能モデル

リコーLLM_70B(Built with Llama)は、リコー独自の学習データやノウハウを活用したモデルマージによる性能向上と多段推論能力の付与により、複雑なタスクにおいても高い性能を発揮します。

  • 多数の条件や制約を踏まえた回答
  • 長文や複雑な文書の理解と情報の統合
  • ステップに分解した計画立案

元々は金融業特有の専門用語や知識を強化した金融業務特化モデルとして開発しましたが、他の用途においてもその高い性能を活用可能です。

リコーLLM_27Bは、コンパクトながら高性能なモデルで、低コストで導入可能であることから幅広い用途で利用可能です。高い初期応答性と執筆能力を兼ね備え、ビジネス用途に好適なモデルになっています。

大規模マルチモーダルモデル(LMM:Large Multimodal Model)— 多様なデータ形式を理解

リコーLMM_70B(Built with Llama)は、テキストだけでなく画像・音声・動画など複数のデータ形式を統合的に処理できるAIです。業務で頻出する以下のような複合的なタスクで高い性能を発揮します。

  • 画像や図表の読み取り
  • スクリーンショットの要約
  • 図を含む質問への回答
  • テキストと画像を組み合わせた高度な指示への対応

リコーLMM_32Bは、リーズニング(推論)能力を強化したLLMです。単なる情報検索や文章生成にとどまらず、企業内ドキュメントの高度な読解や意思決定支援が可能になります。

  • 文書の構造理解
  • 因果関係の把握
  • 重要情報抽出
  • 複数ステップの論理的思考(multi-step reasoning)

セーフガードモデル — 安全に使える生成AIを提供

生成AI利用時の安全性を確保するため、LLM専用のセーフガード(ガードレール)モデル(Built with Llama)を開発しています。「入力」「出力」の安全性チェックに対応します。

  • 不適切・有害な入出力の自動検知
  • 暴力/犯罪/差別/プライバシー侵害などのカテゴリー判別

リコーのLLM/LMMラインアップの特徴比較

モデル リコーLLM_70B リコーLLM_27B リコーLMM_70B リコーLMM_32B リコーLMM_8B
性能 GPT-5並み GPT-5-nano並み Gemini 2.5 Pro並み
ベース Llama3.3 Gemma 3 Qwen2-VL + Llama 3.1 Qwen3-VL Qwen3-VL
特徴
  • 推論モデル
  • 金融業をはじめとした業種特化モデル
  • 高い初期応答性と高い執筆能力を兼ね備える
  • ビジネス用途で最適
  • GENIAC第2期で開発
  • GENIAC第3期で開発
  • 推論モデル
  • 高精度ながらコンパクト、低運用コスト
  • GENIAC第3期で開発
提供方法 RICOHオンプレLLMスターターキット
  • RICOHオンプレLLMスターターキット
  • エフサステクノロジーズ株式会社提供:Private AI Platform on PRIMERGY
  • 伊藤忠テクノソリューションズ株式会社提供:NVIDIA DGX SparkのOEMモデル
Hugging Faceで無償公開 RICOHオンプレLLMスターターキット(予定) Hugging Faceで無償公開
  • 性能の表記は、Japanese MT-Bench、 ELYZA-tasks-100 およびJDocQA等に基づく当社評価による性能水準の比較であり、各社の公式モデルの利用や同一性を示すものではありません。
  • Hugging Faceは、AIモデルやデータセットを公開・共有するためのプラットフォームです。研究用途から商用検証まで幅広く利用されています。

開発成果

リコーは2022年から大規模言語モデル(LLM)の研究・開発にいち早く着手し、2023年3月にはリコー独自のLLMを発表。経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」に、2024年10月の第2期、2025年7月の第3期と連続で採択されています。

2026年3月30日

国産生成AI開発強化プロジェクト「GENIAC」第3期において
リーズニング性能を持つマルチモーダルLLMを開発

*記載内容は発表当時のものです。

開発の成果

株式会社リコー(社長執行役員:大山 晃)は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」第3期において、図表を含む多様なドキュメントを、高精度に読み取ることができる、リーズニング性能を備えたマルチモーダル大規模言語モデル(以下、リーズニングLMM)の基本モデル「Qwen3-VL-Ricoh-32B-20260227」の開発を完了したことをお知らせします。本モデルは、多段推論を通じて複雑なドキュメントを理解できる点が特徴です。
また、本モデル開発で適用した技術を活用した軽量モデル「Qwen3-VL-Ricoh-8B-20260227」を、本日から無償公開します。さらに、リーズニング性能の評価に特化したリコー独自開発のベンチマークツール*についても、今後公開する予定です。

  • *
    ベンチマークツールについて:視覚情報とテキスト情報の両方を参照する質問応答データセット JDocQAに加えて、日本企業の文書に特有な複雑な図表をテストデータの中心に据えた、リーズニング性能を評価する手法も独自に開発し、2種類のベンチマークツールを活用して評価しました。

精度比較(図表を含む日本語文書での評価指標)

GENIAC第3期を通じて目指し、達成したこと

2025年8月から2026年2月末まで、GENIAC第3期にて開発を実施し、リーズニング能力を強化した新しいLMMを完成させました。より複雑な図表に広く対応することで社会実装を促進します。

完成したLMM(大規模マルチモーダルモデル)の特徴

  • リーズニング能力の強化により、日本企業特有の複雑な表・フローチャート・グラフを含む文書の読解性能が向上
  • 個社向けチューニング(プライベート化)により実業務での精度が更に向上
  • お客様の社内で運用可能なサイズのサーバー上で動作する規模を実現。社内ネットワーク内で閉じた運用も可能で、情報漏洩リスクを低減

コストを抑える技術の獲得

  • 精度を維持しながらGPUメモリ使用量を抑え、より低廉なGPUが選択可能
  • 用途に特化したLMMをマージする技術で、チューニングコストを削減し、お客様に安価にご利用いただけるプライベートモデルを提供可能

LMMの学習の流れ

技術の特徴

LMMの学習手法

以下の3ステップで、高精度かつ軽量な、日本語の資料読解に特化したリーズニングモデルを開発しました。複雑なドキュメントの読み間違いを劇的に低減します。

LMM学習の3ステップ

ステップ1VQAの選定

VQA(Visual Question Answering)の選定とは、画像を見て質問に答えるAIが正しく力を発揮できるよう、適切な画像・質問・答えの組み合わせを選ぶことです。

AIが「本当に画像を理解して答えているか」を正しく評価するために、分かりやすく妥当な問題を用意することが重要です。

本開発では、まずモデルの弱点となっている部分を分析し、その改善に有効なVQAをデータの自動生成技術により作成しています。これにより、効率的にモデルの課題に合った学習データを用意することができます。

ステップ2元モデルを教師あり学習で微調整

SFT(Supervised Fine-Tuning:教師ありファインチューニング)とは、AIに質問と正しい答えのお手本を与えて、答え方を調整(チューニング)させる学習方法です。

本開発では、ステップ1で明らかにしたモデルの弱点となっている部分について、正確に応答できるようにすることを目指しました。学習対象モデルに適したVQAを用いて、更に学習データも学習中に変化させることで、学習回数を抑えつつ、高精度な回答が可能になります。

ステップ3さらに強化学習(カリキュラム学習)

強化学習(RL:Reinforcement Learning)とは、AIが試行錯誤を繰り返しながら結果に応じた報酬(学習中の行動や出力を数値で評価し、モデルに最適な振る舞いを獲得させるための基準)をもとに、より良い行動を自ら学んでいく学習方法です。正しい答え方を教えられなくても、報酬をもとに最適な判断を身につけていきます。本開発では、1つのQ(質問)に対して訓練対象モデルに複数個の回答をさせ、A(正解)との一致度を報酬として定量的に表現する関数を定義して、より高い報酬を得るようにモデルパラメーターを学習させました。

また、学習時にはカリキュラム学習の仕組みも取り入れています。カリキュラム学習(Curriculum Learning)とは、AIモデルの学習において、簡単なデータやタスクから始め、徐々に難易度を上げて学習させる手法です。人間が基礎から応用へと学んでいくプロセスを模倣することで、モデルの理解度や汎化性能を高めることを目的としています。

報酬関数の工夫

  • 正解に近い回答をすると報酬が高くなるため、より正確な答えを出すよう学習させることができる
  • 推論や説明が日本語で書かれていると報酬が高くなるため、日本語を使う利用者にとって分かりやすい出力を促すことができる
  • 内部の推論過程を指定されたフォーマット通りに出力しない場合は報酬が低くなるため、思考過程を正しく出力することを促し、回答だけではなく根拠も示せるようにする

本開発で行った強化学習の模式図

独自のコスト削減技術の開発

画像トークンの圧縮技術

LMMはテキストや図表のデータをトークンと呼ばれる符号に変換してから処理します。画像トークンとはこのうち図表を符号に直したものを指します。これを圧縮することでメモリの使用量を削減しつつ、精度の低下を抑えます。高性能化に伴って増大するお客様側の運用コスト低減を実現します。

ドキュメント画像を対象にトークンの重要度にもとづいた圧縮技術を開発

  • トークンを独自の重要度で評価し圧縮可能なトークンを特定(学会発表予定)

圧縮なしの場合と比較して、以下を確認

  • 重要度の低い画像トークンを削除することで、トークンを半分に削減可能
  • GPUメモリ使用量を削減
  • 精度の低下を5%未満に抑制

画像トークン圧縮の模式図

リコー独自のモデルマージ技術

学習済みの複数モデルをマージして高性能化する技術をLMMに適用し、それぞれのモデルの強みを組み合わせたモデルを生成できることを確認しました。

マージ手法は、全データを用いて再学習する場合と比べて計算量が大幅に小さいため、学習コストの低減につながります。

例えば、A、B、Cの3つの強化モデルをマージしたモデルは、ベンチマークAからDの各評価において、各ベンチマークに特化した強化モデルと比較しても、すべて1位または2位に位置しており、高い性能を示しています。

モデルの性能比較

ベンチマークA ベンチマークB ベンチマークC 未参照のベンチマークD
A強化モデル 0.876(1位) 3.500 0.402 0.512(2位)
B強化モデル 0.769 3.670(2位) 0.420 0.164
C強化モデル 0.864 3.560 0.496(1位) 0.474
A、B、Cをマージしたモデル 0.874(2位) 3.690(1位) 0.464(2位) 0.516(1位)

関連情報

ニュースリリース

関連リンク

  • GPT、GPT-4、GPT‑5およびGPT‑5‑nanoはOpenAI, L.L.C.の商標または登録商標です。
  • Gemini、Gemini 2.5 Pro、Gemma、Gemma 3はGoogle LLCまたはその関連会社の商標または登録商標です。
  • Llama、Llama 3.1、Llama 3.3はMeta Platforms, Inc.またはその関連会社の商標または登録商標です。
  • Qwen、Qwen2 VL、Qwen3‑VLはAlibaba Group Holding Limitedまたはその関連会社の商標または登録商標です。
  • その他、本ページに掲載の会社名、製品名は、各社の商標または登録商標です。

リコーグループの技術に関するお問い合わせ

「リコーのLLMについて詳しく知りたい」など、リコーグループの技術に関するご質問・お問い合わせはこちらまで。

PAGE TOP