リコー、「Qwen2.5-VL-32B-Instruct」ベースのマルチモーダルLLMを開発 | リコーグループ企業・IR

株式会社リコー（社長執行役員：大山晃）は、中国のアリババクラウドが開発・提供する大規模言語モデル（LLM）ファミリーの「Qwen2.5-VL-32B-Instruct^*1」をベースに、日本企業の図表を含むドキュメントの読み取りに対応したマルチモーダル大規模言語モデル（以下「LMM」）を開発しました。

リコーは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC（Generative AI Accelerator Challenge）^*2」第2期において、LMMの開発に取り組み、独自開発した700億パラメータの基本モデルを無償公開しています。

このたびリコーは、お客様から基本モデルに対して頂いたフィードバックをもとに、サービング環境の構築の容易さや利活用のしやすさを目指し、よりコンパクトで高性能、かつアプリケーションとの親和性の高いLMMを開発しました。合わせて、4bit量子化モデルも提供します。

本モデルの開発にあたっては、文字、円グラフ、棒グラフ、フローチャートなど、ビジネス文書で活用される視覚データ約60万枚を自社で開発したチューニングデータとして用い、LMMに学習させています。視覚情報とテキスト情報の双方を活用する日本語の質問応答データセット「JDocQA^*3」などのベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことを確認しました（2025年12月17日時点）。

本LMMは、お客様のご要望に応じて個別提供が可能です。さらに、今後「RICOH オンプレLLMスターターキット」に搭載し、リコージャパン株式会社から提供予定です。

1. LMM開発の背景と社会課題

LMMとは、テキスト・画像・音声・動画など複数の種類のデータを同時に処理できるAI技術のことです。スクリーンショットからのテキスト要約や、図を用いた質問への適切な回答など、さまざまなタスクにおいて高い性能を発揮し、幅広いデータ形式を効果的に処理する適応性に期待が集まっています。

企業内で蓄積されるドキュメントには、請求書や領収書などのトランザクションデータ、事業戦略や計画などの経営資料、サービスマニュアルや社内で定めた技術標準、品質管理基準などの技術文書など、さまざまな種類・形式があります。これらのドキュメントには、テキスト情報に加え、図や表組、画像などの情報も含まれています。こうした企業内文書を効率的に活用し、新たな価値創出やイノベーションにつなげることが期待される一方で、「テキスト検索でも意図した結果が得られない」、「検索のみの利用では効果的な活用ができていない」といった課題があります。

また、労働力人口の減少を背景とした効率的な働き方の必要性や、ベテラン社員の退職に伴う技能・ノウハウの継承、外国人労働者の増加に対応した社内文書の多言語化など、企業を取り巻く経営課題は年々複雑化しています。こうした課題に対して、近年性能が著しく向上しているAIを活用し、企業内に蓄積された知識をより効率的かつ付加価値の高い形で活用したいというニーズが高まっています。一方で、既存のLLMやLMMでは、きめ細かな画像認識を必要とするビジネス文書の読解精度に課題がありました。リコーは、こうした背景を踏まえ、GENIACプロジェクトにおいて、日本企業の実務での活用を想定したLMMの開発に取り組んできました。

2. 評価結果

ベンチマークツールにおける他モデルとの比較結果（今回リコーが開発したモデルは最下段）

	JGraphQA^*4	JDocQA（overall）	JDocQA（LLM）	Business Slide VQA^*5
Qwen2.5-VL-32B-Instruct	0.910	0.245	3.633	0.857
RICOH 70B LMM（r-g2-2024/Llama-3.1-70B-Instruct-multimodal-JP-Graph-v0.1）	0.885	0.297	3.293	0.640
Qwen-2.5-VL-Ricoh-32B-20250918	0.910	0.237	3.634	0.867

各データセットの概要は次の通りです。

JGraphQA: 日本のIR資料に記載されている円グラフ、棒グラフ、折れ線グラフ、表を集め、人手で全200問のQAを付与した図表用のベンチマーク。スコアは1.0が最高値。

JDocQA: 図表を含む日本語文書を対象とし、視覚情報とテキスト情報の両方を参照する質問応答データセット。
JDocQA（overall）スコア1.0が最高値。

JDocQA（llm）: gpt-4o-2024-11-20を用いた自動評価（LLM as a Judge）を採用。スコアは5点満点で評価。

BusinessSlideVQA: ビジネス資料（スライド）を対象とした Visual Question Answering（VQA）ベンチマーク。
gpt-4.1-2025-04-14を用いた自動評価（LLM as a Judge）を採用し回答が正解か否かを2値判定。スコアは1.0が最高値。

*1

https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
*2

GENIAC（Generative AI Accelerator Challenge）：リコーは、NEDOが、2024年7月に実施した公募「ポスト5G情報通信システムの開発／競争力ある生成AI基盤モデルの開発（助成）」（以下、「本事業」）に採択されました。本事業では、主に生成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活用に向けた実証調査の支援等が行われます。
*3

https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C3-5.pdf
*4

https://huggingface.co/datasets/r-g2-2024/JGraphQA
*5

https://github.com/stockmarkteam/business-slide-questions

リコーのAI開発について

リコーは、1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声（VOC）などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始しました。

2022年からは大規模言語モデル（LLM）の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、お客様のニーズに応じて提供可能なさまざまなAIの基盤開発を行っています。リコーはLLM開発において、独自のモデルマージ技術（特許出願中）をはじめとした、多様で効率的な手法・技術を活用することで、お客様の用途や環境に最適な企業独自のプライベートLLMを低コスト・短納期で提供しています。

画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始しています。

ニュースリリースリコー、「Qwen2.5-VL-32B-Instruct」ベースのマルチモーダルLLMを開発図表を含む企業内文書の高度な利活用の実現を目指し、「RICOH オンプレLLMスターターキット」に搭載予定

1. LMM開発の背景と社会課題

2. 評価結果

ベンチマークツールにおける他モデルとの比較結果（今回リコーが開発したモデルは最下段）

リコーのAI開発について

関連ニュース

関連リンク

| リコーグループについて |

PDFダウンロード

ニュースリリース リコー、「Qwen2.5-VL-32B-Instruct」ベースのマルチモーダルLLMを開発 図表を含む企業内文書の高度な利活用の実現を目指し、「RICOH オンプレLLMスターターキット」に搭載予定

1. LMM開発の背景と社会課題

2. 評価結果

ベンチマークツールにおける他モデルとの比較結果（今回リコーが開発したモデルは最下段）

リコーのAI開発について

関連ニュース

関連リンク

| リコーグループについて |

PDFダウンロード

ニュースリリースリコー、「Qwen2.5-VL-32B-Instruct」ベースのマルチモーダルLLMを開発図表を含む企業内文書の高度な利活用の実現を目指し、「RICOH オンプレLLMスターターキット」に搭載予定