リコーグループ企業・IRサイト

ニュースリリースリコー、推論性能強化によりGPT-5と同等の高性能な日本語大規模言語モデルを開発金融業など業種・業務に特化したオンプレミスLLMでお客様のDXを支援

2025年10月10日

株式会社リコー

株式会社リコー（社長執行役員：大山晃）は、リーズニング（推論）性能^*1の追加搭載によって、当社が開発・提供するオンプレミスで導入可能な700億パラメータの日本語大規模言語モデル（LLM^*2）の性能を向上させました。「金融業務特化型LLM」では、有価証券報告書などの公開データを用いて金融業特有の専門用語や知識を追加学習させたうえで、多段推論能力^*3（Chain-of-Thoughts：CoT）を付加することで、融資稟議業務などをはじめとした専門的な業務遂行能力を強化しました。ベンチマーク評価の結果、米OpenAIが開発したGPT-5をはじめとする最先端の高性能なモデルと同等レベルの性能を確認しました。今後は、製造業や医療といった他の業種・業務に適用可能な特化モデルの開発を進め、「使える・使いこなせるAI」を提供し、お客様が取り組むオフィス／現場のデジタルトランスフォーメーション（DX）を支援してまいります。

リコーの金融業務特化型LLMの特徴

一般向け用途モデル：日本語能力の高いベースモデル > 金融知識の追加学習：金融ドメインに特有の知識の学習 - 有価証券報告書などの公開データを用いて専門用語や知識を獲得 > 推論能力の強化（Reasoning能力の付与）多段階の推論プロセス（Chain-of-Thoughts）の学習 - 複雑なタスクを推論ステップに分解して遂行する能力を獲得 > 融資稟議向け推論能力の強化：融資稟議で必要となる推論プロセスの強化 - 複数の情報を統合した分析などの遂行能力を強化 > 金融業務特化モデル：リコーの金融業務特化型LLM（Llama-3.3-Ricoh-70B-20251001）

評価結果

複雑な指示やタスクを含む代表的な日本語ベンチマーク「ELYZA-tasks-100」、日本語のマルチターンの対話能力を評価する「Japanese MT-Bench」、日本語金融ベンチマーク「japanese-lm-fin-harness」、および金融業向けに独自開発したベンチマークにより、性能を評価しました。その結果、リコーが開発した「金融業務特化型LLM」は、日本語ベンチマークにおいて米OpenAI社のGPT-5と同等レベルの高いスコアを示しました。また、金融ベンチマークではパラメータ数が同規模以上の最先端オープンソースモデルを上回るスコアを示しました。

ベンチマークツールにおける他モデルとの比較結果（リコーは2段目）

企業/組織	モデル名	日本語性能ベンチマーク		日本語金融ベンチマーク
企業/組織	モデル名	Japanese MT-Bench	Elyza-tasks-100	japanese-lm-fin-harness	融資稟議向け独自ベンチマーク
Science Tokyo	Llama-3.3-Swallow-70B-Instruct-v0.4	8.11	4.21	0.69	8.0
Ricoh	Llama-3.3-Ricoh-70B-20251001	9.59	4.70	0.69	9.5
Open AI	gpt-oss-120b	9.62	4.57	0.43	9.4
Alibaba Cloud	Qwen3-Next-80B-A3B-Thinking	9.31	4.49	0.66	9.2
Open AI	gpt-5-2025-08-07	9.46	4.74	—	—

各ベンチマーク・データセットの概要は次の通りです。

Japanese MT-Bench：マルチターン対話設定のデータセット。タスクはコーディング、抽出、人文、数学、推論、ロールプレイ、STEM、ライティングから成る。スコアの範囲は1（最低）から10（最高）。
Elyza-tasks-100：複雑な指示・タスクを含むデータセット。要約の修正、意図の汲み取り、複雑な計算、対話生成など広範なタスクから成る。スコアの範囲は1（最低）から5（最高）。
japanese-lm-fin-harness：金融分野向けデータセット。タスクは金融分野における感情分析、証券分析における基礎知識、公認会計士試験における監査、FP試験の選択肢問題、証券外務員試験の模擬試験から成る。スコアの範囲は0（最低）から1（最高）。
融資稟議向け独自ベンチマーク：リコーが独自に開発した融資審査における企業・財務・信用の総合評価データセット。タスクは融資申込受付と初期ヒアリング、財務諸表分析、事業性評価（非財務情報分析）、信用情報調査、外部情報照会から成る。スコアの範囲は1（最低）から10（最高）。

※

いずれのベンチマークの計測においても、llm-as-a-judgeにgpt-4.1-2025-04-14を採用しました。

リコー製LLMについて

リコーが開発・提供する700億パラメータの日本語LLMは、米Meta Platforms社が提供する「Llama-3.3-70B-Instruct」の日本語性能を向上させた「Llama-3.3-Swallow-70B-v0.4^*4」をベースモデルとして開発されています。独自データを含むインストラクション・チューニング（instruction-tuning）データセットに加え、Chat Vector^*5によるモデルマージ^*6等の独自技術や独自の学習カリキュラムを組み合わせることで、さらなる高精度化を実現しました。高性能でありながら、省コスト・省リソースを両立し、オンプレミス環境でお客様固有の情報を追加学習できるプライベートLLMとして提供しています。

リコーのAI開発について

リコーは、1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声（VOC）などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始しました。

さらに、2022年からは大規模言語モデル（LLM）の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、お客様のニーズに応じて提供可能なさまざまなAIの基盤開発を行っています。また、画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始しています。

*1

リーズニング性能：LLMが単に情報を検索したりテキストを生成したりするだけでなく、複数のステップからなる論理的な思考プロセスを経て結論を導き出す性能。
*2

Large Language Model（大規模言語モデル）:人間が話したり書いたりする言葉（自然言語）に存在する曖昧性やゆらぎを、文章の中で離れた単語間の関係までを把握し「文脈」を考慮した処理を可能にしているのが特徴。「自然文の質問への回答」や「文書の要約」といった処理を人間並みの精度で実行でき、学習も容易にできる技術。
*3

多段推論能力：複雑な問題を段階的に分解しながら推論を進める能力。
*4

Llama-3.3-Swallow-70B：東京科学大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所の研究チームで開発された日本語LLMモデル。2025年3月10日に公開。
*5

Chat Vector：指示追従能力を持つモデルからベースモデルのウェイトを差し引き、指示追従能力のみを抽出したベクトル。
*6

モデルマージ：複数の学習済みのLLMモデルを組み合わせて、より性能の高いモデルを作る新たな方法のこと。GPUのような大規模な計算リソースが不要で、より手軽にモデル開発ができるとして、近年注目されています。