LLM出力の有害判別に対応　リコー製ガードレールモデルをアップデート | リコーグループ企業・IR

株式会社リコー（社長執行役員：大山晃）は、米Meta Platforms社が提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」^*1をベースモデルに、LLMからの有害情報の出力を検知する自社開発のガードレール機能^*2を組み込んだLLM（以下、セーフガードモデル）を開発しました。本開発では、従来対応していた有害なプロンプト入力の判別に加え、LLMが生成する有害情報の出力の検知にも対応できるようになりました。ベンチマーク評価の結果、他社製ガードレールモデルと比較して、高いF1スコア^*3を示しました。

本セーフガードモデルは、生成AIの安全な利活用を支援するため、2024年10月にリコーが立ち上げたLLMに対する社内の安全性対策プロジェクトから生まれたものです。2025年8月に、有害なプロンプト入力を対象とした判別機能をまずリリースし、リコージャパン株式会社が提供する「RICOH オンプレLLMスターターキット」に標準搭載することで、お客様の安全な生成AI活用を支援してきました。今回、出力判別にも対応したことで、より多層的で強固な安全対策を実現します。

開発の背景

生成AIの社会的な広がりとともに、業務にAIを活用することによる生産性向上や付加価値の高い働き方を実現する取り組みが注目を集めています。一方で、生成AIの安全な利活用という点ではまだ多くの課題があります。

リコーは、LLMの安全性対策を目的とした社内プロジェクトを立ち上げ、規制や技術動向の把握に加え、LLMの安全性に関する評価指標の整備や、安全性を満たす効果的な手法の開発、それらの社会実装に向けて取り組んできました。有害情報の入出力を判別するセーフガードモデルは、その取り組みの一環として開発されました。

セーフガードモデルについて

本セーフガードモデルは、LLMに対するガードレールとして機能し、プロンプト入力されたテキスト、およびLLMから出力された回答を監視して、不適切・有害な内容を自動で検出します。具体的には、暴力や犯罪、差別、プライバシー侵害など14種類のラベルに分類された、リコー独自構築の数千件のデータを学習させることで、これらに該当する入出力情報を判別します。これにより、LLMへの有害情報の入力、またはLLMから出力された有害回答を検知し、ブロックすることが可能となります。

また、一般的な有害表現だけでなく、「業務に無関係な内容をブロックしたい」といったお客様のニーズに応じたカスタマイズ対応も検討しています。

ラベルの種類

S1: 暴力犯罪

S2: 非暴力犯罪

S3: 性関連犯罪

S4: 児童の性的搾取

S5: 名誉棄損

S6: 専門的なアドバイス

S7: プライバシー

S8: 知的財産

S9: 無差別兵器

S10: ヘイト

S11: 自殺と自傷行為

S12: 性的コンテンツ

S13: 選挙

S14: PCコマンドやコードを通した悪用

※

ラベル分類はLlama guard 3に準拠

本セーフガードモデルは、リコー独自の量子化技術により小型・軽量化を実現しました。今後、リコージャパンが提供する、高セキュリティなオンプレミス環境向け生成AI活用ソリューション「RICOH オンプレLLMスターターキット」に標準搭載される予定です。

リコーは今後もお客様に寄り添い、業種・業務に最適化した安全な AI サービスを提供することで、お客様のオフィス／現場におけるデジタルトランスフォーメーション（DX）推進を支援してまいります。

評価結果

モデル名	F1スコア（入力用評価データ）	F1スコア（出力用評価データ）
Llama guard3^*4	0.538	0.541
Qwen3Guard-8b^*5	0.783	0.781
gpt-oss-safeguard-20b^*6	0.805	0.776
Llama-Ricoh-SafeGuard-In-20250630	0.893	（出力側は非対応）
Llama-Ricoh-SafeGuard-InOut-20251130	0.909	0.884

ベンチマークツールにおける他モデルとの比較結果（今回リコーが開発したモデルは最下段）

各データセットの概要は次の通りです。

入力用評価データ: 国立情報学研究所大規模言語モデル研究開発センターが公開したAnswerCarefully Dataset バージョン2.0^*7と、リコー製のデータセット計476件

出力用評価データ: リコー製のデータセット計524件

Meta日本法人Facebook Japan 公共政策本部部長小俣栄一郎様からのコメント

生成AIの実装に当たって、セキュリティは欠くことが許されない重要なピースです。今回リリースされたセーフガードモデルは、リコー社が蓄積してきた高い技術力が、オープンソースAIモデルのポテンシャルを引き出し、日本語における有害な入力・出力を防止することを可能にするものです。この技術がAI導入における安全性の基盤となり、AIソリューションの普及促進に重要な役割を果たすことを期待しています。

*1

東京科学大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所の研究チームで開発された日本語LLMモデル。 https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5
*2

ガードレール機能：LLMの入出力や動作を制御し、安全で信頼性の高い形で利用できるようにする仕組みのことで、ユーザーとAIモデルの間の安全装置として機能する。
*3

機械学習モデルの適合率（Precision）と再現率（Recall）の調和平均で、二値分類モデルの性能を評価する指標。0から1までの数字で表され、1に近いほど良い学習結果であることを示す。
*4

https://huggingface.co/meta-llama/Llama-Guard-3-8B
*5

https://huggingface.co/Qwen/Qwen3Guard-Gen-8B
*6

https://huggingface.co/openai/gpt-oss-safeguard-20b
*7

https://llmc.nii.ac.jp/answercarefully-dataset/

リコーのAI開発について

リコーは、1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声（VOC）などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始しました。

2022年からは大規模言語モデル（LLM）の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、お客様のニーズに応じて提供可能なさまざまなAIの基盤開発を行っています。リコーはLLM開発において、独自のモデルマージ技術（特許出願中）をはじめとした、多様で効率的な手法・技術を活用することで、お客様の用途や環境に最適な企業独自のプライベートLLMを低コスト・短納期で提供しています。

画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始しています。

ニュースリリース LLM出力の有害判別に対応　リコー製ガードレールモデルをアップデート入出力双方をカバーする多層防御を実現し、「RICOH オンプレLLMスターターキット」に標準搭載

開発の背景

セーフガードモデルについて

ラベルの種類

評価結果

Meta日本法人Facebook Japan 公共政策本部部長小俣栄一郎様からのコメント

リコーのAI開発について

関連ニュース

関連リンク

| リコーグループについて |

PDFダウンロード

ニュースリリース LLM出力の有害判別に対応 リコー製ガードレールモデルをアップデート 入出力双方をカバーする多層防御を実現し、「RICOH オンプレLLMスターターキット」に標準搭載

開発の背景

セーフガードモデルについて

ラベルの種類

評価結果

Meta日本法人Facebook Japan 公共政策本部 部長 小俣栄一郎様からのコメント

リコーのAI開発について

関連ニュース

関連リンク

| リコーグループについて |

PDFダウンロード

ニュースリリース LLM出力の有害判別に対応　リコー製ガードレールモデルをアップデート入出力双方をカバーする多層防御を実現し、「RICOH オンプレLLMスターターキット」に標準搭載

Meta日本法人Facebook Japan 公共政策本部部長小俣栄一郎様からのコメント