Change Country/Area リコーグループ企業・IRサイト

ニュースリリース LLM出力の有害判別に対応 リコー製ガードレールモデルをアップデート 入出力双方をカバーする多層防御を実現し、「RICOH オンプレLLMスターターキット」に標準搭載

2025年12月25日
株式会社リコー

株式会社リコー(社長執行役員:大山 晃)は、米Meta Platforms社が提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」*1をベースモデルに、LLMからの有害情報の出力を検知する自社開発のガードレール機能*2を組み込んだLLM(以下、セーフガードモデル)を開発しました。本開発では、従来対応していた有害なプロンプト入力の判別に加え、LLMが生成する有害情報の出力の検知にも対応できるようになりました。ベンチマーク評価の結果、他社製ガードレールモデルと比較して、高いF1スコア*3を示しました。

本セーフガードモデルは、生成AIの安全な利活用を支援するため、2024年10月にリコーが立ち上げたLLMに対する社内の安全性対策プロジェクトから生まれたものです。2025年8月に、有害なプロンプト入力を対象とした判別機能をまずリリースし、リコージャパン株式会社が提供する「RICOH オンプレLLMスターターキット」に標準搭載することで、お客様の安全な生成AI活用を支援してきました。今回、出力判別にも対応したことで、より多層的で強固な安全対策を実現します。

開発の背景

生成AIの社会的な広がりとともに、業務にAIを活用することによる生産性向上や付加価値の高い働き方を実現する取り組みが注目を集めています。一方で、生成AIの安全な利活用という点ではまだ多くの課題があります。

リコーは、LLMの安全性対策を目的とした社内プロジェクトを立ち上げ、規制や技術動向の把握に加え、LLMの安全性に関する評価指標の整備や、安全性を満たす効果的な手法の開発、それらの社会実装に向けて取り組んできました。有害情報の入出力を判別するセーフガードモデルは、その取り組みの一環として開発されました。

セーフガードモデルについて

本セーフガードモデルは、LLMに対するガードレールとして機能し、プロンプト入力されたテキスト、およびLLMから出力された回答を監視して、不適切・有害な内容を自動で検出します。具体的には、暴力や犯罪、差別、プライバシー侵害など14種類のラベルに分類された、リコー独自構築の数千件のデータを学習させることで、これらに該当する入出力情報を判別します。これにより、LLMへの有害情報の入力、またはLLMから出力された有害回答を検知し、ブロックすることが可能となります。

また、一般的な有害表現だけでなく、「業務に無関係な内容をブロックしたい」といったお客様のニーズに応じたカスタマイズ対応も検討しています。

安全でないプロンプトの場合
LLMからの出力が安全でない場合

ラベルの種類

S1
暴力犯罪
S2
非暴力犯罪
S3
性関連犯罪
S4
児童の性的搾取
S5
名誉棄損
S6
専門的なアドバイス
S7
プライバシー
S8
知的財産
S9
無差別兵器
S10
ヘイト
S11
自殺と自傷行為
S12
性的コンテンツ
S13
選挙
S14
PCコマンドやコードを通した悪用
  • ラベル分類はLlama guard 3に準拠

本セーフガードモデルは、リコー独自の量子化技術により小型・軽量化を実現しました。今後、リコージャパンが提供する、高セキュリティなオンプレミス環境向け生成AI活用ソリューション「RICOH オンプレLLMスターターキット」に標準搭載される予定です。

リコーは今後もお客様に寄り添い、業種・業務に最適化した安全な AI サービスを提供することで、お客様のオフィス/現場におけるデジタルトランスフォーメーション(DX)推進を支援してまいります。

評価結果

モデル名 F1スコア(入力用評価データ) F1スコア(出力用評価データ)
Llama guard3*4 0.538 0.541
Qwen3Guard-8b*5 0.783 0.781
gpt-oss-safeguard-20b*6 0.805 0.776
Llama-Ricoh-SafeGuard-In-20250630 0.893 (出力側は非対応)
Llama-Ricoh-SafeGuard-InOut-20251130 0.909 0.884

ベンチマークツールにおける他モデルとの比較結果(今回リコーが開発したモデルは最下段)

各データセットの概要は次の通りです。

入力用評価データ
国立情報学研究所 大規模言語モデル研究開発センターが公開したAnswerCarefully Dataset バージョン2.0*7と、リコー製のデータセット計476件
出力用評価データ
リコー製のデータセット計524件

Meta日本法人Facebook Japan 公共政策本部 部長 小俣栄一郎様からのコメント

生成AIの実装に当たって、セキュリティは欠くことが許されない重要なピースです。今回リリースされたセーフガードモデルは、リコー社が蓄積してきた高い技術力が、オープンソースAIモデルのポテンシャルを引き出し、日本語における有害な入力・出力を防止することを可能にするものです。この技術がAI導入における安全性の基盤となり、AIソリューションの普及促進に重要な役割を果たすことを期待しています。

リコーのAI開発について

リコーは、1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声(VOC)などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始しました。

2022年からは大規模言語モデル(LLM)の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、お客様のニーズに応じて提供可能なさまざまなAIの基盤開発を行っています。リコーはLLM開発において、独自のモデルマージ技術(特許出願中)をはじめとした、多様で効率的な手法・技術を活用することで、お客様の用途や環境に最適な企業独自のプライベートLLMを低コスト・短納期で提供しています。

画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始しています。

  • 社名、製品名は、各社の商標または登録商標です。
  • このページの内容は発表時のものです。
    既に販売終了になっている商品や、内容が異なっている場合があります。

| リコーグループについて |

リコーグループは、お客様のDXを支援し、そのビジネスを成功に導くデジタルサービス、印刷および画像ソリューションなどを世界約200の国と地域で提供しています(2025年3月期グループ連結売上高2兆5,278億円)。

“はたらく”に歓びを 創業以来85年以上にわたり、お客様の“はたらく”に寄り添ってきた私たちは、これからもリーディングカンパニーとして、“はたらく”の未来を想像し、ワークプレイスの変革を通じて、人ならではの創造力の発揮を支え、さらには持続可能な社会の実現に貢献してまいります。

詳しい情報は、こちらをご覧ください。

PDFダウンロード

このニュースリリースはPDFファイルでもご覧いただけます

PAGE TOP