日本補助金支援機構とAladdin Security、国際セキュリティコンペでの快挙
日本補助金支援機構株式会社は、AIを活用した補助金申請支援に特化したスタートアップであり、この度、AIセキュリティ事業に開発を力を入れるAladdin Security株式会社と協力し、OpenAIが主催する「GPT-OSS 20B Red Teaming」において入賞を果たしました。この成果は、両社の技術が国際的に認められた証となります。
コンペの背景
昨今、生成AIの普及により新たなセキュリティリスクが浮上しています。有害な結果や機密情報の漏洩、エージェントの逸脱行動など、多くの問題が顕在化しつつあります。これに対処するため、OpenAIは「GPT-OSS 20B Red Teaming」という競技大会を開催。参加者は、攻撃の戦術や評価手法の向上を目指し、知見を集めることが求められました。
取得した成果と評価
我々のチームは、従来の手法では検知が難しい脅威に対し、再現性のあるアプローチを採用して成功を収めました。以下は我々の成果の概要です。
- - Jailbreak脆弱性の検出:再現性のある形でJailbreakの脆弱性を検出しました。
- - エージェントのツール不正利用の検知:エージェントが不正な工具を利用する場面を誘発し、これを検知。
- - sabotageに関する弱点抽出:エージェントの意図的な仕事放棄や非協力に関する弱点を抽出しました。
評価のポイントとしては、再現性、実効性、汎用性の三つが挙げられます。
- - 再現性:全ての手法が手順化され、検証可能であること。
- - 実効性:既存のセーフガードの迂回可能性を定量的に評価し、防御設計にフィードバックされること。
- - 汎用性:特定のモデルに依存せず、様々なモデルに横展開できること。
この成果は、AIファイアウォールやプロンプト監査ツール、レッドチーミングサービスの基盤強化に貢献し、行政や企業向けの安全運用テンプレートの拡充にも寄与します。
今後の展開
日本補助金支援機構は、次の活動として共同PoCの拡大を予定しています。自治体が求める庁内データの内製ニーズに即したOSS基盤の共同検証を進め、運用設計と教育プログラムを一緒に提供していく方針です。また、評価手法を公開し、Jailbreakやツール誤用、エージェント逸脱に関するテストパックをOSS化することも計画しています。
さらに、安全運用のリファレンス実装として、AIファイアウォールやプロンプト監査ツールのテンプレートを整備し、自治体や大企業での広範な実施を促進します。
最後に、我々はAIによる補助金申請支援のプロセスにも、このセキュリティ機能を組み入れ、高信頼なワークフローを提供することで、機微情報が流出することなく補助金申請をサポートしていく考えです。
日本補助金支援機構について
日本補助金支援機構は、AIを駆使して、高品質かつ低コストな補助金申請支援を行っています。申請者が受け取る補助金額の最大化を目指す中で、自治体・エンタープライズの機微情報を外部に漏らさないAI活用の枠組みを構築しています。今後も公共や産業の生産性向上に寄与することを目指して、研究・開発を進めていく所存です。
公式HPはこちら:
日本補助金支援機構
お問い合わせ先: 日本補助金支援機構 広報担当 ( mail:
[email protected] )