AIセキュリティの新たな地平を切り開くLakeraのb3
チェック・ポイント傘下のLakeraは、新たなオープンソースセキュリティ評価ツール「b3」を発表しました。このツールはおおよそ英国AIセキュリティ研究所(AISI)と共同開発され、AIエージェント内における大規模言語モデル(LLM)の安全性を評価することを目的としています。
b3のコンセプト
b3は「脅威スナップショット」という新しい概念に基づいて設計されています。これは、AIエージェント全体を最初から最後までシミュレートするのではなく、脆弱性が多く存在する重要なポイントに重点を置き、モデルのテストを行います。このアプローチにより、AIモデルの開発者やプロバイダーは、複雑なワークフローを考慮することなく、より現実的な攻撃に対する耐性を確認できます。具体的には、重要なタイミングでモデルをテストすることで、エージェントのシステムがどれだけ抵抗できるかを評価します。
Lakeraの共同創設者であるマテオ・ロハス=カルーラ氏は、「今日のAIエージェントは、それを動かすLLMのセキュリティに依存しているため、b3ベンチマークを開発しました。脅威スナップショットを利用することで、エージェントのワークフローに隠れていた脆弱性を体系的に発見できるようになります」と述べています。アプローチとしては、オープンソースの利点を活かし、開発者に実用的な方法でセキュリティを測定するツールを提供することを目指しています。
b3の機能
この新しい評価ツールは、10種類の脅威スナップショットと、Gandalf: Agent Breakerというゲーム化されたハッキング演習ツールを通じて収集された19,433件の攻撃データセットを組み合わせています。評価対象となる攻撃には、システムプロンプトの漏えいやフィッシングリンクの挿入、悪意あるコードの注入、DoS攻撃など、多岐にわたります。このように多方面からのアプローチにより、AIエージェントの安全性に関する包括的な視点を提供します。
初期研究結果
b3の初期研究では、31種類の主要なLLMを検証し、以下の重要な知見が明らかになりました。
- - 推論能力の向上は、セキュリティの改善に寄与する。 これにより、AIエージェントはより堅牢になります。
- - モデルのサイズとセキュリティ性能には相関関係がない。 より大きなモデルが必ずしもセキュリティ強化につながるわけではありません。
- - クローズドソースのモデルが一般的にオープンソースモデルを上回る性能を示すが、上位のオープンモデルがその差を縮めつつある。 これは、開放的な研究が競争力を高める可能性を示唆しています。
これらの結果は、b3がどれほど実践的かつ価値のあるツールであるかを物語っています。
Gandalf: Agent Breakerの役割
「Gandalf: Agent Breaker」は、AIエージェントを攻撃することを目的としたハッキングシミュレーターゲームです。プレイヤーは、ゲーム内に登場する10種類の生成AIアプリケーションを利用して、リアルな状況の中でそれらを攻略します。このプラットフォームでは、さまざまな難易度や防御機能が提供され、プレイヤーのスキルレベルに応じた挑戦が用意されています。
初期バージョンは、ハッカソンから誕生したものであり、ブルーチームとレッドチームが最強の防御と攻撃方法を競い合った結果として生まれました。2023年には、世界最大級のレッドチーミングコミュニティへと発展し、8,000万件を超えるデータポイントを生成しています。「Gandalf」は、もともとはゲームとして開発されていましたが、現在では生成AIアプリケーションの脆弱性を明らかにし、AIファーストセキュリティの重要性に対する認識を高める役割も果たしています。
Lakeraについて
Lakeraは、AIエージェント型アプリケーションのための世界的に有名なAIセキュリティプラットフォームです。フォーチュン500企業や大手テクノロジー企業を最新のAIサイバーリスクから保護し、独自の防御システムをリリースしています。Lakeraは、2021年に設立され、スイスのチューリッヒとアメリカのサンフランシスコに本社を置いています。今後もこの分野におけるリーダーシップを維持し続けることが期待されています。
AIセキュリティの進化に貢献するb3の登場は、今後のテクノロジーの発展に大きく寄与することでしょう。詳細は
公式サイトをご覧ください。