AIの能力向上に伴って、AIが「ユーザーから隠れて命令とは別の攻撃的なタスクを実行する」という行為に及ぶリスクも増しています。そんなAIによる妨害工作(サボタージュ)のリスクを測定するシステム「SHADE-Arena」をAI開発企業のAnthropicが発表し、同時に各種AIモデルを対象とした妨害工作能力テストの結果も公開しました。続きを読む……
このサイトの記事を見る
AIの「攻撃的なタスクをこっそり実行する能力」を測定する仕組みをAnthropicが開発、悪意あるAIモデルによる妨害工作を未然に防ぐことを目指す
