イギリスのAIセキュリティ研究所とアラン・チューリング研究所がAI企業のAnthropicと共同で行った研究により、わずか250件の悪意ある文書があれば、データポイズニングにより、モデルのサイズやトレーニングデータ量とは関係なく、大規模言語モデルに対してバックドアの脆弱(ぜいじゃく)性を生成できる可能性が明らかになりました。続きを読む……
このサイトの記事を見る
AIのトレーニングデータを汚染して意図しない動作を引き起こさせるデータポイズニング攻撃はモデルのサイズやデータ量と無関係に250件ほどの悪意ある文書があれば実行可能

