ランダムな文字列で質問し続けるとAIから有害な回答を引き出せるという攻撃手法「Best-of-N Jailbreaking」が開発される、GPT-4oを89％の確率で突破可能

2024/12/23

大文字と小文字をごちゃ混ぜにしたり、わざとスペルミスをしたりすることでAIから有害な回答を引き出す手法「Best-of-N(BoN)ジェイルブレイキング」が開発されました。続きを読む……

このサイトの記事を見る

通知を有効にしますか？ OK! No...

タイトルとURLをコピーしました