AIに幻覚やハッキングを自白させて訓練する「告解」アプローチをOpenAIが開発

2025/12/04

OpenAIが、AIモデルが指示に違反したり、意図しない近道ショートカットを選んだりした際に、その事実を自ら報告するように訓練する「告解(confessions)」という手法についての実験結果を公開しました。続きを読む……

このサイトの記事を見る

通知を有効にしますか？ OK! No...

タイトルとURLをコピーしました