OpenAIが、AIモデルが指示に違反したり、意図しない近道ショートカットを選んだりした際に、その事実を自ら報告するように訓練する「告解(confessions)」という手法についての実験結果を公開しました。続きを読む……
このサイトの記事を見る
AIに幻覚やハッキングを自白させて訓練する「告解」アプローチをOpenAIが開発
OpenAIが、AIモデルが指示に違反したり、意図しない近道ショートカットを選んだりした際に、その事実を自ら報告するように訓練する「告解(confessions)」という手法についての実験結果を公開しました。続きを読む……
このサイトの記事を見る