OpenAIが「AIがユーザーをだまして勝手に別のタスクを実行する危険性」を抑制する手法を開発

2025/09/18

AIモデルは表向きは協調的・整合的に振る舞うようトレーニングされていますが、実際には隠れた意図を持ってしまうことがあり、長期的または複雑な目的のためにユーザーを欺くような行動をとることがあります。これは「Scheming(シェーミング)」と呼ばれているのですが、OpenAIはAIモデルの評価設計や解釈可能性について研究するApollo Researchと共同で、最新のAIモデルにおいてシェーミング…

このサイトの記事を見る

通知を有効にしますか？ OK! No...

タイトルとURLをコピーしました