最高でも回答精度9％程度だった「人類最後の試験」でOpenAIのDeep researchが26％以上を記録

2025/02/05

AIの性能を定量化する評価試験のうち「これまでで最も難しい」とされる「人類最後の試験(Humanity’s Last Exam)」について、OpenAIのAIエージェント「Deep research」が早くも26.6％という高いスコアを記録したことがわかりました。試験の公開から10日もたたずに最高スコアが183％増加したことになります。続きを読む……

このサイトの記事を見る

通知を有効にしますか？ OK! No...

タイトルとURLをコピーしました