英国政府などで政策に携わった開発者が、戦略ゲーム「Civilization VI」を使ってAIの長期意思決定能力を測る評価基盤「CivBench」を公開した。Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5の4モデルに、3種類のシナリオで330ターンずつ文明を運営させた実験だ。

ある回ではAIが治めるポルトガルが外交勝利の目前にいたにもかかわらず、ライバルのフランスを文化的脅威と見なし、50ターンかけて核兵器を開発、トゥールーズに核攻撃を実行した。しかし本当の脅威はフランス側の別ルートの勝利進行で、AIはそちらを最後まで監視せず敗北した。

数値面では「自分が立てた計画を実際に実行できた率」がClaude 48.2%、GPT-5.4 63.2%、Gemini 3.1 Pro 65.8%にとどまり、7つのゲームでは敵の勝利間近を20ターン以内に確認できなかった。著者は、ツール呼び出しでしか世界を見られない「センソリアム効果」と、戦略を語れても実行に移せない「知行のギャップ」を根本課題として指摘している。

出典: https://www.lwilko.com/blog/i-gave-an-ai-a-civilization

コメントを残す

現在の人気