AIに文明を任せたら核を撃って外交負け

英国政府などで政策に携わった開発者が、戦略ゲーム「Civilization VI」を使ってAIの長期意思決定能力を測る評価基盤「CivBench」を公開した。Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5の4モデルに、3種類のシナリオで330ターンずつ文明を運営させた実験だ。

ある回ではAIが治めるポルトガルが外交勝利の目前にいたにもかかわらず、ライバルのフランスを文化的脅威と見なし、50ターンかけて核兵器を開発、トゥールーズに核攻撃を実行した。しかし本当の脅威はフランス側の別ルートの勝利進行で、AIはそちらを最後まで監視せず敗北した。

数値面では「自分が立てた計画を実際に実行できた率」がClaude 48.2％、GPT-5.4 63.2％、Gemini 3.1 Pro 65.8％にとどまり、7つのゲームでは敵の勝利間近を20ターン以内に確認できなかった。著者は、ツール呼び出しでしか世界を見られない「センソリアム効果」と、戦略を語れても実行に移せない「知行のギャップ」を根本課題として指摘している。

出典: https://www.lwilko.com/blog/i-gave-an-ai-a-civilization

共有:

X
Facebook

いいね読み込み中…

コメントを残すコメントをキャンセル

投稿者

Written by

World AI News 編集部

World AI News は、世界の最新AIニュースを毎日日本語でお届けする独立メディアです。海外の一次情報をできるだけ直接読み、背景や関連する動きまで取材したうえで、図解とともに分かりやすく整理します。誇張や憶測は載せません。確かめられた事実だけを、「いま世界で何が起きているか」が一目で伝わる形で届けます。