123,123,123

Google“AI奧運(yùn)會(huì)”：用游戲基準(zhǔn)測(cè)試模型真實(shí)能力

2026-02-04 10:56

硅基星芒

關(guān)注

AI新產(chǎn)品每天接連發(fā)布，測(cè)試基準(zhǔn)和平臺(tái)也是層出不窮。

不過(guò)，你是否想過(guò)，游戲也能用來(lái)測(cè)試AI？

2026年2月初，Google和Kaggle一起想出了一個(gè)新點(diǎn)子：在Kaggle的Game Arena上開(kāi)展一次前所未有的“AI奧運(yùn)會(huì)”。

比賽項(xiàng)目一共有三個(gè)：

在國(guó)際象棋的棋盤上，Gemini 3 Pro和Gemini 3 Flash展開(kāi)了“阿爾法狗”之間的巔峰對(duì)決；

在狼人殺的夜晚，Claude、GPT和Grok輪流扮演村民和狼人，用自然語(yǔ)言編織謊言與真相；

在德州撲克的牌桌上，十位世界頂級(jí)模型選手在90萬(wàn)手對(duì)局中計(jì)算每一分期望值。

這一切，都源自于Google DeepMind團(tuán)隊(duì)和Kaggle平臺(tái)的一個(gè)深刻洞察：現(xiàn)實(shí)世界的決策，從來(lái)都沒(méi)有為之提供完美信息的棋盤。

為了衡量AI在現(xiàn)實(shí)世界中的真實(shí)能力，雙方一同構(gòu)建了由三種游戲組成的“認(rèn)知階梯”，同時(shí)也對(duì)應(yīng)AI必須掌握的三種核心能力：戰(zhàn)略規(guī)劃、社會(huì)推理和風(fēng)險(xiǎn)決策。

新發(fā)布的狼人殺和德州撲克基準(zhǔn)，正在以前所未有的技術(shù)深度和評(píng)測(cè)復(fù)雜度，將AI能力評(píng)測(cè)推進(jìn)到社會(huì)性與不確定性的全新領(lǐng)域。

01 國(guó)際象棋：AI的理性骨架

事實(shí)上，這一思路并非突發(fā)奇想。早在去年8月，Google就與Kaggle合作試圖驗(yàn)證AI模型在戰(zhàn)略游戲中進(jìn)行競(jìng)爭(zhēng)的能力，而一切都起源于一項(xiàng)古老的游戲：國(guó)際象棋。

作為完美信息博弈（所有參與者決策時(shí)都能完全獲得此前所有行動(dòng)信息）的典范，國(guó)際象棋是測(cè)試AI戰(zhàn)略推理、動(dòng)態(tài)適應(yīng)和長(zhǎng)期規(guī)劃能力最理想的沙盒之一。

以一款名為Stockfish的全球頂級(jí)開(kāi)源國(guó)際象棋引擎為代表，傳統(tǒng)方法大多選擇暴力搜索的方式進(jìn)行決策；但Gemini系列的大語(yǔ)言模型則另辟蹊徑，依靠模式識(shí)別和“直覺(jué)”大幅縮小搜索空間。

顯然，后者的下法與人類的思維更為接近。在大語(yǔ)言模型的內(nèi)部思考過(guò)程中，也展現(xiàn)出“子力活躍性（piece mobility）”、“兵結(jié)構(gòu)（pawn structure）”和“王的安全（king safety）”等對(duì)于人類概念的理解。

因此，這不僅是性能的提升和技術(shù)的演進(jìn)，還是范式的轉(zhuǎn)變：它證明了大語(yǔ)言模型可以在不依賴專用算法的情況下，僅依靠訓(xùn)練階段積累的知識(shí)以及推理能力即可達(dá)到人類的“大師級(jí)”水平。

不過(guò)，萬(wàn)物都有兩面性。國(guó)際象棋作為一項(xiàng)完美信息博弈的游戲，機(jī)制過(guò)于透明，其結(jié)果無(wú)法回答一個(gè)更加貼近現(xiàn)實(shí)的問(wèn)題：當(dāng)信息不再透明，當(dāng)對(duì)手能夠欺騙，AI又該如何應(yīng)對(duì)？

Google和Kaggle設(shè)計(jì)出兩款新的游戲測(cè)試基準(zhǔn)，正是為了探究這個(gè)問(wèn)題的答案。

02 狼人殺：AI的社交皮膚與安全沙盒

為了讓AI在不完美信息博弈中也能做出最優(yōu)決策，Google和Kaggle在Game Arena中引入了首個(gè)多智能體團(tuán)隊(duì)游戲：狼人殺。

由于現(xiàn)有的狼人殺規(guī)則各不相同，身份過(guò)于復(fù)雜，評(píng)測(cè)基準(zhǔn)選定了經(jīng)典的8人局游戲模式（2狼人+1醫(yī)生+1預(yù)言家+4平民），并規(guī)定AI只能通過(guò)純自然語(yǔ)言進(jìn)行溝通與合作、欺騙與反欺騙。這也意味著未來(lái)企業(yè)級(jí)的AI助理必須具備溝通、談判以及在模糊的信息中達(dá)成共識(shí)的能力。

盡管游戲規(guī)模已經(jīng)壓縮至8人4身份，但仍顯復(fù)雜的游戲面臨根本性的方法論挑戰(zhàn)：以現(xiàn)階段比較流行的Elo機(jī)制為代表的傳統(tǒng)玩家評(píng)級(jí)系統(tǒng)都是針對(duì)對(duì)稱對(duì)抗或同質(zhì)化玩家而設(shè)計(jì)，但無(wú)法處理狼人殺中存在的角色互異性和團(tuán)隊(duì)依賴性兩大難題。

角色互異性導(dǎo)致扮演狼人/醫(yī)生/預(yù)言家/平民的AI的技能要求截然不同，團(tuán)隊(duì)依賴性則決定了單個(gè)玩家的勝敗高度取決于對(duì)手和隊(duì)友的表現(xiàn)。由此誕生了一個(gè)核心問(wèn)題：在一個(gè)8人的團(tuán)隊(duì)游戲中，如何公平地給每個(gè)AI玩家打分？一局游戲的勝敗是8個(gè)人共同作用的結(jié)果，如何判定誰(shuí)的貢獻(xiàn)大、誰(shuí)在拖后腿？

好在，Google DeepMind團(tuán)隊(duì)提出了名為Polarix的評(píng)估框架。這個(gè)極具創(chuàng)造性的解決方案能夠?qū)⒗侨藲⒌脑u(píng)測(cè)問(wèn)題重構(gòu)為三人“元游戲（meta-game）”：

裁判（Judge）負(fù)責(zé)選定一個(gè)特定的身份；

經(jīng)理A（Manager A）負(fù)責(zé)為這個(gè)身份挑選一個(gè)AI模型來(lái)扮演；

經(jīng)理B（Manager B）負(fù)責(zé)為剩下的7個(gè)身份分配其他AI模型來(lái)扮演。

隨后，參與游戲的8個(gè)模型就可以進(jìn)行一局完整的狼人殺游戲，并產(chǎn)生明確的勝負(fù)結(jié)果。這個(gè)過(guò)程將針對(duì)每一個(gè)角色重復(fù)進(jìn)行大量測(cè)試，直至系統(tǒng)達(dá)到納什均衡（Nash equilibrium）。在這個(gè)均衡狀態(tài)下，任何一位玩家單方面改變自己的策略（即更換模型）都無(wú)法提升勝率，由此就能揭示每個(gè)模型在每個(gè)身份上的真實(shí)價(jià)值。

例如，Gemini 3 Pro被選作預(yù)言家的頻率遠(yuǎn)高于其他模型，而且被選中時(shí)平民陣營(yíng)的勝率明顯更高，那么Gemini 3 Pro就會(huì)在預(yù)言家這個(gè)角色上拿到最高的評(píng)分。

Polarix避開(kāi)了直接量化個(gè)人貢獻(xiàn)這一指標(biāo)，轉(zhuǎn)而通過(guò)類似市場(chǎng)競(jìng)爭(zhēng)的機(jī)制來(lái)間接衡量?jī)r(jià)值。同時(shí)，Polarix既可以給出一個(gè)線性的排名，又可以捕捉到非傳遞性的能力循環(huán)。評(píng)測(cè)結(jié)果顯示，Gemini 3 Pro和Flash分別擅長(zhǎng)扮演狼人和預(yù)言家，其他模型都只能得到負(fù)勝率，GPT-5 mini則非常不適合扮演狼人。

狼人殺測(cè)試基準(zhǔn)的意義不僅在于游戲?qū)用嫔系谋憩F(xiàn)，更在于AI安全研究方面的價(jià)值。這個(gè)不完美信息博弈的游戲創(chuàng)造了一個(gè)“紅隊(duì)測(cè)試（red-teaming）”環(huán)節(jié)。研究者可以同時(shí)直觀測(cè)量模型作為村民時(shí)識(shí)別邏輯矛盾、檢測(cè)欺騙行為的能力，以及作為狼人時(shí)生成可信謊言、虛構(gòu)敘事、操縱群體共識(shí)的能力。

正如Google在博客上說(shuō)的：我們不能假裝AI不會(huì)欺騙，而是必須去評(píng)估和衡量它。

03 德州撲克：AI的風(fēng)險(xiǎn)偏好與理性極限

如果狼人殺是在考驗(yàn)AI的“社會(huì)性”人格扮演能力，那么Google和Kaggle設(shè)計(jì)的下一項(xiàng)測(cè)試：德州撲克，則是在試探AI純粹的理性和風(fēng)險(xiǎn)偏好。

在這個(gè)撲克牌游戲中，由于只知道自己的兩張底牌，AI必須面臨極致的不完美信息和無(wú)限的風(fēng)險(xiǎn)敞口。AI的核心挑戰(zhàn)是在無(wú)法獲得對(duì)手手牌信息的情況下，通過(guò)解讀對(duì)手的下注模式來(lái)推斷范圍，并以此得出最大化長(zhǎng)期期望值的決策。

用撲克牌游戲來(lái)測(cè)試就不得不直面運(yùn)氣存在的事實(shí)。為了盡可能排除運(yùn)氣干擾，Game Arena設(shè)計(jì)了復(fù)現(xiàn)式對(duì)局。任意兩個(gè)模型之間都會(huì)進(jìn)行共計(jì)20000手的對(duì)局，在正常進(jìn)行10000手對(duì)戰(zhàn)后，交換雙方底牌并完全復(fù)現(xiàn)此前的發(fā)牌順序，再進(jìn)行10000手對(duì)戰(zhàn)，完美抵消發(fā)牌的隨機(jī)性。

與卡內(nèi)基梅隆大學(xué)研發(fā)的、專攻1v1無(wú)限注德州撲克不完美信息博弈的AI系統(tǒng)Libratus不同，參與此次評(píng)測(cè)的大語(yǔ)言模型被禁止使用任何外部工具，即無(wú)法使用范圍計(jì)算器、賠率表或是需要預(yù)先計(jì)算的博弈論策略。模型只能依靠自身在訓(xùn)練過(guò)程中學(xué)習(xí)到的撲克牌理論知識(shí)和對(duì)手的實(shí)時(shí)行為進(jìn)行動(dòng)態(tài)推理。

模型在每次決策時(shí)都需要綜合考慮底池賠率、隱含賠率、對(duì)手手牌組合、自身打牌風(fēng)格等因素。而這些復(fù)雜的計(jì)算和判斷必須于60秒內(nèi)在模型內(nèi)部完成并給出合法的動(dòng)作。如果模型輸出了非法動(dòng)作，系統(tǒng)只會(huì)允許一次重試機(jī)會(huì)，此后默認(rèn)采取最保守的行動(dòng)。

表面上看是撲克牌游戲，實(shí)則是Google與Kaggle對(duì)大語(yǔ)言模型內(nèi)生知識(shí)儲(chǔ)備和實(shí)時(shí)概率推理能力的極限壓力測(cè)試。

撲克牌測(cè)試基準(zhǔn)的參賽選手共有十位，其中包括國(guó)產(chǎn)模型DeepSeek V3.2以展現(xiàn)評(píng)測(cè)的開(kāi)放性和影響力。不過(guò)，測(cè)試仍在進(jìn)行中，最終的排行榜將于明日揭曉。

04 認(rèn)知生態(tài)：評(píng)測(cè)范式的躍遷

Google和Kaggle合作建立Game Arena的革命性意義并非選擇了三個(gè)眾所周知的經(jīng)典游戲，而是系統(tǒng)性地構(gòu)建了一個(gè)從原子化的能力到認(rèn)知生態(tài)的評(píng)測(cè)框架。AI的評(píng)測(cè)基準(zhǔn)必須緊緊追隨AI的能力從實(shí)驗(yàn)室走向現(xiàn)實(shí)，完成根本性的范式轉(zhuǎn)移。

對(duì)于傳統(tǒng)的AI基準(zhǔn)測(cè)試來(lái)說(shuō)，無(wú)論是經(jīng)典的MMLU知識(shí)問(wèn)答，還是HumanEval代碼生成，盡管都在推陳出新，但本質(zhì)上都是在測(cè)量模型的靜態(tài)原子化技能。雖然測(cè)試領(lǐng)域各有不同，但基本假設(shè)卻幾乎一致：世界是確定的、任務(wù)是孤立的、輸入是規(guī)范的。

我們必須承認(rèn)這些基準(zhǔn)測(cè)試在大語(yǔ)言模型發(fā)展的早期階段功不可沒(méi)，但隨著模型能力日新月異，“跑分沒(méi)輸過(guò)，實(shí)用沒(méi)用過(guò)”的現(xiàn)象仿佛每天都在發(fā)生。Gemini和GPT的性能每天都在“被超越”，但領(lǐng)先地位卻沒(méi)有一絲動(dòng)搖。

原因很簡(jiǎn)單：在面對(duì)真實(shí)世界的模糊性、對(duì)抗性和動(dòng)態(tài)協(xié)作需求時(shí)，靜態(tài)跑分沒(méi)有說(shuō)服力。

Game Arena制定的三重基準(zhǔn)雖然看起來(lái)有些娛樂(lè)化，但卻指向了一個(gè)更高維度的目標(biāo)：測(cè)試模型在一個(gè)微觀的社會(huì)經(jīng)濟(jì)生態(tài)系統(tǒng)中是否具備生存和適應(yīng)能力。

國(guó)際象棋構(gòu)成這個(gè)微觀生態(tài)系統(tǒng)的邏輯內(nèi)核，它能反映出智能體在規(guī)則清晰、信息透明的理想環(huán)境下進(jìn)行長(zhǎng)期規(guī)劃、因果推理的能力。這是單智能體通往通用人工智能的底層能力基礎(chǔ)。

狼人殺開(kāi)始向微觀生態(tài)系統(tǒng)中注入社會(huì)性，多智能體需要在充斥著信任與欺騙的復(fù)雜語(yǔ)言網(wǎng)絡(luò)中自主行動(dòng)。勝利與失敗不僅取決于單智能體的智能程度和邏輯推理能力，還取決于是否能理解其他智能體的意圖、建立有效溝通、在信息不對(duì)稱時(shí)集體行動(dòng)。這是多智能體系統(tǒng)和人機(jī)協(xié)作的核心挑戰(zhàn)。

德州撲克則進(jìn)一步將經(jīng)濟(jì)性引入微觀生態(tài)系統(tǒng)，將決策置于一個(gè)以資源為媒介、以風(fēng)險(xiǎn)和回報(bào)為核心驅(qū)動(dòng)力的環(huán)境中。智能體需要具備量化不確定性、管理風(fēng)險(xiǎn)敞口、通過(guò)行為建模進(jìn)行策略博弈的能力。這是在金融、商業(yè)環(huán)境下進(jìn)行決策的真實(shí)寫照。

看似毫不沾邊的三款游戲并非簡(jiǎn)單疊加，而是構(gòu)成了一個(gè)相互耦合、彼此可驗(yàn)證的認(rèn)知閉環(huán)。僅僅精通其中一項(xiàng)的AI，必定會(huì)因?yàn)槿狈ζ渌芰Χ诹硗鈨身?xiàng)游戲中屢屢落敗。

Game Arena要求未來(lái)的AI模型不能再是獨(dú)立的工具，而是能夠在邏輯、社會(huì)和經(jīng)濟(jì)三大維度上協(xié)同運(yùn)作、具備完整認(rèn)知架構(gòu)的智能體集合。

因此，模型只有在三重壓力測(cè)試下展現(xiàn)出可靠且可解釋的行為時(shí)，我們才有理由相信它已經(jīng)具備了在現(xiàn)實(shí)世界中充當(dāng)人類伙伴的資格。

原文標(biāo)題 : Google“AI奧運(yùn)會(huì)”：用游戲基準(zhǔn)測(cè)試模型真實(shí)能力