訂閱
糾錯(cuò)
加入自媒體

Google“AI奧運(yùn)會(huì)”:用游戲基準(zhǔn)測(cè)試模型真實(shí)能力

AI新產(chǎn)品每天接連發(fā)布,測(cè)試基準(zhǔn)和平臺(tái)也是層出不窮。

不過(guò),你是否想過(guò),游戲也能用來(lái)測(cè)試AI?

2026年2月初,Google和Kaggle一起想出了一個(gè)新點(diǎn)子:在Kaggle的Game Arena上開(kāi)展一次前所未有的“AI奧運(yùn)會(huì)”。

比賽項(xiàng)目一共有三個(gè):

在國(guó)際象棋的棋盤上,Gemini 3 Pro和Gemini 3 Flash展開(kāi)了“阿爾法狗”之間的巔峰對(duì)決;

在狼人殺的夜晚,Claude、GPT和Grok輪流扮演村民和狼人,用自然語(yǔ)言編織謊言與真相;

在德州撲克的牌桌上,十位世界頂級(jí)模型選手在90萬(wàn)手對(duì)局中計(jì)算每一分期望值。

這一切,都源自于Google DeepMind團(tuán)隊(duì)和Kaggle平臺(tái)的一個(gè)深刻洞察:現(xiàn)實(shí)世界的決策,從來(lái)都沒(méi)有為之提供完美信息的棋盤。

為了衡量AI在現(xiàn)實(shí)世界中的真實(shí)能力,雙方一同構(gòu)建了由三種游戲組成的“認(rèn)知階梯”,同時(shí)也對(duì)應(yīng)AI必須掌握的三種核心能力:戰(zhàn)略規(guī)劃、社會(huì)推理和風(fēng)險(xiǎn)決策。

新發(fā)布的狼人殺和德州撲克基準(zhǔn),正在以前所未有的技術(shù)深度和評(píng)測(cè)復(fù)雜度,將AI能力評(píng)測(cè)推進(jìn)到社會(huì)性與不確定性的全新領(lǐng)域。

01 國(guó)際象棋:AI的理性骨架

事實(shí)上,這一思路并非突發(fā)奇想。早在去年8月,Google就與Kaggle合作試圖驗(yàn)證AI模型在戰(zhàn)略游戲中進(jìn)行競(jìng)爭(zhēng)的能力,而一切都起源于一項(xiàng)古老的游戲:國(guó)際象棋。

作為完美信息博弈(所有參與者決策時(shí)都能完全獲得此前所有行動(dòng)信息)的典范,國(guó)際象棋是測(cè)試AI戰(zhàn)略推理、動(dòng)態(tài)適應(yīng)和長(zhǎng)期規(guī)劃能力最理想的沙盒之一。

以一款名為Stockfish的全球頂級(jí)開(kāi)源國(guó)際象棋引擎為代表,傳統(tǒng)方法大多選擇暴力搜索的方式進(jìn)行決策;但Gemini系列的大語(yǔ)言模型則另辟蹊徑,依靠模式識(shí)別和“直覺(jué)”大幅縮小搜索空間。

顯然,后者的下法與人類的思維更為接近。在大語(yǔ)言模型的內(nèi)部思考過(guò)程中,也展現(xiàn)出“子力活躍性(piece mobility)”、“兵結(jié)構(gòu)(pawn structure)”和“王的安全(king safety)”等對(duì)于人類概念的理解。

因此,這不僅是性能的提升和技術(shù)的演進(jìn),還是范式的轉(zhuǎn)變:它證明了大語(yǔ)言模型可以在不依賴專用算法的情況下,僅依靠訓(xùn)練階段積累的知識(shí)以及推理能力即可達(dá)到人類的“大師級(jí)”水平。

不過(guò),萬(wàn)物都有兩面性。國(guó)際象棋作為一項(xiàng)完美信息博弈的游戲,機(jī)制過(guò)于透明,其結(jié)果無(wú)法回答一個(gè)更加貼近現(xiàn)實(shí)的問(wèn)題:當(dāng)信息不再透明,當(dāng)對(duì)手能夠欺騙,AI又該如何應(yīng)對(duì)?

Google和Kaggle設(shè)計(jì)出兩款新的游戲測(cè)試基準(zhǔn),正是為了探究這個(gè)問(wèn)題的答案。

02 狼人殺:AI的社交皮膚與安全沙盒

為了讓AI在不完美信息博弈中也能做出最優(yōu)決策,Google和Kaggle在Game Arena中引入了首個(gè)多智能體團(tuán)隊(duì)游戲:狼人殺。

由于現(xiàn)有的狼人殺規(guī)則各不相同,身份過(guò)于復(fù)雜,評(píng)測(cè)基準(zhǔn)選定了經(jīng)典的8人局游戲模式(2狼人+1醫(yī)生+1預(yù)言家+4平民),并規(guī)定AI只能通過(guò)純自然語(yǔ)言進(jìn)行溝通與合作、欺騙與反欺騙。這也意味著未來(lái)企業(yè)級(jí)的AI助理必須具備溝通、談判以及在模糊的信息中達(dá)成共識(shí)的能力。

盡管游戲規(guī)模已經(jīng)壓縮至8人4身份,但仍顯復(fù)雜的游戲面臨根本性的方法論挑戰(zhàn):以現(xiàn)階段比較流行的Elo機(jī)制為代表的傳統(tǒng)玩家評(píng)級(jí)系統(tǒng)都是針對(duì)對(duì)稱對(duì)抗或同質(zhì)化玩家而設(shè)計(jì),但無(wú)法處理狼人殺中存在的角色互異性和團(tuán)隊(duì)依賴性兩大難題。

角色互異性導(dǎo)致扮演狼人/醫(yī)生/預(yù)言家/平民的AI的技能要求截然不同,團(tuán)隊(duì)依賴性則決定了單個(gè)玩家的勝敗高度取決于對(duì)手和隊(duì)友的表現(xiàn)。由此誕生了一個(gè)核心問(wèn)題:在一個(gè)8人的團(tuán)隊(duì)游戲中,如何公平地給每個(gè)AI玩家打分?一局游戲的勝敗是8個(gè)人共同作用的結(jié)果,如何判定誰(shuí)的貢獻(xiàn)大、誰(shuí)在拖后腿?

好在,Google DeepMind團(tuán)隊(duì)提出了名為Polarix的評(píng)估框架。這個(gè)極具創(chuàng)造性的解決方案能夠?qū)⒗侨藲⒌脑u(píng)測(cè)問(wèn)題重構(gòu)為三人“元游戲(meta-game)”:

裁判(Judge)負(fù)責(zé)選定一個(gè)特定的身份;

經(jīng)理A(Manager A)負(fù)責(zé)為這個(gè)身份挑選一個(gè)AI模型來(lái)扮演;

經(jīng)理B(Manager B)負(fù)責(zé)為剩下的7個(gè)身份分配其他AI模型來(lái)扮演。

隨后,參與游戲的8個(gè)模型就可以進(jìn)行一局完整的狼人殺游戲,并產(chǎn)生明確的勝負(fù)結(jié)果。這個(gè)過(guò)程將針對(duì)每一個(gè)角色重復(fù)進(jìn)行大量測(cè)試,直至系統(tǒng)達(dá)到納什均衡(Nash equilibrium)。在這個(gè)均衡狀態(tài)下,任何一位玩家單方面改變自己的策略(即更換模型)都無(wú)法提升勝率,由此就能揭示每個(gè)模型在每個(gè)身份上的真實(shí)價(jià)值。

例如,Gemini 3 Pro被選作預(yù)言家的頻率遠(yuǎn)高于其他模型,而且被選中時(shí)平民陣營(yíng)的勝率明顯更高,那么Gemini 3 Pro就會(huì)在預(yù)言家這個(gè)角色上拿到最高的評(píng)分。

Polarix避開(kāi)了直接量化個(gè)人貢獻(xiàn)這一指標(biāo),轉(zhuǎn)而通過(guò)類似市場(chǎng)競(jìng)爭(zhēng)的機(jī)制來(lái)間接衡量?jī)r(jià)值。同時(shí),Polarix既可以給出一個(gè)線性的排名,又可以捕捉到非傳遞性的能力循環(huán)。評(píng)測(cè)結(jié)果顯示,Gemini 3 Pro和Flash分別擅長(zhǎng)扮演狼人和預(yù)言家,其他模型都只能得到負(fù)勝率,GPT-5 mini則非常不適合扮演狼人。

狼人殺測(cè)試基準(zhǔn)的意義不僅在于游戲?qū)用嫔系谋憩F(xiàn),更在于AI安全研究方面的價(jià)值。這個(gè)不完美信息博弈的游戲創(chuàng)造了一個(gè)“紅隊(duì)測(cè)試(red-teaming)”環(huán)節(jié)。研究者可以同時(shí)直觀測(cè)量模型作為村民時(shí)識(shí)別邏輯矛盾、檢測(cè)欺騙行為的能力,以及作為狼人時(shí)生成可信謊言、虛構(gòu)敘事、操縱群體共識(shí)的能力。

正如Google在博客上說(shuō)的:我們不能假裝AI不會(huì)欺騙,而是必須去評(píng)估和衡量它。

03 德州撲克:AI的風(fēng)險(xiǎn)偏好與理性極限

如果狼人殺是在考驗(yàn)AI的“社會(huì)性”人格扮演能力,那么Google和Kaggle設(shè)計(jì)的下一項(xiàng)測(cè)試:德州撲克,則是在試探AI純粹的理性和風(fēng)險(xiǎn)偏好。

在這個(gè)撲克牌游戲中,由于只知道自己的兩張底牌,AI必須面臨極致的不完美信息和無(wú)限的風(fēng)險(xiǎn)敞口。AI的核心挑戰(zhàn)是在無(wú)法獲得對(duì)手手牌信息的情況下,通過(guò)解讀對(duì)手的下注模式來(lái)推斷范圍,并以此得出最大化長(zhǎng)期期望值的決策。

用撲克牌游戲來(lái)測(cè)試就不得不直面運(yùn)氣存在的事實(shí)。為了盡可能排除運(yùn)氣干擾,Game Arena設(shè)計(jì)了復(fù)現(xiàn)式對(duì)局。任意兩個(gè)模型之間都會(huì)進(jìn)行共計(jì)20000手的對(duì)局,在正常進(jìn)行10000手對(duì)戰(zhàn)后,交換雙方底牌并完全復(fù)現(xiàn)此前的發(fā)牌順序,再進(jìn)行10000手對(duì)戰(zhàn),完美抵消發(fā)牌的隨機(jī)性。

與卡內(nèi)基梅隆大學(xué)研發(fā)的、專攻1v1無(wú)限注德州撲克不完美信息博弈的AI系統(tǒng)Libratus不同,參與此次評(píng)測(cè)的大語(yǔ)言模型被禁止使用任何外部工具,即無(wú)法使用范圍計(jì)算器、賠率表或是需要預(yù)先計(jì)算的博弈論策略。模型只能依靠自身在訓(xùn)練過(guò)程中學(xué)習(xí)到的撲克牌理論知識(shí)和對(duì)手的實(shí)時(shí)行為進(jìn)行動(dòng)態(tài)推理。

模型在每次決策時(shí)都需要綜合考慮底池賠率、隱含賠率、對(duì)手手牌組合、自身打牌風(fēng)格等因素。而這些復(fù)雜的計(jì)算和判斷必須于60秒內(nèi)在模型內(nèi)部完成并給出合法的動(dòng)作。如果模型輸出了非法動(dòng)作,系統(tǒng)只會(huì)允許一次重試機(jī)會(huì),此后默認(rèn)采取最保守的行動(dòng)。

表面上看是撲克牌游戲,實(shí)則是Google與Kaggle對(duì)大語(yǔ)言模型內(nèi)生知識(shí)儲(chǔ)備和實(shí)時(shí)概率推理能力的極限壓力測(cè)試。

撲克牌測(cè)試基準(zhǔn)的參賽選手共有十位,其中包括國(guó)產(chǎn)模型DeepSeek V3.2以展現(xiàn)評(píng)測(cè)的開(kāi)放性和影響力。不過(guò),測(cè)試仍在進(jìn)行中,最終的排行榜將于明日揭曉。

04 認(rèn)知生態(tài):評(píng)測(cè)范式的躍遷

Google和Kaggle合作建立Game Arena的革命性意義并非選擇了三個(gè)眾所周知的經(jīng)典游戲,而是系統(tǒng)性地構(gòu)建了一個(gè)從原子化的能力到認(rèn)知生態(tài)的評(píng)測(cè)框架。AI的評(píng)測(cè)基準(zhǔn)必須緊緊追隨AI的能力從實(shí)驗(yàn)室走向現(xiàn)實(shí),完成根本性的范式轉(zhuǎn)移。

對(duì)于傳統(tǒng)的AI基準(zhǔn)測(cè)試來(lái)說(shuō),無(wú)論是經(jīng)典的MMLU知識(shí)問(wèn)答,還是HumanEval代碼生成,盡管都在推陳出新,但本質(zhì)上都是在測(cè)量模型的靜態(tài)原子化技能。雖然測(cè)試領(lǐng)域各有不同,但基本假設(shè)卻幾乎一致:世界是確定的、任務(wù)是孤立的、輸入是規(guī)范的。

我們必須承認(rèn)這些基準(zhǔn)測(cè)試在大語(yǔ)言模型發(fā)展的早期階段功不可沒(méi),但隨著模型能力日新月異,“跑分沒(méi)輸過(guò),實(shí)用沒(méi)用過(guò)”的現(xiàn)象仿佛每天都在發(fā)生。Gemini和GPT的性能每天都在“被超越”,但領(lǐng)先地位卻沒(méi)有一絲動(dòng)搖。

原因很簡(jiǎn)單:在面對(duì)真實(shí)世界的模糊性、對(duì)抗性和動(dòng)態(tài)協(xié)作需求時(shí),靜態(tài)跑分沒(méi)有說(shuō)服力。

Game Arena制定的三重基準(zhǔn)雖然看起來(lái)有些娛樂(lè)化,但卻指向了一個(gè)更高維度的目標(biāo):測(cè)試模型在一個(gè)微觀的社會(huì)經(jīng)濟(jì)生態(tài)系統(tǒng)中是否具備生存和適應(yīng)能力。

國(guó)際象棋構(gòu)成這個(gè)微觀生態(tài)系統(tǒng)的邏輯內(nèi)核,它能反映出智能體在規(guī)則清晰、信息透明的理想環(huán)境下進(jìn)行長(zhǎng)期規(guī)劃、因果推理的能力。這是單智能體通往通用人工智能的底層能力基礎(chǔ)。

狼人殺開(kāi)始向微觀生態(tài)系統(tǒng)中注入社會(huì)性,多智能體需要在充斥著信任與欺騙的復(fù)雜語(yǔ)言網(wǎng)絡(luò)中自主行動(dòng)。勝利與失敗不僅取決于單智能體的智能程度和邏輯推理能力,還取決于是否能理解其他智能體的意圖、建立有效溝通、在信息不對(duì)稱時(shí)集體行動(dòng)。這是多智能體系統(tǒng)和人機(jī)協(xié)作的核心挑戰(zhàn)。

德州撲克則進(jìn)一步將經(jīng)濟(jì)性引入微觀生態(tài)系統(tǒng),將決策置于一個(gè)以資源為媒介、以風(fēng)險(xiǎn)和回報(bào)為核心驅(qū)動(dòng)力的環(huán)境中。智能體需要具備量化不確定性、管理風(fēng)險(xiǎn)敞口、通過(guò)行為建模進(jìn)行策略博弈的能力。這是在金融、商業(yè)環(huán)境下進(jìn)行決策的真實(shí)寫照。

看似毫不沾邊的三款游戲并非簡(jiǎn)單疊加,而是構(gòu)成了一個(gè)相互耦合、彼此可驗(yàn)證的認(rèn)知閉環(huán)。僅僅精通其中一項(xiàng)的AI,必定會(huì)因?yàn)槿狈ζ渌芰Χ诹硗鈨身?xiàng)游戲中屢屢落敗。

Game Arena要求未來(lái)的AI模型不能再是獨(dú)立的工具,而是能夠在邏輯、社會(huì)和經(jīng)濟(jì)三大維度上協(xié)同運(yùn)作、具備完整認(rèn)知架構(gòu)的智能體集合。

因此,模型只有在三重壓力測(cè)試下展現(xiàn)出可靠且可解釋的行為時(shí),我們才有理由相信它已經(jīng)具備了在現(xiàn)實(shí)世界中充當(dāng)人類伙伴的資格。

       原文標(biāo)題 : Google“AI奧運(yùn)會(huì)”:用游戲基準(zhǔn)測(cè)試模型真實(shí)能力

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)