123,123

從谷歌到字節(jié)，現(xiàn)階段所有主流多模態(tài)模型，集體不及格

2026-02-05 14:07

硅基星芒

關(guān)注

提起多模態(tài)模型這個(gè)概念，人們并不陌生。

從國內(nèi)的“豆包”，到國外的“香蕉”，都是人們喜聞樂見的“圖像創(chuàng)作和PS大師”。

但是，你敢信嗎？最頂尖的AI在“看圖識物”這件人類幼兒都能輕松做到的事情上，竟然集體不及格。

這個(gè)結(jié)論似乎與我們?nèi)粘I的看法背道而馳。它們會寫詩，會編程，甚至?xí)砣藗兊氖謾C(jī)和電腦，但在面對一張清晰的照片時(shí)，卻總是無法回答一個(gè)再簡單不過的問題：“這是什么？”

把稀有的蘭花認(rèn)成野花，把哥特教堂看成普通樓房，甚至給世界名畫安上一位錯(cuò)誤的作者。這可不是偶然性的小失誤，而是一次系統(tǒng)性的“視覺失憶”。

今天凌晨，剛剛發(fā)布Kimi 2.5以補(bǔ)全多模態(tài)能力的月之暗面，推出了一個(gè)名為WorldVQA的全新評測基準(zhǔn)。它就像一把精確而鋒利的手術(shù)刀，直接切開了當(dāng)下多模態(tài)模型華麗能力表象之下的知識空洞。

評測結(jié)果可以說是觸目驚心：表現(xiàn)最好的模型，準(zhǔn)確率也只能達(dá)到47.4%，距離及格線都還差得很遠(yuǎn)。

人們不由得思考一個(gè)被長期忽視的真相：我們每天使用的“高智能”AI，或許壓根沒能在視覺領(lǐng)域建立起一個(gè)可靠、真實(shí)的“百科全書”。

AI或許更像一個(gè)擅長講故事的描述者，而非一個(gè)準(zhǔn)確理解世界的觀察者。WorldVQA的出現(xiàn)，正是要掃清幻覺與事實(shí)交雜的模糊地帶，為衡量多模態(tài)模型的視覺知識真實(shí)性樹立一把精確的標(biāo)尺。

01 現(xiàn)有評測的“障眼法”：記憶和推理混為一談

多模態(tài)模型的發(fā)展取決于兩種截然不同的能力：一是推理，即處理邏輯與關(guān)系；二是知識，即將感官輸入映射到事實(shí)現(xiàn)實(shí)。

而目前，評估多模態(tài)模型的主流方法是視覺問答（Visual Question Answering, VQA），如常見的MMMU、MMStar和SimpleVQA等基準(zhǔn)測試。

現(xiàn)在我們假想一個(gè)問題：給AI一個(gè)公司的Logo，并詢問它該公司的名稱和成立時(shí)間。

顯然，回答這個(gè)問題需要兩步，先是識別圖片中的Logo，再去回憶成立時(shí)間。若是模型給出了錯(cuò)誤的回答，我們根本無法判斷錯(cuò)誤出現(xiàn)在哪一步。

因此，這類基準(zhǔn)測試看似能全面測試AI的視覺能力，實(shí)則存在混淆“知識記憶”和“邏輯推理”的致命缺陷。

除此之外，別忘了很多模型還可以憑借OCR（光學(xué)字符識別）這項(xiàng)經(jīng)典技術(shù)，在評測中蒙混過關(guān)。模型不必認(rèn)出圖片中的內(nèi)容，直接通過“讀出”圖片上的文字標(biāo)簽來抄答案得分。

如果說視覺感知與定位是多模態(tài)模型的眼睛，那么語義記憶和知識就是多模態(tài)模型的大腦。

人們無法定位模型視覺能力的短板究竟在哪，這正是知識記憶與邏輯推理的耦合所導(dǎo)致的盲區(qū)。

02 WorldVQA設(shè)計(jì)哲學(xué)：回歸原子化的視覺事實(shí)

月之暗面的研究團(tuán)隊(duì)針對上述困境而設(shè)計(jì)了WorldVQA，其核心思想很簡單：剝離一切干擾，只測試最原子化的視覺知識。

也就是說，WorldVQA中的每個(gè)問題都只用于測試一個(gè)最基礎(chǔ)、不可再分的視覺知識。為此，該評測基準(zhǔn)必須遵循以下四個(gè)技術(shù)原則：

1.原子隔離（Atomic Isolation）

所有問題均為單跳（single-hop，即一步完成），模型需要將視覺信息直接映射到一個(gè)具體的專有或分類學(xué)名稱，明確排除任何涉及OCR、計(jì)算或多跳知識檢索的任務(wù)。因此，前面例子中需要多個(gè)步驟才能回答的問題將不會出現(xiàn)。

粒度對齊也是一項(xiàng)關(guān)鍵的技術(shù)約束：模型的回答必須在分類學(xué)上足夠精確。例如，看到一只泰迪卻只回答“狗”也會被當(dāng)作回答錯(cuò)誤。

2.分類多樣性（Taxonomic Diversity）

WorldVQA總共覆蓋了九種語義類別：自然環(huán)境、地理建筑、文化藝術(shù)、物品產(chǎn)品、交通工具、娛樂產(chǎn)品、品牌標(biāo)識、體育運(yùn)動和公眾人物。

數(shù)據(jù)的分布被刻意設(shè)計(jì)為相對平衡的狀態(tài)，既包含埃菲爾鐵塔等地標(biāo)型建筑，也包含罕見的特定植物品種，以此全面探測模型知識庫的邊界。

3.數(shù)據(jù)完整性（Data Integrity）

為了防止模型在訓(xùn)練數(shù)據(jù)中“背答案”，研究團(tuán)隊(duì)引入了ISC描述符對候選圖像與LAION和Common Crawl等主流預(yù)訓(xùn)練語料庫進(jìn)行去重。

這里的ISC（實(shí)例級語義內(nèi)容）描述符是一種用于視覺位置識別領(lǐng)域的算法技術(shù)，它能夠?qū)⒁粡垐D像轉(zhuǎn)換為一個(gè)特征向量，可用于判斷一張圖像是否與常用預(yù)訓(xùn)練語料庫中的圖像高度相似。

在WorldVQA的流程中，首先對每張候選圖像生成一個(gè)ISC向量，并將之與常用預(yù)訓(xùn)練語料庫中的所有圖像的ISC向量進(jìn)行比對，計(jì)算余弦相似度。當(dāng)相似度高于95%時(shí)，則可認(rèn)為模型在訓(xùn)練時(shí)已經(jīng)見過這張圖像，該圖像會因?yàn)槲廴緲颖径粊G棄。

如此一來，WorldVQA中測試的“圖像-答案對”都是模型在訓(xùn)練階段從未見過的，若能答對問題，即可反映真實(shí)的視覺能力。

此外，候選樣本采用自動化模型審核和人工盲審的雙重機(jī)制。其中，自動化審核使用了Gemini-3-Pro來檢查圖像清晰度、語義唯一性和上下文完整性；人工盲審交給不知道標(biāo)準(zhǔn)答案的標(biāo)注員單獨(dú)作答，只要產(chǎn)生分歧則觸發(fā)人工復(fù)核。

4.高飽和度上限（High Saturation Ceiling）

評測集在構(gòu)建時(shí)采用基于模型性能的難度分層機(jī)制：研究團(tuán)隊(duì)將五個(gè)前沿多模態(tài)模型集成，并用它對所有候選圖像樣本進(jìn)行評估。

為了檢驗(yàn)區(qū)分能力，五個(gè)模型都能回答的正確樣本將被剔除；正確率較高的簡單樣本也會被故意降低采樣頻率。因此，最終的評測基準(zhǔn)對頂尖模型也具有相當(dāng)高的挑戰(zhàn)性。

03 評測結(jié)果：全員不及格

按照上面的原則，研究人員在WorldVQA中加入了3500個(gè)經(jīng)過嚴(yán)格篩選的“圖像-答案對”。但評測結(jié)果卻無情地揭示了當(dāng)前多模態(tài)模型在視覺知識領(lǐng)域上嚴(yán)重的能力缺失：

首先是整體準(zhǔn)確率連50%都不到的悲慘事實(shí)。

Gemini-3-Pro作為公認(rèn)的全球頂級AI模型、Kimi-K2.5憑借“主場優(yōu)勢”，雖然位列前二，但只能分別取得47.4%和46.3%的正確率；專攻多模態(tài)領(lǐng)域的字節(jié)跳動和Anthropic旗下的產(chǎn)品準(zhǔn)確率則未能達(dá)到40%。

數(shù)據(jù)清晰地表明，現(xiàn)階段的多模態(tài)模型距離“視覺百科全書”還存在巨大差距。

當(dāng)我們將目光轉(zhuǎn)移到表格的右側(cè)，就會發(fā)現(xiàn)不同模型在九大領(lǐng)域中的表現(xiàn)極其不均衡。

從雷達(dá)圖中可以看到，大部分模型很擅長體育運(yùn)動和品牌標(biāo)識等網(wǎng)絡(luò)數(shù)據(jù)充足的領(lǐng)域。綜合得分第一和第二的Gemini-3-Pro和Kimi-K2.5表現(xiàn)尤為突出。

反觀自然環(huán)境和文化藝術(shù)等需要積累深厚的專業(yè)知識的領(lǐng)域，各位“職業(yè)選手”的表現(xiàn)都不盡如人意，因?yàn)槟Ｐ屯鶗驗(yàn)闊o法準(zhǔn)確判斷細(xì)分門類而給出籠統(tǒng)的上位詞，比如前面提到的“泰迪與狗”。

最后，更可怕的事實(shí)是：幾乎所有模型都表現(xiàn)出了過度的自信。

首先來看可靠性圖表：用于衡量模型對自己能力的評估是否準(zhǔn)確。

橫軸（Stated Confidence）代表模型自己聲稱的置信度，也就是模型的信心；

縱軸（Actual Accuracy）是在模型生成的信心水平下，實(shí)際回答正確的概率。

可以看到，所有模型在聲稱自己有95%以上的信心時(shí)，實(shí)際準(zhǔn)確率連70%都不到，純屬“一本正經(jīng)地胡說八道”。其中Kimi-K2.5在高信心水平下能達(dá)到接近70%的準(zhǔn)確率，自我認(rèn)知相對最準(zhǔn)確。

然后再看置信度分布：用于展示模型習(xí)慣給出多高的信心分?jǐn)?shù)。

Gemini-3-Pro可謂是一馬當(dāng)先，證明它總是會說自己“非常確定”，即便是它壓根沒看懂圖里到底有什么，也就是缺乏對“不確定性”的表達(dá)能力。

從企業(yè)角度來看，模型給出自信滿滿的回答有助于提升用戶交互體驗(yàn)和留存率，畢竟大多數(shù)用戶提問后絕不愿意得到一個(gè)模棱兩可、不一定正確的答案。

但與此同時(shí)，過度的自信也證明現(xiàn)階段多模態(tài)模型缺乏對自己知識邊界的可靠內(nèi)部表征，這也是幻覺產(chǎn)生的根本原因之一。

04 結(jié)語：WorldVQA打破“視覺智能已成熟”的幻覺

如今，圖像生成、圖像編輯甚至是視頻生成等AI應(yīng)用大行其道，人們很容易就會產(chǎn)生一種錯(cuò)覺：視覺領(lǐng)域的智能已經(jīng)成熟，AI已經(jīng)看懂了這個(gè)世界。

常見的文生圖和圖像編輯等功能，與月之暗面團(tuán)隊(duì)測試的視覺問答，在技術(shù)上高度相關(guān)但方向相反。前者從語義生成視覺，后者從視覺推斷語義。生成能力強(qiáng)并不代表理解能力強(qiáng)，二者雖然共享部分多模態(tài)對齊機(jī)制，但底層能力卻有天壤之別。

WorldVQA已經(jīng)用冰冷的數(shù)據(jù)告訴我們，多模態(tài)模型在理解側(cè)的能力遠(yuǎn)未達(dá)標(biāo)。

月之暗面的這項(xiàng)研究，沒有在AI應(yīng)用的熱潮中追尋“AI能做什么”，二是沉入底層探究一個(gè)更本質(zhì)的問題：當(dāng)AI充滿自信地給出結(jié)果時(shí)，它到底是在回憶、猜測，還是真正的理解？

答案已經(jīng)呼之欲出：模型不僅在自然和文化等長尾領(lǐng)域的知識匱乏，還普遍“不知道自己不知道”。即便面對完全陌生的事物，它也會自信地編造一個(gè)聽起來十分合理、讓人不會懷疑的名字。這種來自于底層機(jī)制的系統(tǒng)性幻覺，正是當(dāng)前多模態(tài)AI不可信任的根源。

向未來的視角更進(jìn)一步，當(dāng)前的多模態(tài)模型若是連靜態(tài)二維圖像的實(shí)體都無法準(zhǔn)確判別，人們又怎么能去期待AI在動態(tài)且復(fù)雜的三維世界中構(gòu)建世界模型？

WorldVQA已經(jīng)打破技術(shù)樂觀主義的美夢，迫使人們必須承認(rèn)：通往視覺智能的道路，才剛剛開始。

而任何關(guān)于“AGI即將實(shí)現(xiàn)”的宣言，在頂尖AI連看圖識物都答不對的事實(shí)面前，似乎都顯得有些輕率。

原文標(biāo)題 : 從谷歌到字節(jié)，現(xiàn)階段所有主流多模態(tài)模型，集體不及格