訂閱
糾錯(cuò)
加入自媒體

從谷歌到字節(jié),現(xiàn)階段所有主流多模態(tài)模型,集體不及格

提起多模態(tài)模型這個(gè)概念,人們并不陌生。

從國內(nèi)的“豆包”,到國外的“香蕉”,都是人們喜聞樂見的“圖像創(chuàng)作和PS大師”。

但是,你敢信嗎?最頂尖的AI在“看圖識物”這件人類幼兒都能輕松做到的事情上,竟然集體不及格。

這個(gè)結(jié)論似乎與我們?nèi)粘I的看法背道而馳。它們會寫詩,會編程,甚至?xí)砣藗兊氖謾C(jī)和電腦,但在面對一張清晰的照片時(shí),卻總是無法回答一個(gè)再簡單不過的問題:“這是什么?”

把稀有的蘭花認(rèn)成野花,把哥特教堂看成普通樓房,甚至給世界名畫安上一位錯(cuò)誤的作者。這可不是偶然性的小失誤,而是一次系統(tǒng)性的“視覺失憶”。

今天凌晨,剛剛發(fā)布Kimi 2.5以補(bǔ)全多模態(tài)能力的月之暗面,推出了一個(gè)名為WorldVQA的全新評測基準(zhǔn)。它就像一把精確而鋒利的手術(shù)刀,直接切開了當(dāng)下多模態(tài)模型華麗能力表象之下的知識空洞。

評測結(jié)果可以說是觸目驚心:表現(xiàn)最好的模型,準(zhǔn)確率也只能達(dá)到47.4%,距離及格線都還差得很遠(yuǎn)。

人們不由得思考一個(gè)被長期忽視的真相:我們每天使用的“高智能”AI,或許壓根沒能在視覺領(lǐng)域建立起一個(gè)可靠、真實(shí)的“百科全書”。

AI或許更像一個(gè)擅長講故事的描述者,而非一個(gè)準(zhǔn)確理解世界的觀察者。WorldVQA的出現(xiàn),正是要掃清幻覺與事實(shí)交雜的模糊地帶,為衡量多模態(tài)模型的視覺知識真實(shí)性樹立一把精確的標(biāo)尺。

01 現(xiàn)有評測的“障眼法”:記憶和推理混為一談

多模態(tài)模型的發(fā)展取決于兩種截然不同的能力:一是推理,即處理邏輯與關(guān)系;二是知識,即將感官輸入映射到事實(shí)現(xiàn)實(shí)。

而目前,評估多模態(tài)模型的主流方法是視覺問答(Visual Question Answering, VQA),如常見的MMMU、MMStar和SimpleVQA等基準(zhǔn)測試。

現(xiàn)在我們假想一個(gè)問題:給AI一個(gè)公司的Logo,并詢問它該公司的名稱和成立時(shí)間。

顯然,回答這個(gè)問題需要兩步,先是識別圖片中的Logo,再去回憶成立時(shí)間。若是模型給出了錯(cuò)誤的回答,我們根本無法判斷錯(cuò)誤出現(xiàn)在哪一步。

因此,這類基準(zhǔn)測試看似能全面測試AI的視覺能力,實(shí)則存在混淆“知識記憶”和“邏輯推理”的致命缺陷。

除此之外,別忘了很多模型還可以憑借OCR(光學(xué)字符識別)這項(xiàng)經(jīng)典技術(shù),在評測中蒙混過關(guān)。模型不必認(rèn)出圖片中的內(nèi)容,直接通過“讀出”圖片上的文字標(biāo)簽來抄答案得分。

如果說視覺感知與定位是多模態(tài)模型的眼睛,那么語義記憶和知識就是多模態(tài)模型的大腦。

人們無法定位模型視覺能力的短板究竟在哪,這正是知識記憶與邏輯推理的耦合所導(dǎo)致的盲區(qū)。

02 WorldVQA設(shè)計(jì)哲學(xué):回歸原子化的視覺事實(shí)

月之暗面的研究團(tuán)隊(duì)針對上述困境而設(shè)計(jì)了WorldVQA,其核心思想很簡單:剝離一切干擾,只測試最原子化的視覺知識。

也就是說,WorldVQA中的每個(gè)問題都只用于測試一個(gè)最基礎(chǔ)、不可再分的視覺知識。為此,該評測基準(zhǔn)必須遵循以下四個(gè)技術(shù)原則:

1.原子隔離(Atomic Isolation)

所有問題均為單跳(single-hop,即一步完成),模型需要將視覺信息直接映射到一個(gè)具體的專有或分類學(xué)名稱,明確排除任何涉及OCR、計(jì)算或多跳知識檢索的任務(wù)。因此,前面例子中需要多個(gè)步驟才能回答的問題將不會出現(xiàn)。

粒度對齊也是一項(xiàng)關(guān)鍵的技術(shù)約束:模型的回答必須在分類學(xué)上足夠精確。例如,看到一只泰迪卻只回答“狗”也會被當(dāng)作回答錯(cuò)誤。

2.分類多樣性(Taxonomic Diversity)

WorldVQA總共覆蓋了九種語義類別:自然環(huán)境、地理建筑、文化藝術(shù)、物品產(chǎn)品、交通工具、娛樂產(chǎn)品、品牌標(biāo)識、體育運(yùn)動和公眾人物。

 

數(shù)據(jù)的分布被刻意設(shè)計(jì)為相對平衡的狀態(tài),既包含埃菲爾鐵塔等地標(biāo)型建筑,也包含罕見的特定植物品種,以此全面探測模型知識庫的邊界。

3.數(shù)據(jù)完整性(Data Integrity)

為了防止模型在訓(xùn)練數(shù)據(jù)中“背答案”,研究團(tuán)隊(duì)引入了ISC描述符對候選圖像與LAION和Common Crawl等主流預(yù)訓(xùn)練語料庫進(jìn)行去重。

這里的ISC(實(shí)例級語義內(nèi)容)描述符是一種用于視覺位置識別領(lǐng)域的算法技術(shù),它能夠?qū)⒁粡垐D像轉(zhuǎn)換為一個(gè)特征向量,可用于判斷一張圖像是否與常用預(yù)訓(xùn)練語料庫中的圖像高度相似。

在WorldVQA的流程中,首先對每張候選圖像生成一個(gè)ISC向量,并將之與常用預(yù)訓(xùn)練語料庫中的所有圖像的ISC向量進(jìn)行比對,計(jì)算余弦相似度。當(dāng)相似度高于95%時(shí),則可認(rèn)為模型在訓(xùn)練時(shí)已經(jīng)見過這張圖像,該圖像會因?yàn)槲廴緲颖径粊G棄。

如此一來,WorldVQA中測試的“圖像-答案對”都是模型在訓(xùn)練階段從未見過的,若能答對問題,即可反映真實(shí)的視覺能力。

此外,候選樣本采用自動化模型審核和人工盲審的雙重機(jī)制。其中,自動化審核使用了Gemini-3-Pro來檢查圖像清晰度、語義唯一性和上下文完整性;人工盲審交給不知道標(biāo)準(zhǔn)答案的標(biāo)注員單獨(dú)作答,只要產(chǎn)生分歧則觸發(fā)人工復(fù)核。

4.高飽和度上限(High Saturation Ceiling)

評測集在構(gòu)建時(shí)采用基于模型性能的難度分層機(jī)制:研究團(tuán)隊(duì)將五個(gè)前沿多模態(tài)模型集成,并用它對所有候選圖像樣本進(jìn)行評估。

為了檢驗(yàn)區(qū)分能力,五個(gè)模型都能回答的正確樣本將被剔除;正確率較高的簡單樣本也會被故意降低采樣頻率。因此,最終的評測基準(zhǔn)對頂尖模型也具有相當(dāng)高的挑戰(zhàn)性。

03 評測結(jié)果:全員不及格

按照上面的原則,研究人員在WorldVQA中加入了3500個(gè)經(jīng)過嚴(yán)格篩選的“圖像-答案對”。但評測結(jié)果卻無情地揭示了當(dāng)前多模態(tài)模型在視覺知識領(lǐng)域上嚴(yán)重的能力缺失:

首先是整體準(zhǔn)確率連50%都不到的悲慘事實(shí)。

Gemini-3-Pro作為公認(rèn)的全球頂級AI模型、Kimi-K2.5憑借“主場優(yōu)勢”,雖然位列前二,但只能分別取得47.4%和46.3%的正確率;專攻多模態(tài)領(lǐng)域的字節(jié)跳動和Anthropic旗下的產(chǎn)品準(zhǔn)確率則未能達(dá)到40%。

數(shù)據(jù)清晰地表明,現(xiàn)階段的多模態(tài)模型距離“視覺百科全書”還存在巨大差距。

當(dāng)我們將目光轉(zhuǎn)移到表格的右側(cè),就會發(fā)現(xiàn)不同模型在九大領(lǐng)域中的表現(xiàn)極其不均衡。

從雷達(dá)圖中可以看到,大部分模型很擅長體育運(yùn)動和品牌標(biāo)識等網(wǎng)絡(luò)數(shù)據(jù)充足的領(lǐng)域。綜合得分第一和第二的Gemini-3-Pro和Kimi-K2.5表現(xiàn)尤為突出。

反觀自然環(huán)境和文化藝術(shù)等需要積累深厚的專業(yè)知識的領(lǐng)域,各位“職業(yè)選手”的表現(xiàn)都不盡如人意,因?yàn)槟P屯鶗驗(yàn)闊o法準(zhǔn)確判斷細(xì)分門類而給出籠統(tǒng)的上位詞,比如前面提到的“泰迪與狗”。

最后,更可怕的事實(shí)是:幾乎所有模型都表現(xiàn)出了過度的自信。

首先來看可靠性圖表:用于衡量模型對自己能力的評估是否準(zhǔn)確。

橫軸(Stated Confidence)代表模型自己聲稱的置信度,也就是模型的信心;

縱軸(Actual Accuracy)是在模型生成的信心水平下,實(shí)際回答正確的概率。

可以看到,所有模型在聲稱自己有95%以上的信心時(shí),實(shí)際準(zhǔn)確率連70%都不到,純屬“一本正經(jīng)地胡說八道”。其中Kimi-K2.5在高信心水平下能達(dá)到接近70%的準(zhǔn)確率,自我認(rèn)知相對最準(zhǔn)確。

然后再看置信度分布:用于展示模型習(xí)慣給出多高的信心分?jǐn)?shù)。

Gemini-3-Pro可謂是一馬當(dāng)先,證明它總是會說自己“非常確定”,即便是它壓根沒看懂圖里到底有什么,也就是缺乏對“不確定性”的表達(dá)能力。

從企業(yè)角度來看,模型給出自信滿滿的回答有助于提升用戶交互體驗(yàn)和留存率,畢竟大多數(shù)用戶提問后絕不愿意得到一個(gè)模棱兩可、不一定正確的答案。

但與此同時(shí),過度的自信也證明現(xiàn)階段多模態(tài)模型缺乏對自己知識邊界的可靠內(nèi)部表征,這也是幻覺產(chǎn)生的根本原因之一。

04 結(jié)語:WorldVQA打破“視覺智能已成熟”的幻覺

如今,圖像生成、圖像編輯甚至是視頻生成等AI應(yīng)用大行其道,人們很容易就會產(chǎn)生一種錯(cuò)覺:視覺領(lǐng)域的智能已經(jīng)成熟,AI已經(jīng)看懂了這個(gè)世界。

常見的文生圖和圖像編輯等功能,與月之暗面團(tuán)隊(duì)測試的視覺問答,在技術(shù)上高度相關(guān)但方向相反。前者從語義生成視覺,后者從視覺推斷語義。生成能力強(qiáng)并不代表理解能力強(qiáng),二者雖然共享部分多模態(tài)對齊機(jī)制,但底層能力卻有天壤之別。

WorldVQA已經(jīng)用冰冷的數(shù)據(jù)告訴我們,多模態(tài)模型在理解側(cè)的能力遠(yuǎn)未達(dá)標(biāo)。

月之暗面的這項(xiàng)研究,沒有在AI應(yīng)用的熱潮中追尋“AI能做什么”,二是沉入底層探究一個(gè)更本質(zhì)的問題:當(dāng)AI充滿自信地給出結(jié)果時(shí),它到底是在回憶、猜測,還是真正的理解?

答案已經(jīng)呼之欲出:模型不僅在自然和文化等長尾領(lǐng)域的知識匱乏,還普遍“不知道自己不知道”。即便面對完全陌生的事物,它也會自信地編造一個(gè)聽起來十分合理、讓人不會懷疑的名字。這種來自于底層機(jī)制的系統(tǒng)性幻覺,正是當(dāng)前多模態(tài)AI不可信任的根源。

向未來的視角更進(jìn)一步,當(dāng)前的多模態(tài)模型若是連靜態(tài)二維圖像的實(shí)體都無法準(zhǔn)確判別,人們又怎么能去期待AI在動態(tài)且復(fù)雜的三維世界中構(gòu)建世界模型?

WorldVQA已經(jīng)打破技術(shù)樂觀主義的美夢,迫使人們必須承認(rèn):通往視覺智能的道路,才剛剛開始。

而任何關(guān)于“AGI即將實(shí)現(xiàn)”的宣言,在頂尖AI連看圖識物都答不對的事實(shí)面前,似乎都顯得有些輕率。

       原文標(biāo)題 : 從谷歌到字節(jié),現(xiàn)階段所有主流多模態(tài)模型,集體不及格

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號