訂閱
糾錯
加入自媒體

視頻理解大模型覺醒!Video-o3發(fā)布:像偵探一樣主動搜尋關(guān)鍵幀,登頂Video-Holmes!

作者:Xiangyu Zeng等

解讀:AI生成未來

亮點直擊

Video-o3,一個創(chuàng)新的框架,它通過迭代地發(fā)現(xiàn)顯著的視覺線索、對關(guān)鍵片段進(jìn)行細(xì)致檢查以及在收集到足夠證據(jù)時自適應(yīng)終止搜索過程,解決了長視頻多跳推理的挑戰(zhàn)。

解決注意力分散: 為了應(yīng)對推理和工具調(diào)用異構(gòu)性導(dǎo)致的注意力分散問題,本文提出了任務(wù)解耦注意力掩蔽,它可以在SFT(監(jiān)督微調(diào))階段隔離每一步的注意力,同時保持共享的全局上下文,從而實現(xiàn)高效的解耦專家訓(xùn)練。

控制上下文增長和提高效率: 引入了可驗證軌跡引導(dǎo)獎勵,用于控制多輪交互中的上下文長度增長。這個獎勵機制在強化學(xué)習(xí)(RL)階段平衡了線索探索和推理效率,通過結(jié)合中間線索準(zhǔn)確性和回合衰減因子,確保了推理過程的規(guī)范性。

大規(guī)模訓(xùn)練數(shù)據(jù): 為了支持大規(guī)模訓(xùn)練,開發(fā)了一個數(shù)據(jù)合成流程,并構(gòu)建了Seer-173K數(shù)據(jù)集,其中包含173K條高質(zhì)量的工具交互軌跡,從而實現(xiàn)了有效的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

卓越的性能: Video-o3在多跳證據(jù)尋找和推理能力方面表現(xiàn)出色,在MLVU上取得了72.1%的準(zhǔn)確率,在Video-Holmes上取得了46.5%的準(zhǔn)確率,顯著優(yōu)于現(xiàn)有SOTA方法。

總結(jié)速覽

解決的問題

現(xiàn)有的多模態(tài)大型語言模型(MLLMs)在長視頻理解方面主要依賴統(tǒng)一采樣和單輪推理,這限制了它們在大量冗余信息中識別稀疏但關(guān)鍵證據(jù)的能力。

長視頻中存在豐富的視覺線索和復(fù)雜的時序依賴,模型不僅需要精確地定位與查詢相關(guān)的時刻,還需要對這些時刻進(jìn)行推理以實現(xiàn)準(zhǔn)確、特定于查詢的理解,而現(xiàn)有方法難以做到這一點。

大多數(shù)現(xiàn)有方法采用統(tǒng)一幀采樣和單輪推理策略,這會稀釋關(guān)鍵視覺證據(jù),導(dǎo)致計算開銷大和推理準(zhǔn)確性下降。

早期的“線索尋找+答案推理”原型過于依賴手工啟發(fā)式方法,缺乏端到端優(yōu)化,并且將線索尋找與推理解耦,訓(xùn)練為孤立的單輪模塊,沒有多步上下文共享。

提出的方案

引入Video-o3,一個支持迭代發(fā)現(xiàn)顯著視覺線索、對關(guān)鍵片段進(jìn)行細(xì)粒度檢查以及在獲得足夠證據(jù)后自適應(yīng)終止的新框架。

賦予MLLMs類人探索性線索尋找能力,以實現(xiàn)更高效和準(zhǔn)確的長視頻理解。

通過原生多輪工具調(diào)用進(jìn)行端到端訓(xùn)練,以實現(xiàn)更強的靈活性和聯(lián)合推理。

應(yīng)用的技術(shù)

任務(wù)解耦注意力掩蔽 (Task-Decoupled Attention Masking): 用于解決推理和工具調(diào)用異構(gòu)性引起的注意力分散問題,該技術(shù)隔離了每一步的注意力,同時保留了共享的全局上下文。

可驗證軌跡引導(dǎo)獎勵 (Verifiable Trajectory-Guided Reward): 用于控制多輪交互中的上下文長度增長,平衡了探索覆蓋率和推理效率。

數(shù)據(jù)合成流程與Seeker-173K數(shù)據(jù)集: 開發(fā)了一個數(shù)據(jù)合成流程并構(gòu)建了包含173K條高質(zhì)量工具交互軌跡的Seeker-173K數(shù)據(jù)集,以支持大規(guī)模訓(xùn)練,實現(xiàn)有效的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

達(dá)到的效果

Video-o3在MLVU上取得了72.1%的準(zhǔn)確率,在Video-Holmes上取得了46.5%的準(zhǔn)確率。

這些結(jié)果證明了Video-o3強大的多跳證據(jù)尋找和推理能力,并驗證了原生工具調(diào)用在長視頻場景中的有效性。

在長視頻理解基準(zhǔn)測試中,Video-o3顯著優(yōu)于現(xiàn)有最先進(jìn)的方法。

方法

Video-o3 的架構(gòu)概覽如圖 3 所示。在初始交互階段,模型會接收到工具使用說明、用戶查詢以及視頻的全局視圖。在處理這些輸入后,模型進(jìn)入內(nèi)部推理過程:它會分解查詢以精準(zhǔn)定位視覺證據(jù),并評估當(dāng)前觀測信息的充分性。這一評估過程驅(qū)動模型采取兩種截然不同的策略之一:

(1)線索搜尋(Clue Seeking): 若現(xiàn)有線索模糊或不足,模型會調(diào)用工具來審視特定視頻片段的細(xì)粒度細(xì)節(jié),從而消除不確定性。

(2)答案推理(Answer Reasoning): 若已識別出足以支持答案的清晰視覺證據(jù),模型則直接生成最終響應(yīng)。

當(dāng)選擇線索搜尋策略時,模型會生成一個結(jié)構(gòu)化指令,其中包含時間窗口以及當(dāng)前輪次的視覺 Token 配額(visual token quota),用以指導(dǎo)外部工具提取目標(biāo)視頻片段。外部工具系統(tǒng)會根據(jù)該視覺配額動態(tài)計算每一幀的 Token 限制(具體計算公式見附錄 A)。隨后,重新采樣的片段將與提示詞一同整合進(jìn)對話序列中,觸發(fā)下一階段的推理過程。這一反饋循環(huán)將持續(xù)進(jìn)行,直到模型收斂并得出最終答案。

任務(wù)解耦冷啟動

雖然共享上下文架構(gòu)能夠?qū)崿F(xiàn)步驟行為與端到端模型優(yōu)化之間的協(xié)同,但它也引入了一個關(guān)鍵的注意力分散問題。由于異質(zhì)的上下文緩沖區(qū)交錯包含了低分辨率的全局視頻 Token、源自工具的細(xì)粒度局部片段以及中間推理文本,所有 Token 在不考慮任務(wù)相關(guān)性的情況下共享完整的感受野。結(jié)果導(dǎo)致注意力可能會被無關(guān)的上下文所干擾。例如,在線索搜尋步驟中,當(dāng)需要全局視頻上下文時,注意力可能會被之前剪裁的視頻片段分散。同樣,在回答階段,本工作觀察到了“虛假思考”(fake thinking)現(xiàn)象:盡管成功檢索到了證據(jù),但最終的預(yù)測結(jié)果卻與中間推理不一致(見附錄 I)。這一現(xiàn)象與純文本大語言模型推理中此前報道的忠實度(faithfulness)問題相呼應(yīng)。

為了解決這一問題,本研究在監(jiān)督微調(diào)(SFT)過程中引入了任務(wù)解耦注意力掩碼(Task-Decoupled Attention Masking, TDAM),如圖 4 所示。該策略通過在 SFT 過程中強制執(zhí)行嚴(yán)格的可見性約束,顯式地將線索定位與答案推理進(jìn)行解耦,從而有效地隔離了這兩種模式的訓(xùn)練。具體而言,在線索搜尋階段,模型被限制為僅關(guān)注全局視頻輸入,迫使其學(xué)習(xí)基于全局上下文的規(guī)劃策略。相反,在答案推理階段,全局視圖被掩蔽,強制模型僅從高分辨率的工具觀測中推導(dǎo)答案。為了平衡這種解耦的專業(yè)能力與整體推理的需求,本工作僅在 10% 的工具使用訓(xùn)練數(shù)據(jù)中應(yīng)用此掩碼。這確保了模型在保持強大任務(wù)針對性的同時,仍能保留整體推理的能力。

形式上,令  表示代表全局觀測的視覺 Token 集合,令  表示源自后續(xù)工具調(diào)用的視覺 Token 集合。令  為當(dāng)前正在生成的 Token 的索引, 為上下文 Token 的索引。本工作將任務(wù)解耦注意力掩碼  定義如下:

其中  指示模型的當(dāng)前策略。通過這種精確的掩蔽機制,Video-o3 能夠有效避免長視頻理解中的信息過載,確保線索尋找的聚焦性與答案生成的忠實度。

軌跡引導(dǎo)的強化學(xué)習(xí)

每次工具調(diào)用都需要對局部視頻片段進(jìn)行詳細(xì)觀測,這本質(zhì)上會產(chǎn)生大量的 Token 消耗。這往往導(dǎo)致上下文長度溢出和過度的計算成本。本工作從兩個互補的角度來應(yīng)對這一挑戰(zhàn)。首先,強調(diào)精準(zhǔn)的線索定位,要求模型僅準(zhǔn)確識別最相關(guān)的視頻片段,從而最大限度地減少因檢索無關(guān)內(nèi)容造成的上下文浪費。其次,提倡主動的探索終止,使模型能夠評估積累的證據(jù)對于給定查詢是否充足,并據(jù)此停止進(jìn)一步探索。這避免了不必要的工具交互,并顯著降低了冗余的計算開銷。

為實現(xiàn)這一目標(biāo),本文引入了可驗證軌跡引導(dǎo)獎勵(Verifiable Trajectory-Guided Reward, VTGR)。該機制旨在在無約束的自主探索與效率驅(qū)動的軌跡正則化之間取得微妙的平衡。具體而言,我們將獎勵函數(shù)  公式化為答案正確性、結(jié)構(gòu)有效性和探索效率的組合:

其中  代表基礎(chǔ)答案獎勵, 表示格式獎勵,定義為所有輪次中有效格式的歸一化比率。項  是核心的軌跡引導(dǎo)乘數(shù),它根據(jù)定位精度和路徑簡潔性動態(tài)調(diào)節(jié)答案獎勵:

這里, 作為基礎(chǔ)附加獎勵, 是由超參數(shù)控制的權(quán)重系數(shù)。項 (混合線索分?jǐn)?shù))激勵精準(zhǔn)定位,而 (輪次衰減因子)促進(jìn)敏捷終止。

混合線索分?jǐn)?shù)(Hybrid Clue Score): 為減輕因錯誤搜尋導(dǎo)致的上下文浪費,本文采用基于標(biāo)簽的策略來引導(dǎo)線索搜尋的精度。我們將樣本分類為標(biāo)簽 。對于“自由探索”樣本(), 被設(shè)為常數(shù)  以鼓勵多樣性。相反,對于“軌跡引導(dǎo)”樣本(),分?jǐn)?shù)源自預(yù)測區(qū)間與真值(Ground Truth)之間的對齊程度。這根據(jù)線索定位的精度動態(tài)調(diào)整獎勵,阻止模型將上下文窗口浪費在無關(guān)片段上。具體而言,混合線索分?jǐn)?shù)計算如下:

其中 、 和  分別代表交并比(Intersection over Union)、預(yù)測交集比(Intersection over Prediction)和真值交集比(Intersection over Ground Truth)。

輪次衰減因子(Turn Decay Factor): 為確保敏捷終止并防止冗余循環(huán),本文應(yīng)用了超輪次懲罰。令  表示實際的工具調(diào)用次數(shù), 為標(biāo)注的參考限制。衰減因子  對超過必要步驟的軌跡進(jìn)行懲罰:

其中  是衰減懲罰權(quán)重。該機制有效地阻止模型在證據(jù)已充足時進(jìn)行無意義的工具調(diào)用,從而促進(jìn)簡潔的推理鏈。

優(yōu)化: 一旦建立了獎勵分?jǐn)?shù),本文利用組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)通過最大化每個采樣組內(nèi)的相對優(yōu)勢來迭代優(yōu)化策略。為了進(jìn)一步穩(wěn)定針對長形式交互的訓(xùn)練,本文采用了 Mini-o 中引入的超輪次掩碼(over-turn masking)技術(shù)。

數(shù)據(jù)集

訓(xùn)練多模態(tài)大語言模型(MLLMs)掌握原生交錯工具調(diào)用的主要障礙在于,缺乏帶有探索軌跡的高質(zhì)量數(shù)據(jù),F(xiàn)有的長視頻數(shù)據(jù)集主要局限于靜態(tài)的“視頻-問題-答案”三元組,缺乏顯式的、帶有時間戳錨點的中間推理鏈。這種數(shù)據(jù)的缺失使得模型難以通過監(jiān)督范式學(xué)習(xí)復(fù)雜的多步探索行為。為了彌補這一差距,本工作引入了一種可擴(kuò)展的自動數(shù)據(jù)合成流水線,能夠為監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)合成大規(guī)模訓(xùn)練數(shù)據(jù)。利用該流水線,本工作構(gòu)建了 Seeker-173K,這是一個由原生多輪工具交互軌跡組成的高質(zhì)量數(shù)據(jù)集,旨在培養(yǎng)高效且自主的工具使用能力。

數(shù)據(jù)合成流水線 (Data Synthesis Pipeline): 本工作收集了現(xiàn)有的優(yōu)質(zhì)“視頻-問題-答案”三元組,并利用 Gemini 2.5 Pro 輔助構(gòu)建的高質(zhì)量長視頻數(shù)據(jù)進(jìn)行了補充。作為原始語料庫,這些樣本通過一個嚴(yán)謹(jǐn)?shù)乃碾A段流水線處理,以生成可驗證的工具調(diào)用軌跡:

(1) 線索定位 (Clue Localization): 首先將原始三元組輸入至視覺語言模型(VLM),以識別所有包含關(guān)鍵視覺線索的時間段,并為每個區(qū)間生成詳細(xì)描述。

(2) 有效性驗證 (Validity Verification): 為了消除噪聲,本工作提取這些定位片段,并利用 VLM 對照原始查詢進(jìn)行重新評估。本工作僅保留那些能夠僅憑裁剪片段即可正確推導(dǎo)出真值答案(Ground-truth answer)的樣本,從而保證視覺證據(jù)的充分性。

(3) 軌跡生成 (Trajectory Generation): 隨后將問題、經(jīng)過驗證的片段及其描述輸入至強大的 VLM。模型受命合成包含格式化工具調(diào)用的逐步思維鏈(Chain-of-Thought),產(chǎn)出由精確時間戳錨定的顯式中間軌跡。

(4) 邏輯一致性檢查 (Logical Consistency Check): 最后,由一個 LLM 充當(dāng)驗證器來審查生成的邏輯鏈。本工作嚴(yán)格過濾掉有缺陷的實例,僅保留邏輯嚴(yán)密、推理嚴(yán)謹(jǐn)且有事實視覺證據(jù)強力支撐的樣本。

Seeker-173K 數(shù)據(jù)集 (The Seeker-173K Dataset): 利用上述流水線,本工作策劃了 Seeker-173K,這是一個包含約 17.3 萬條高質(zhì)量軌跡的大規(guī)模數(shù)據(jù)集,專門設(shè)計用于灌輸自適應(yīng)的智能體行為。Seeker-173K 根據(jù)證據(jù)基數(shù)(evidence cardinality)和視覺顯著性(visual saliency)被嚴(yán)格劃分為四象限分類體系。這種結(jié)構(gòu)化的多樣性使模型能夠掌握不同的能力:

(1) 自適應(yīng)調(diào)用 (Adaptive Invocation): 模型學(xué)習(xí)在全局信息充足時跳過工具使用,僅在線索細(xì)微或轉(zhuǎn)瞬即逝時才部署工具。

(2) 復(fù)雜推理 (Complex Reasoning): 模型在跨越不同時間戳的場景下執(zhí)行邏輯鏈?zhǔn)酵评怼4送,為了增強魯棒性,本工作還加入了補充性的“自我反思”和“自由格式”任務(wù),提供關(guān)于錯誤校正和自主規(guī)劃的監(jiān)督。關(guān)于數(shù)據(jù)集的完整統(tǒng)計信息和任務(wù)定義,請參閱附錄 C。

實驗

Video-o3在視頻問答任務(wù)上與現(xiàn)有方法進(jìn)行了比較,如下表1所示。Video-o3在長視頻理解基準(zhǔn)測試中顯著優(yōu)于現(xiàn)有方法,并在多個視頻推理基準(zhǔn)測試中表現(xiàn)出色。具體來說,Video-o3的RL-only變體在VideoMME上達(dá)到了66.1%的準(zhǔn)確率,超過了領(lǐng)先的競爭對手VideoZoomer (65.2%)。在SFT冷啟動初始化后,性能進(jìn)一步提升至66.5%。值得注意的是,Video-o3在需要精確觀察局部細(xì)節(jié)的基準(zhǔn)測試中表現(xiàn)出卓越的能力,例如MLVU、LVBench和LongVideoBench。即使沒有SFT,經(jīng)過RL訓(xùn)練的模型也以顯著優(yōu)勢優(yōu)于現(xiàn)有的原生工具使用方法,分別獲得了71.9%、47.5%和59.3%的準(zhǔn)確率。SFT的集成進(jìn)一步鞏固了這一優(yōu)勢,證明了Video-o3強大的長上下文感知能力。

在視頻推理方面,Video-o3在復(fù)雜推理領(lǐng)域表現(xiàn)出卓越的熟練度。在旨在評估多學(xué)科推理的VideoMMMU上,RL-only模型取得了50.0%的可喜成績,SFT初始化后進(jìn)一步提高到51.7%。該模型的能力在Video-Holmes上尤為突出,這是一個需要復(fù)雜多跳線索推理的數(shù)據(jù)集。在這里,即使是RL-only基線也達(dá)到了穩(wěn)健的46.1%,而SFT增強型變體將其改進(jìn)為46.5%。這些結(jié)果強調(diào)了Video-o3在解耦和推導(dǎo)復(fù)雜多跳視覺證據(jù)方面的有效性。

除了通用問答外,本工作還在時間定位方面評估了Video-o3的能力。如下表2所示,在Charades-STA基準(zhǔn)測試中,LongVT的mIoU為27.2,甚至低于基線Qwen2.5-VL (mIoU: 43.6)。相比之下,Video-o3表現(xiàn)出強大的性能,mIoU為60.7。這一結(jié)果證實了本工作方法在精確定位關(guān)鍵視頻片段方面的準(zhǔn)確性,這是一項有助于實現(xiàn)高效、高精度多輪線索定位和聯(lián)合推理的關(guān)鍵元能力。

下表3展示了任務(wù)解耦注意力掩蔽 (TDAM) 關(guān)鍵組件的消融研究結(jié)果。結(jié)果表明,完全移除注意力掩蔽機制(表示為Baseline)會導(dǎo)致長視頻理解和推理任務(wù)的整體性能下降。此外,僅部分應(yīng)用答案掩蔽或接地掩蔽時,模型的性能仍無法達(dá)到完整掩蔽策略所實現(xiàn)的水平。這表明TDAM有效地分離了線索定位和答案推理任務(wù),防止了不同任務(wù)之間的干擾,使模型能夠更有效地收斂到“多輪線索尋找+多跳答案推理”的預(yù)期模式。

下表4詳細(xì)介紹了可驗證軌跡引導(dǎo)獎勵 (VTGR) 中每個組件的影響。移除獎勵乘數(shù)會導(dǎo)致統(tǒng)一獎勵退化為基本的正確性和格式信號,這無法在早期階段激發(fā)工具使用行為,導(dǎo)致訓(xùn)練過程不穩(wěn)定且難以收斂。如果沒有混合線索分?jǐn)?shù),框架將失去對工具調(diào)用過程的關(guān)鍵約束,無法引導(dǎo)模型走向高效的推理軌跡。此外,缺乏回合衰減因子會導(dǎo)致推理回合的無限制擴(kuò)展,這通常會導(dǎo)致軌跡長度違反推理時間限制,從而導(dǎo)致模型無法提供最終響應(yīng)。這些結(jié)果表明VTGR對于規(guī)范推理過程至關(guān)重要,它鼓勵探索精確的線索片段,同時抑制多余的交互,最終保證了多跳推理的準(zhǔn)確性和效率。

為了量化多跳推理對模型性能的貢獻(xiàn),本工作對最大交互回合數(shù)進(jìn)行了消融研究,如下表5所示。通過將上限限制為2、4和8回合,模擬了從粗略檢查到全面調(diào)查的場景。經(jīng)驗證據(jù)表明,在所有基準(zhǔn)測試中,交互深度與推理準(zhǔn)確性之間存在持續(xù)的正相關(guān)關(guān)系。這種趨勢在需要細(xì)粒度檢索和復(fù)雜邏輯的數(shù)據(jù)集(例如MLVU和VideoMMMU)中最為明顯。這種提升凸顯了復(fù)雜的長視頻查詢通常超出淺層推理能力。在8回合時的持續(xù)改進(jìn)驗證了Video-o3的核心前提:原生交錯工具調(diào)用范式使模型能夠?qū)?fù)雜的查詢分解為可管理的子目標(biāo)。Video-o3利用擴(kuò)展的預(yù)算迭代地解決歧義,通過穩(wěn)健的多跳推理鏈有效地將不確定的初始假設(shè)轉(zhuǎn)化為經(jīng)過驗證的結(jié)論,而不是屈服于上下文漂移。

結(jié)論

Video-o3,這是一個賦予多模態(tài)大語言模型(MLLM)原生交錯工具調(diào)用能力的框架,用于長視頻理解。為了實現(xiàn)穩(wěn)健的端到端訓(xùn)練,引入了任務(wù)解耦注意力掩蔽機制,以解決異構(gòu)上下文中的注意力分散問題,并在Supervised Fine-Tuning (SFT) 階段實現(xiàn)高效的解耦專家訓(xùn)練。此外,還設(shè)計了可驗證軌跡引導(dǎo)獎勵機制,它結(jié)合了中間線索準(zhǔn)確性和回合衰減因子,從而在強化學(xué)習(xí) (RL) 階段平衡了線索探索和推理效率。為了支持大規(guī)模訓(xùn)練,本文進(jìn)一步開發(fā)了一個數(shù)據(jù)合成流程,并構(gòu)建了包含173K條高質(zhì)量工具交互軌跡的Seeker-173K數(shù)據(jù)集,以實現(xiàn)有效的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。通過對MLVU和Video-Holmes等多個長視頻理解和推理基準(zhǔn)測試的廣泛實驗,Video-o3的性能顯著優(yōu)于現(xiàn)有最先進(jìn)的方法,證實了其強大的多跳證據(jù)尋找和推理能力,并驗證了原生工具調(diào)用在長視頻場景中的有效性。

參考文獻(xiàn)

[1] Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning.

       原文標(biāo)題 : 視頻理解大模型覺醒!Video-o3發(fā)布:像偵探一樣主動搜尋關(guān)鍵幀,登頂Video-Holmes!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號