123,123,123

視頻理解大模型覺醒！Video-o3發(fā)布：像偵探一樣主動搜尋關(guān)鍵幀，登頂Video-Holmes！

2026-02-05 14:53

作者：Xiangyu Zeng等

解讀：AI生成未來

亮點直擊

Video-o3，一個創(chuàng)新的框架，它通過迭代地發(fā)現(xiàn)顯著的視覺線索、對關(guān)鍵片段進(jìn)行細(xì)致檢查以及在收集到足夠證據(jù)時自適應(yīng)終止搜索過程，解決了長視頻多跳推理的挑戰(zhàn)。

解決注意力分散： 為了應(yīng)對推理和工具調(diào)用異構(gòu)性導(dǎo)致的注意力分散問題，本文提出了任務(wù)解耦注意力掩蔽，它可以在SFT（監(jiān)督微調(diào)）階段隔離每一步的注意力，同時保持共享的全局上下文，從而實現(xiàn)高效的解耦專家訓(xùn)練。

控制上下文增長和提高效率： 引入了可驗證軌跡引導(dǎo)獎勵，用于控制多輪交互中的上下文長度增長。這個獎勵機制在強化學(xué)習(xí)（RL）階段平衡了線索探索和推理效率，通過結(jié)合中間線索準(zhǔn)確性和回合衰減因子，確保了推理過程的規(guī)范性。

大規(guī)模訓(xùn)練數(shù)據(jù)： 為了支持大規(guī)模訓(xùn)練，開發(fā)了一個數(shù)據(jù)合成流程，并構(gòu)建了Seer-173K數(shù)據(jù)集，其中包含173K條高質(zhì)量的工具交互軌跡，從而實現(xiàn)了有效的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

卓越的性能： Video-o3在多跳證據(jù)尋找和推理能力方面表現(xiàn)出色，在MLVU上取得了72.1%的準(zhǔn)確率，在Video-Holmes上取得了46.5%的準(zhǔn)確率，顯著優(yōu)于現(xiàn)有SOTA方法。

總結(jié)速覽

解決的問題

現(xiàn)有的多模態(tài)大型語言模型（MLLMs）在長視頻理解方面主要依賴統(tǒng)一采樣和單輪推理，這限制了它們在大量冗余信息中識別稀疏但關(guān)鍵證據(jù)的能力。

長視頻中存在豐富的視覺線索和復(fù)雜的時序依賴，模型不僅需要精確地定位與查詢相關(guān)的時刻，還需要對這些時刻進(jìn)行推理以實現(xiàn)準(zhǔn)確、特定于查詢的理解，而現(xiàn)有方法難以做到這一點。

大多數(shù)現(xiàn)有方法采用統(tǒng)一幀采樣和單輪推理策略，這會稀釋關(guān)鍵視覺證據(jù)，導(dǎo)致計算開銷大和推理準(zhǔn)確性下降。

早期的“線索尋找+答案推理”原型過于依賴手工啟發(fā)式方法，缺乏端到端優(yōu)化，并且將線索尋找與推理解耦，訓(xùn)練為孤立的單輪模塊，沒有多步上下文共享。

提出的方案

引入Video-o3，一個支持迭代發(fā)現(xiàn)顯著視覺線索、對關(guān)鍵片段進(jìn)行細(xì)粒度檢查以及在獲得足夠證據(jù)后自適應(yīng)終止的新框架。

賦予MLLMs類人探索性線索尋找能力，以實現(xiàn)更高效和準(zhǔn)確的長視頻理解。

通過原生多輪工具調(diào)用進(jìn)行端到端訓(xùn)練，以實現(xiàn)更強的靈活性和聯(lián)合推理。

應(yīng)用的技術(shù)

任務(wù)解耦注意力掩蔽 (Task-Decoupled Attention Masking)： 用于解決推理和工具調(diào)用異構(gòu)性引起的注意力分散問題，該技術(shù)隔離了每一步的注意力，同時保留了共享的全局上下文。

可驗證軌跡引導(dǎo)獎勵 (Verifiable Trajectory-Guided Reward)： 用于控制多輪交互中的上下文長度增長，平衡了探索覆蓋率和推理效率。

數(shù)據(jù)合成流程與Seeker-173K數(shù)據(jù)集： 開發(fā)了一個數(shù)據(jù)合成流程并構(gòu)建了包含173K條高質(zhì)量工具交互軌跡的Seeker-173K數(shù)據(jù)集，以支持大規(guī)模訓(xùn)練，實現(xiàn)有效的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

達(dá)到的效果

Video-o3在MLVU上取得了72.1%的準(zhǔn)確率，在Video-Holmes上取得了46.5%的準(zhǔn)確率。

這些結(jié)果證明了Video-o3強大的多跳證據(jù)尋找和推理能力，并驗證了原生工具調(diào)用在長視頻場景中的有效性。

在長視頻理解基準(zhǔn)測試中，Video-o3顯著優(yōu)于現(xiàn)有最先進(jìn)的方法。

方法

Video-o3 的架構(gòu)概覽如圖 3 所示。在初始交互階段，模型會接收到工具使用說明、用戶查詢以及視頻的全局視圖。在處理這些輸入后，模型進(jìn)入內(nèi)部推理過程：它會分解查詢以精準(zhǔn)定位視覺證據(jù)，并評估當(dāng)前觀測信息的充分性。這一評估過程驅(qū)動模型采取兩種截然不同的策略之一：

（1）線索搜尋（Clue Seeking）： 若現(xiàn)有線索模糊或不足，模型會調(diào)用工具來審視特定視頻片段的細(xì)粒度細(xì)節(jié)，從而消除不確定性。

（2）答案推理（Answer Reasoning）： 若已識別出足以支持答案的清晰視覺證據(jù)，模型則直接生成最終響應(yīng)。

當(dāng)選擇線索搜尋策略時，模型會生成一個結(jié)構(gòu)化指令，其中包含時間窗口以及當(dāng)前輪次的視覺 Token 配額（visual token quota），用以指導(dǎo)外部工具提取目標(biāo)視頻片段。外部工具系統(tǒng)會根據(jù)該視覺配額動態(tài)計算每一幀的 Token 限制（具體計算公式見附錄 A）。隨后，重新采樣的片段將與提示詞一同整合進(jìn)對話序列中，觸發(fā)下一階段的推理過程。這一反饋循環(huán)將持續(xù)進(jìn)行，直到模型收斂并得出最終答案。

任務(wù)解耦冷啟動

雖然共享上下文架構(gòu)能夠?qū)崿F(xiàn)步驟行為與端到端模型優(yōu)化之間的協(xié)同，但它也引入了一個關(guān)鍵的注意力分散問題。由于異質(zhì)的上下文緩沖區(qū)交錯包含了低分辨率的全局視頻 Token、源自工具的細(xì)粒度局部片段以及中間推理文本，所有 Token 在不考慮任務(wù)相關(guān)性的情況下共享完整的感受野。結(jié)果導(dǎo)致注意力可能會被無關(guān)的上下文所干擾。例如，在線索搜尋步驟中，當(dāng)需要全局視頻上下文時，注意力可能會被之前剪裁的視頻片段分散。同樣，在回答階段，本工作觀察到了“虛假思考”（fake thinking）現(xiàn)象：盡管成功檢索到了證據(jù)，但最終的預(yù)測結(jié)果卻與中間推理不一致（見附錄 I）。這一現(xiàn)象與純文本大語言模型推理中此前報道的忠實度（faithfulness）問題相呼應(yīng)。

為了解決這一問題，本研究在監(jiān)督微調(diào)（SFT）過程中引入了任務(wù)解耦注意力掩碼（Task-Decoupled Attention Masking, TDAM），如圖 4 所示。該策略通過在 SFT 過程中強制執(zhí)行嚴(yán)格的可見性約束，顯式地將線索定位與答案推理進(jìn)行解耦，從而有效地隔離了這兩種模式的訓(xùn)練。具體而言，在線索搜尋階段，模型被限制為僅關(guān)注全局視頻輸入，迫使其學(xué)習(xí)基于全局上下文的規(guī)劃策略。相反，在答案推理階段，全局視圖被掩蔽，強制模型僅從高分辨率的工具觀測中推導(dǎo)答案。為了平衡這種解耦的專業(yè)能力與整體推理的需求，本工作僅在 10% 的工具使用訓(xùn)練數(shù)據(jù)中應(yīng)用此掩碼。這確保了模型在保持強大任務(wù)針對性的同時，仍能保留整體推理的能力。

形式上，令表示代表全局觀測的視覺 Token 集合，令表示源自后續(xù)工具調(diào)用的視覺 Token 集合。令為當(dāng)前正在生成的 Token 的索引，為上下文 Token 的索引。本工作將任務(wù)解耦注意力掩碼定義如下：

其中指示模型的當(dāng)前策略。通過這種精確的掩蔽機制，Video-o3 能夠有效避免長視頻理解中的信息過載，確保線索尋找的聚焦性與答案生成的忠實度。

軌跡引導(dǎo)的強化學(xué)習(xí)

每次工具調(diào)用都需要對局部視頻片段進(jìn)行詳細(xì)觀測，這本質(zhì)上會產(chǎn)生大量的 Token 消耗。這往往導(dǎo)致上下文長度溢出和過度的計算成本。本工作從兩個互補的角度來應(yīng)對這一挑戰(zhàn)。首先，強調(diào)精準(zhǔn)的線索定位，要求模型僅準(zhǔn)確識別最相關(guān)的視頻片段，從而最大限度地減少因檢索無關(guān)內(nèi)容造成的上下文浪費。其次，提倡主動的探索終止，使模型能夠評估積累的證據(jù)對于給定查詢是否充足，并據(jù)此停止進(jìn)一步探索。這避免了不必要的工具交互，并顯著降低了冗余的計算開銷。

為實現(xiàn)這一目標(biāo)，本文引入了可驗證軌跡引導(dǎo)獎勵（Verifiable Trajectory-Guided Reward, VTGR）。該機制旨在在無約束的自主探索與效率驅(qū)動的軌跡正則化之間取得微妙的平衡。具體而言，我們將獎勵函數(shù) 公式化為答案正確性、結(jié)構(gòu)有效性和探索效率的組合：

其中代表基礎(chǔ)答案獎勵，表示格式獎勵，定義為所有輪次中有效格式的歸一化比率。項是核心的軌跡引導(dǎo)乘數(shù)，它根據(jù)定位精度和路徑簡潔性動態(tài)調(diào)節(jié)答案獎勵：

這里，作為基礎(chǔ)附加獎勵，是由超參數(shù)控制的權(quán)重系數(shù)。項（混合線索分?jǐn)?shù)）激勵精準(zhǔn)定位，而（輪次衰減因子）促進(jìn)敏捷終止。

混合線索分?jǐn)?shù)（Hybrid Clue Score）： 為減輕因錯誤搜尋導(dǎo)致的上下文浪費，本文采用基于標(biāo)簽的策略來引導(dǎo)線索搜尋的精度。我們將樣本分類為標(biāo)簽。對于“自由探索”樣本（），被設(shè)為常數(shù) 以鼓勵多樣性。相反，對于“軌跡引導(dǎo)”樣本（），分?jǐn)?shù)源自預(yù)測區(qū)間與真值（Ground Truth）之間的對齊程度。這根據(jù)線索定位的精度動態(tài)調(diào)整獎勵，阻止模型將上下文窗口浪費在無關(guān)片段上。具體而言，混合線索分?jǐn)?shù)計算如下：

其中、和分別代表交并比（Intersection over Union）、預(yù)測交集比（Intersection over Prediction）和真值交集比（Intersection over Ground Truth）。

輪次衰減因子（Turn Decay Factor）： 為確保敏捷終止并防止冗余循環(huán)，本文應(yīng)用了超輪次懲罰。令表示實際的工具調(diào)用次數(shù)，為標(biāo)注的參考限制。衰減因子對超過必要步驟的軌跡進(jìn)行懲罰：

其中是衰減懲罰權(quán)重。該機制有效地阻止模型在證據(jù)已充足時進(jìn)行無意義的工具調(diào)用，從而促進(jìn)簡潔的推理鏈。

優(yōu)化： 一旦建立了獎勵分?jǐn)?shù)，本文利用組相對策略優(yōu)化（Group Relative Policy Optimization, GRPO）通過最大化每個采樣組內(nèi)的相對優(yōu)勢來迭代優(yōu)化策略。為了進(jìn)一步穩(wěn)定針對長形式交互的訓(xùn)練，本文采用了 Mini-o 中引入的超輪次掩碼（over-turn masking）技術(shù)。

數(shù)據(jù)集

訓(xùn)練多模態(tài)大語言模型（MLLMs）掌握原生交錯工具調(diào)用的主要障礙在于，缺乏帶有探索軌跡的高質(zhì)量數(shù)據(jù)�，F(xiàn)有的長視頻數(shù)據(jù)集主要局限于靜態(tài)的“視頻-問題-答案”三元組，缺乏顯式的、帶有時間戳錨點的中間推理鏈。這種數(shù)據(jù)的缺失使得模型難以通過監(jiān)督范式學(xué)習(xí)復(fù)雜的多步探索行為。為了彌補這一差距，本工作引入了一種可擴(kuò)展的自動數(shù)據(jù)合成流水線，能夠為監(jiān)督微調(diào)（SFT）和強化學(xué)習(xí)（RL）合成大規(guī)模訓(xùn)練數(shù)據(jù)。利用該流水線，本工作構(gòu)建了 Seeker-173K，這是一個由原生多輪工具交互軌跡組成的高質(zhì)量數(shù)據(jù)集，旨在培養(yǎng)高效且自主的工具使用能力。

數(shù)據(jù)合成流水線 (Data Synthesis Pipeline): 本工作收集了現(xiàn)有的優(yōu)質(zhì)“視頻-問題-答案”三元組，并利用 Gemini 2.5 Pro 輔助構(gòu)建的高質(zhì)量長視頻數(shù)據(jù)進(jìn)行了補充。作為原始語料庫，這些樣本通過一個嚴(yán)謹(jǐn)?shù)乃碾A段流水線處理，以生成可驗證的工具調(diào)用軌跡：

(1) 線索定位 (Clue Localization): 首先將原始三元組輸入至視覺語言模型（VLM），以識別所有包含關(guān)鍵視覺線索的時間段，并為每個區(qū)間生成詳細(xì)描述。

(2) 有效性驗證 (Validity Verification): 為了消除噪聲，本工作提取這些定位片段，并利用 VLM 對照原始查詢進(jìn)行重新評估。本工作僅保留那些能夠僅憑裁剪片段即可正確推導(dǎo)出真值答案（Ground-truth answer）的樣本，從而保證視覺證據(jù)的充分性。

(3) 軌跡生成 (Trajectory Generation): 隨后將問題、經(jīng)過驗證的片段及其描述輸入至強大的 VLM。模型受命合成包含格式化工具調(diào)用的逐步思維鏈（Chain-of-Thought），產(chǎn)出由精確時間戳錨定的顯式中間軌跡。

(4) 邏輯一致性檢查 (Logical Consistency Check): 最后，由一個 LLM 充當(dāng)驗證器來審查生成的邏輯鏈。本工作嚴(yán)格過濾掉有缺陷的實例，僅保留邏輯嚴(yán)密、推理嚴(yán)謹(jǐn)且有事實視覺證據(jù)強力支撐的樣本。

Seeker-173K 數(shù)據(jù)集 (The Seeker-173K Dataset): 利用上述流水線，本工作策劃了 Seeker-173K，這是一個包含約 17.3 萬條高質(zhì)量軌跡的大規(guī)模數(shù)據(jù)集，專門設(shè)計用于灌輸自適應(yīng)的智能體行為。Seeker-173K 根據(jù)證據(jù)基數(shù)（evidence cardinality）和視覺顯著性（visual saliency）被嚴(yán)格劃分為四象限分類體系。這種結(jié)構(gòu)化的多樣性使模型能夠掌握不同的能力：

(1) 自適應(yīng)調(diào)用 (Adaptive Invocation): 模型學(xué)習(xí)在全局信息充足時跳過工具使用，僅在線索細(xì)微或轉(zhuǎn)瞬即逝時才部署工具。

(2) 復(fù)雜推理 (Complex Reasoning): 模型在跨越不同時間戳的場景下執(zhí)行邏輯鏈?zhǔn)酵评怼４送�，為了增強魯棒性，本工作還加入了補充性的“自我反思”和“自由格式”任務(wù)，提供關(guān)于錯誤校正和自主規(guī)劃的監(jiān)督。關(guān)于數(shù)據(jù)集的完整統(tǒng)計信息和任務(wù)定義，請參閱附錄 C。

實驗

Video-o3在視頻問答任務(wù)上與現(xiàn)有方法進(jìn)行了比較，如下表1所示。Video-o3在長視頻理解基準(zhǔn)測試中顯著優(yōu)于現(xiàn)有方法，并在多個視頻推理基準(zhǔn)測試中表現(xiàn)出色。具體來說，Video-o3的RL-only變體在VideoMME上達(dá)到了66.1%的準(zhǔn)確率，超過了領(lǐng)先的競爭對手VideoZoomer (65.2%)。在SFT冷啟動初始化后，性能進(jìn)一步提升至66.5%。值得注意的是，Video-o3在需要精確觀察局部細(xì)節(jié)的基準(zhǔn)測試中表現(xiàn)出卓越的能力，例如MLVU、LVBench和LongVideoBench。即使沒有SFT，經(jīng)過RL訓(xùn)練的模型也以顯著優(yōu)勢優(yōu)于現(xiàn)有的原生工具使用方法，分別獲得了71.9%、47.5%和59.3%的準(zhǔn)確率。SFT的集成進(jìn)一步鞏固了這一優(yōu)勢，證明了Video-o3強大的長上下文感知能力。

在視頻推理方面，Video-o3在復(fù)雜推理領(lǐng)域表現(xiàn)出卓越的熟練度。在旨在評估多學(xué)科推理的VideoMMMU上，RL-only模型取得了50.0%的可喜成績，SFT初始化后進(jìn)一步提高到51.7%。該模型的能力在Video-Holmes上尤為突出，這是一個需要復(fù)雜多跳線索推理的數(shù)據(jù)集。在這里，即使是RL-only基線也達(dá)到了穩(wěn)健的46.1%，而SFT增強型變體將其改進(jìn)為46.5%。這些結(jié)果強調(diào)了Video-o3在解耦和推導(dǎo)復(fù)雜多跳視覺證據(jù)方面的有效性。

除了通用問答外，本工作還在時間定位方面評估了Video-o3的能力。如下表2所示，在Charades-STA基準(zhǔn)測試中，LongVT的mIoU為27.2，甚至低于基線Qwen2.5-VL (mIoU: 43.6)。相比之下，Video-o3表現(xiàn)出強大的性能，mIoU為60.7。這一結(jié)果證實了本工作方法在精確定位關(guān)鍵視頻片段方面的準(zhǔn)確性，這是一項有助于實現(xiàn)高效、高精度多輪線索定位和聯(lián)合推理的關(guān)鍵元能力。

下表3展示了任務(wù)解耦注意力掩蔽 (TDAM) 關(guān)鍵組件的消融研究結(jié)果。結(jié)果表明，完全移除注意力掩蔽機制（表示為Baseline）會導(dǎo)致長視頻理解和推理任務(wù)的整體性能下降。此外，僅部分應(yīng)用答案掩蔽或接地掩蔽時，模型的性能仍無法達(dá)到完整掩蔽策略所實現(xiàn)的水平。這表明TDAM有效地分離了線索定位和答案推理任務(wù)，防止了不同任務(wù)之間的干擾，使模型能夠更有效地收斂到“多輪線索尋找+多跳答案推理”的預(yù)期模式。

下表4詳細(xì)介紹了可驗證軌跡引導(dǎo)獎勵 (VTGR) 中每個組件的影響。移除獎勵乘數(shù)會導(dǎo)致統(tǒng)一獎勵退化為基本的正確性和格式信號，這無法在早期階段激發(fā)工具使用行為，導(dǎo)致訓(xùn)練過程不穩(wěn)定且難以收斂。如果沒有混合線索分?jǐn)?shù)，框架將失去對工具調(diào)用過程的關(guān)鍵約束，無法引導(dǎo)模型走向高效的推理軌跡。此外，缺乏回合衰減因子會導(dǎo)致推理回合的無限制擴(kuò)展，這通常會導(dǎo)致軌跡長度違反推理時間限制，從而導(dǎo)致模型無法提供最終響應(yīng)。這些結(jié)果表明VTGR對于規(guī)范推理過程至關(guān)重要，它鼓勵探索精確的線索片段，同時抑制多余的交互，最終保證了多跳推理的準(zhǔn)確性和效率。

為了量化多跳推理對模型性能的貢獻(xiàn)，本工作對最大交互回合數(shù)進(jìn)行了消融研究，如下表5所示。通過將上限限制為2、4和8回合，模擬了從粗略檢查到全面調(diào)查的場景。經(jīng)驗證據(jù)表明，在所有基準(zhǔn)測試中，交互深度與推理準(zhǔn)確性之間存在持續(xù)的正相關(guān)關(guān)系。這種趨勢在需要細(xì)粒度檢索和復(fù)雜邏輯的數(shù)據(jù)集（例如MLVU和VideoMMMU）中最為明顯。這種提升凸顯了復(fù)雜的長視頻查詢通常超出淺層推理能力。在8回合時的持續(xù)改進(jìn)驗證了Video-o3的核心前提：原生交錯工具調(diào)用范式使模型能夠?qū)?fù)雜的查詢分解為可管理的子目標(biāo)。Video-o3利用擴(kuò)展的預(yù)算迭代地解決歧義，通過穩(wěn)健的多跳推理鏈有效地將不確定的初始假設(shè)轉(zhuǎn)化為經(jīng)過驗證的結(jié)論，而不是屈服于上下文漂移。

結(jié)論

Video-o3，這是一個賦予多模態(tài)大語言模型（MLLM）原生交錯工具調(diào)用能力的框架，用于長視頻理解。為了實現(xiàn)穩(wěn)健的端到端訓(xùn)練，引入了任務(wù)解耦注意力掩蔽機制，以解決異構(gòu)上下文中的注意力分散問題，并在Supervised Fine-Tuning (SFT) 階段實現(xiàn)高效的解耦專家訓(xùn)練。此外，還設(shè)計了可驗證軌跡引導(dǎo)獎勵機制，它結(jié)合了中間線索準(zhǔn)確性和回合衰減因子，從而在強化學(xué)習(xí) (RL) 階段平衡了線索探索和推理效率。為了支持大規(guī)模訓(xùn)練，本文進(jìn)一步開發(fā)了一個數(shù)據(jù)合成流程，并構(gòu)建了包含173K條高質(zhì)量工具交互軌跡的Seeker-173K數(shù)據(jù)集，以實現(xiàn)有效的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。通過對MLVU和Video-Holmes等多個長視頻理解和推理基準(zhǔn)測試的廣泛實驗，Video-o3的性能顯著優(yōu)于現(xiàn)有最先進(jìn)的方法，證實了其強大的多跳證據(jù)尋找和推理能力，并驗證了原生工具調(diào)用在長視頻場景中的有效性。

參考文獻(xiàn)

[1] Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning.

原文標(biāo)題 : 視頻理解大模型覺醒！Video-o3發(fā)布：像偵探一樣主動搜尋關(guān)鍵幀，登頂Video-Holmes！