123,123

如何構建適合自動駕駛的世界模型？

2026-02-25 09:32

智駕最前沿

關注

世界模型經歷了系統(tǒng)動力學階段（1960年～2000年）、認知科學階段（2001年～2017年）、深度學習階段（2018年至今），但將其應用到自動駕駛汽車上，還是近幾年才提出的。那世界模型是自動駕駛落地的正解嗎？

什么是世界模型？

世界模型對于自動駕駛汽車來說，更像是給汽車大腦里繪制一張地圖，可以將環(huán)境的現狀和未來可能的演變都表示出來，讓自動駕駛系統(tǒng)不只是“看見當下”，還能“想一想接下來可能發(fā)生什么”。

簡單理解就是，世界模型不僅可以讓自動駕駛汽車知道哪里有車道、紅綠燈和障礙物，更可以預測這些障礙物的未來變化，這對于確保自動駕駛系統(tǒng)安全，是非常重要的。

世界模型能夠將傳感器（如攝像頭、雷達、激光雷達和車載定位系統(tǒng)等）采集的原始觀測數據，轉化為一種低維、抽象的“隱狀態(tài)”（latent state）作為內部表示。

模型學習該隱狀態(tài)隨時間演變的規(guī)律（即動力學），并基于此進行預測或規(guī)劃。世界模型可以是顯式的物理模型或概率模型，也可以是基于學習得到的神經網絡模型；它不僅可以用于直接回放未來場景（仿真模擬），也可以僅生成下一時刻的概率分布以輔助決策。

世界模型在自動駕駛中的核心作用

對于自動駕駛系統(tǒng)來說，世界模型可以應用在預測、規(guī)劃與驗證等三個方面。預測是世界模型最直觀的用途，傳統(tǒng)感知可以把周圍物體識別出來并定位，但這只是“靜態(tài)”信息。

世界模型通過學習交通參與者的行為模式和場景的動力學，能夠給出更長時域的、多步的預測。如可以在十幾秒的時間尺度上，判斷騎著自行車的如是否會靠近路口，或一輛并線的車是否會與本車發(fā)生交叉軌跡等。

這樣的預測不是簡單的勻速延伸，而是包含了對意圖、交互和環(huán)境約束的理解。

規(guī)劃需要評估不同動作的后果，選擇既安全又舒適的軌跡，是規(guī)劃的主要目的。世界模型可以依托內置的“模擬環(huán)境”，把候選軌跡在模型里“演練”幾次，比較它們在未來幾秒內的風險和收益。

比起只靠規(guī)則或短時預測，這種基于世界模型的規(guī)劃更能處理如窄路會車、密集并線或不守規(guī)則的交通參與者等復雜的多主體交互場景。它還能幫助車輛做出更保守或更激進的策略選擇，并把不確定性帶進決策中。

訓練和驗證自動駕駛系統(tǒng)需要大量場景、尤其是罕見或危險場景。真實世界里采集這些場景不僅昂貴而且很危險。

世界模型可以生成高質量的合成場景或作為數字孿生的一部分，用來做大規(guī)模的虛擬測試。通過在模型中反復模擬，就可以發(fā)現自動駕駛系統(tǒng)在長尾場景下的弱點，避免把危險行為部署到實車。

世界模型如何被構建？

要讓模型有“想象未來”的能力，一定要喂給它大量合適的數據。自動駕駛的世界模型可以依托攝像頭提供豐富的視覺細節(jié)，激光雷達給出精確的三維幾何信息，毫米波雷達對惡劣天氣更魯棒，車載定位和CAN總線送來車輛自身狀態(tài)等數據進行學習。

把這些數據融合后，模型要學會抽取有用的表示，這一步叫表示學習。一個好的表示不僅可以保留對決策重要的細節(jié)（例如相對速度、可通過空間），還能壓縮冗余信息，方便后續(xù)預測和規(guī)劃使用。

表示之后是要進行動力學建模，也就是學習隱狀態(tài)如何隨時間變化。這里有兩類主流做法。

一類是基于物理或圖模型的顯式方法，通過寫出規(guī)則或物理方程來描述車輛與行人的運動，再把觀測通過濾波器或貝葉斯推斷與這些模型結合。顯式方法好處是可解釋、易于驗證，但面對復雜的人類行為時往往力不從心。

另一類是端到端學習的方式，使用循環(huán)神經網絡、變分自編碼器或近期流行的時序Transformer來直接學習從過去觀測到未來隱狀態(tài)的映射。學習型方法在復雜交互上更有表現力，但需要大量訓練數據和注意不確定性的表達。

但無論采用哪種架構，不確定性建模都非常關鍵。

世界不是確定的，行人會猶豫、司機會突然變道。把預測做成帶概率的形式（例如把未來位置用概率分布表示，或生成若干可能的未來軌跡并給出置信度）能讓決策器更穩(wěn)健。把因果推理或意圖推斷融入世界模型，不僅可以預測位置，還能推斷“為什么會這樣”，這對處理前所未有的情況很重要。

實際應用中的幾個典型場景

一直都說概念，那世界模型對于自動駕駛的具體應用場景有哪些？可以想象一下，若車輛右側有一輛停著的貨車，貨車后面可能有行人準備穿行。

單純靠感知可能看不到那名行人，但世界模型可以結合道路環(huán)境、過往行人出現的位置規(guī)律以及路邊停放車輛的用途，給出“可能有人從后面出來”的預測，從而促使決策器放慢速度并給出預留空間。

在高速并道時，兩輛車互相示意并線的行為充滿著博弈意味。世界模型這時候就能觀察雙方的速度與加速度變化、轉向幅度等，估計對方的意圖并預測多個可能的并線結果，從而選擇一種在時間和空間上更安全的并線策略，或者選擇先放慢再并線。

在施工、臨時交通指引或其他異常標志的情況下，規(guī)則驅動的系統(tǒng)容易出錯。世界模型可以把臨時的交通錐、施工車與交通參與者的行為模式聯(lián)系起來，判斷這是一個臨時改道的道路，并在短時內學習到新的可行策略，而不是盲目遵循過往的規(guī)則。

最后的話

把世界模型放在自動駕駛的全局來理解，它的核心價值是把現時感知和未來決策連接起來。其不是簡單的把感知結果當作事實，而是在內心（模型）里構建一個短期可運行的“虛擬世界”，并在這個虛擬世界里反復試錯、評估風險、選擇動作。這樣做能顯著提升系統(tǒng)對復雜交互場景、遮擋、長尾事件的處理能力，也能為離線的大規(guī)模驗證提供重要工具。

-- END --

原文標題 : 如何構建適合自動駕駛的世界模型？