訂閱
糾錯(cuò)
加入自媒體

大模型時(shí)代自動(dòng)駕駛標(biāo)注有什么特殊要求?

在自動(dòng)駕駛的發(fā)展歷程中,數(shù)據(jù)標(biāo)注一直被視為算法進(jìn)化的基石。然而,隨著大模型時(shí)代的到來,這一領(lǐng)域正經(jīng)歷著重構(gòu)。

過去,標(biāo)注員的任務(wù)是簡(jiǎn)單地在二維照片上畫框,標(biāo)記出車輛和行人的位置。但現(xiàn)在,為了支撐復(fù)雜的端到端架構(gòu)和占用網(wǎng)絡(luò),標(biāo)注工作已經(jīng)從平面的像素點(diǎn)位,跨越到了四維時(shí)空的深度重建。

空間的立體化與時(shí)間的連貫性挑戰(zhàn)

自動(dòng)駕駛標(biāo)注的難點(diǎn)在于從二維圖像向三維向量空間的躍遷。早期的算法只需要識(shí)別圖像中的像素,而現(xiàn)在的系統(tǒng)則需要在一個(gè)統(tǒng)一的俯視圖視圖下,理解物體在物理世界中的準(zhǔn)確坐標(biāo)、尺寸和朝向等。

這種被稱為向量空間的感知能力,要求標(biāo)注工具能夠?qū)④嚿碇車鄠(gè)攝像頭的畫面,以及可能存在的激光雷達(dá)點(diǎn)云,在同一個(gè)三維坐標(biāo)系中進(jìn)行毫米級(jí)的對(duì)齊。

如果傳感器之間的標(biāo)定參數(shù)存在極小的誤差,映射到三維空間后就會(huì)出現(xiàn)嚴(yán)重的物體重影或位置偏移。

這種立體化的需求進(jìn)一步演變?yōu)榱怂木S時(shí)空標(biāo)注。僅僅知道物體在三維空間的位置是不夠的,系統(tǒng)必須理解這些物體是如何隨時(shí)間變化的,這也增加了第四個(gè)維度,即時(shí)間。

在處理動(dòng)態(tài)物體時(shí),標(biāo)注系統(tǒng)必須確保同一個(gè)物體在數(shù)百幀連續(xù)畫面中擁有唯一的身份標(biāo)識(shí)。這種時(shí)序連貫性的標(biāo)注對(duì)于預(yù)測(cè)他人的行為至關(guān)重要。

舉個(gè)例子,系統(tǒng)需要通過過去幾秒的軌跡,判斷一個(gè)路邊的行人是準(zhǔn)備橫穿馬路,還是僅僅在路邊行走。

這種對(duì)運(yùn)動(dòng)特性的精確捕捉,要求標(biāo)注流程能夠處理長(zhǎng)達(dá)數(shù)十秒甚至數(shù)分鐘的數(shù)據(jù)剪輯,而不再是孤立的單幀圖像。

為了實(shí)現(xiàn)這種高維度的重建,行業(yè)采用了“回溯標(biāo)注”的方法。

在一個(gè)行駛片段中,由于遮擋或距離太遠(yuǎn),單幀畫面無法提供完整的信息。但當(dāng)車輛駛近或遮擋物移開后,未來的畫面就會(huì)體現(xiàn)出該物體真實(shí)的物理屬性。

自動(dòng)化標(biāo)注系統(tǒng)利用這種“已知未來、標(biāo)注過去”的能力,通過離線的大型神經(jīng)網(wǎng)絡(luò)對(duì)歷史軌跡進(jìn)行平滑和修正,從而生成極高精度的真值數(shù)據(jù)。

這種邏輯雖然在理論上解決了遮擋問題,但在實(shí)際工程中,如何處理多相機(jī)之間的曝光差異、快門延遲以及高速運(yùn)動(dòng)帶來的圖像模糊,依然是極其棘手的技術(shù)難題。

這種從“看照片”到“理解世界”的轉(zhuǎn)變,直接導(dǎo)致了數(shù)據(jù)標(biāo)注量的爆炸。

在以前,標(biāo)注一千張照片可能只需要幾天時(shí)間,但在大模型時(shí)代,標(biāo)注一個(gè)復(fù)雜的城市路口三維場(chǎng)景可能需要數(shù)小時(shí)的算力支持和專業(yè)的人工復(fù)核。

由于大模型對(duì)數(shù)據(jù)的多樣性和準(zhǔn)確性有著極高的要求,任何細(xì)微的標(biāo)注噪聲都可能在訓(xùn)練過程中被放大,導(dǎo)致車輛在某些特定場(chǎng)景下出現(xiàn)莫名的剎車或轉(zhuǎn)向。

自動(dòng)化標(biāo)注流水線的工程難題

面對(duì)海量的路測(cè)數(shù)據(jù),依靠純?nèi)斯?biāo)注已不再現(xiàn)實(shí),自動(dòng)化標(biāo)注流水線成為了大模型時(shí)代的標(biāo)準(zhǔn)配置。

以特斯拉等為主導(dǎo)的領(lǐng)頭羊企業(yè)推行的“影子艦隊(duì)”模式,核心邏輯就是利用云端超大參數(shù)量的模型來標(biāo)注車端的原始數(shù)據(jù)。

這種自動(dòng)標(biāo)注引擎的本質(zhì),是利用離線模型在算力和信息量上的不對(duì)稱優(yōu)勢(shì)。

云端模型由于不需要考慮實(shí)時(shí)性,可以反復(fù)處理同一個(gè)片段,甚至可以調(diào)取該路段歷史經(jīng)過的其他車輛數(shù)據(jù)進(jìn)行聯(lián)合優(yōu)化。

這種“大帶小”的教學(xué)模式,讓車載模型能夠?qū)W習(xí)到那些連人類標(biāo)注員都難以通過肉眼辨認(rèn)的細(xì)節(jié)。

然而,自動(dòng)化流水線的建設(shè)需要考慮很多問題。

首先是要進(jìn)行靜態(tài)背景的重建,為了生成精準(zhǔn)的路面真值,系統(tǒng)需要利用神經(jīng)輻射場(chǎng)等技術(shù)來“合成”路面。

但在真實(shí)的道路上,環(huán)境是瞬息萬變的。路邊的樹木在搖晃,周圍的車輛在穿梭,如果不能完美地將這些動(dòng)態(tài)因素從背景中剔除,生成的路面模型就會(huì)充滿噪點(diǎn)。

這種對(duì)“動(dòng)靜分離”的高要求,需要算法能夠精準(zhǔn)地理解物理世界的結(jié)構(gòu),區(qū)分出哪些是永久存在的馬路邊沿,哪些是臨時(shí)停放的垃圾桶。

還有一個(gè)難點(diǎn)在于對(duì)異形障礙物的處理。傳統(tǒng)的標(biāo)注主要針對(duì)車輛、行人等有固定形狀的物體,但在大模型時(shí)代,系統(tǒng)需要感知所有占據(jù)空間的物體。

像是路面上掉落的木箱、傾斜的電線桿、或者是形狀怪異的工程車等都屬于這類物體。

這些物體沒有標(biāo)準(zhǔn)的尺寸模型可以套用,標(biāo)注系統(tǒng)可以通過“占用網(wǎng)絡(luò)”的技術(shù),將空間劃分成無數(shù)個(gè)微小的格子,并標(biāo)注每個(gè)格子的占用狀態(tài)。

這種標(biāo)注方式對(duì)存儲(chǔ)和計(jì)算的要求呈幾何倍數(shù)增長(zhǎng)。

為了降低復(fù)雜度,有技術(shù)引入了符號(hào)距離場(chǎng)等數(shù)學(xué)技巧來描述物體表面,但這又引入了復(fù)雜的數(shù)學(xué)擬合問題,標(biāo)注精度與計(jì)算效率之間的平衡變得極難把握。

在這種自動(dòng)化體系中,人的角色發(fā)生了根本性的變化。人類不再是直接的“畫框者”,而是“規(guī)則制定者”和“異常審核員”。

每當(dāng)模型生成了錯(cuò)誤的標(biāo)簽,人類需要分析是因?yàn)楣饩太暗、雨水遮擋,還是由于傳感器的標(biāo)定失效。

這種對(duì)異常情況的深度分析,需要標(biāo)注員具備極高的技術(shù)素養(yǎng)。

此外,為了持續(xù)優(yōu)化自動(dòng)化流水線,系統(tǒng)還需要構(gòu)建一個(gè)反饋閉環(huán),每當(dāng)人工修正了一個(gè)錯(cuò)誤,這個(gè)修正后的高精度數(shù)據(jù)就會(huì)被重新喂給自動(dòng)化模型,以提升其下一次標(biāo)注的準(zhǔn)確度。

這種自我進(jìn)化的標(biāo)注閉環(huán),是自動(dòng)駕駛系統(tǒng)能夠不斷突破性能上限的關(guān)鍵所在。

處理遮擋與極端環(huán)境的感知瓶頸

在自動(dòng)駕駛的真實(shí)應(yīng)用場(chǎng)景中,環(huán)境一定是不完美的。遮擋問題被公認(rèn)為感知系統(tǒng)的“殺手”。

當(dāng)一輛巨大的貨車擋住前方的視線時(shí),系統(tǒng)不僅要識(shí)別出這輛貨車,還要能預(yù)判貨車前方是否隱藏著突然橫穿的行人。

標(biāo)注這些“不可見”的數(shù)據(jù)是極其困難的。

在大模型時(shí)代的標(biāo)注流程中,必須引入空間概率的概念,即標(biāo)注出哪些區(qū)域是視線盲區(qū),以及盲區(qū)內(nèi)可能存在的風(fēng)險(xiǎn)。

這種針對(duì)“未知”的標(biāo)注,要求系統(tǒng)具備強(qiáng)大的邏輯推理能力,通過場(chǎng)景的上下文來推斷遮擋后的潛在狀況。

像是暴雨、濃霧或強(qiáng)光逆光等極端的惡劣天氣同樣是標(biāo)注的噩夢(mèng)。

在這些情況下,視覺傳感器捕獲的畫面充滿了噪聲,對(duì)比度極低,傳統(tǒng)的特征點(diǎn)匹配算法幾乎完全失效。

為了解決這個(gè)問題,標(biāo)注系統(tǒng)必須轉(zhuǎn)向多模態(tài)融合的路徑。4D毫米波雷達(dá)在此時(shí)發(fā)揮了至關(guān)重要的作用,因?yàn)樗軌虼┩笣忪F,直接測(cè)量物體的距離和速度。

標(biāo)注系統(tǒng)需要將雷達(dá)的物理測(cè)量值與視覺圖像的語義信息進(jìn)行深度綁定。

這種跨模態(tài)標(biāo)注的難點(diǎn)在于,雷達(dá)產(chǎn)生的數(shù)據(jù)是非常稀疏且充滿虛假反射點(diǎn)的。標(biāo)注系統(tǒng)必須具備一種篩選能力,過濾掉那些由于路邊護(hù)欄反射產(chǎn)生的假目標(biāo),同時(shí)保留住那些代表真實(shí)風(fēng)險(xiǎn)的微弱信號(hào)。

長(zhǎng)尾場(chǎng)景,即那些極少發(fā)生但后果嚴(yán)重的極端情況也是標(biāo)注工作的深水區(qū)。

這些場(chǎng)景可能包括路面上的各種奇特掉落物、行為異常的交通參與者或者是極度復(fù)雜的施工路段。

由于這些場(chǎng)景在原始數(shù)據(jù)中出現(xiàn)的概率極低,標(biāo)注系統(tǒng)首先需要具備一種“異常挖掘”的能力。

系統(tǒng)會(huì)利用大模型對(duì)海量里程進(jìn)行掃描,找出那些模型拿不準(zhǔn)、置信度極低或者車輛接管率異常的片段,然后集中力量進(jìn)行高難度的精細(xì)標(biāo)注。

這種針對(duì)性的標(biāo)注不再追求數(shù)量,而是追求數(shù)據(jù)的“信息密度”,即每一幀數(shù)據(jù)都能教會(huì)模型一種新的應(yīng)對(duì)極端情況的本領(lǐng)。

解決長(zhǎng)尾場(chǎng)景的另一個(gè)方向是結(jié)合仿真數(shù)據(jù)。當(dāng)現(xiàn)實(shí)世界中的數(shù)據(jù)不足時(shí),利用高質(zhì)量的合成數(shù)據(jù)來補(bǔ)充標(biāo)注集成為了一種趨勢(shì)。

但這里的難點(diǎn)在于如何縮小仿真世界與現(xiàn)實(shí)世界的差異。

如果仿真標(biāo)注的數(shù)據(jù)過于“理想化”,訓(xùn)練出的模型在面對(duì)真實(shí)世界的復(fù)雜光影和塵土?xí)r,可能會(huì)產(chǎn)生嚴(yán)重的幻覺或誤判。

因此,大模型時(shí)代的標(biāo)注不僅要處理真實(shí)圖像,還要負(fù)責(zé)對(duì)仿真數(shù)據(jù)的真實(shí)度進(jìn)行評(píng)估和校準(zhǔn),確保機(jī)器在虛擬世界學(xué)到的經(jīng)驗(yàn)?zāi)軌蛲昝肋w移到真實(shí)馬路上。

面向端到端決策的邏輯標(biāo)注轉(zhuǎn)型

隨著端到端技術(shù)的普及,自動(dòng)駕駛正在從“感知-決策-執(zhí)行”的分段式架構(gòu),向直接由傳感器輸入生成軌跡的集成化架構(gòu)轉(zhuǎn)型。

這種技術(shù)演進(jìn)不僅要標(biāo)注“世界長(zhǎng)什么樣”,還要標(biāo)注“為什么要這么開”。

在以前的架構(gòu)中,標(biāo)注的終點(diǎn)是感知結(jié)果;但在端到端架構(gòu)中,標(biāo)注的核心變成了人類的駕駛智慧。

這就要對(duì)人類駕駛員的軌跡、操作以及在復(fù)雜交互環(huán)境中的決策邏輯進(jìn)行精細(xì)的捕捉。

端到端標(biāo)注的一個(gè)核心難點(diǎn)是處理駕駛行為的多樣性。

面對(duì)同一個(gè)路口,不同的人類駕駛員可能會(huì)有不同的選擇。有人激進(jìn),有人穩(wěn)重。如果簡(jiǎn)單地將所有人的駕駛數(shù)據(jù)喂給模型,模型可能會(huì)因?yàn)閷W(xué)到了矛盾的邏輯而導(dǎo)致行為異常。

因此,標(biāo)注系統(tǒng)現(xiàn)在需要增加一個(gè)行為意圖標(biāo)簽。系統(tǒng)需要標(biāo)記出當(dāng)前的駕駛動(dòng)作是為了避讓、變道還是超車,并對(duì)動(dòng)作的優(yōu)劣進(jìn)行評(píng)估。

這種帶有主觀評(píng)價(jià)的標(biāo)注,使得數(shù)據(jù)不再是冷冰冰的坐標(biāo),而是充滿了邏輯的決策序列。

為了提升端到端模型的表現(xiàn),有技術(shù)嘗試將大語言模型的能力引入標(biāo)注流程。通過將視覺場(chǎng)景轉(zhuǎn)化為語言描述,大模型可以為每一個(gè)駕駛場(chǎng)景自動(dòng)生成文本解釋。

像是“由于左前方車輛剎車燈亮起且右側(cè)有變道空間,駕駛員選擇了輕微制動(dòng)并向右偏移。”這種帶有語義解釋的標(biāo)注,能夠幫助車載模型更好地理解駕駛背后的因果關(guān)系,而不只是模仿軌跡的曲線。

這種標(biāo)注的難點(diǎn)在于如何保證語言描述與物理世界的像素和坐標(biāo)完全對(duì)齊。

這是一個(gè)極其復(fù)雜的跨模態(tài)學(xué)習(xí)過程,需要建立起視覺、空間、時(shí)間與語言之間的深度關(guān)聯(lián)。

端到端標(biāo)注還面臨著“負(fù)樣本”缺失難題。

在絕大多數(shù)路測(cè)數(shù)據(jù)中,我們只能看到成功的駕駛行為。但為了讓模型學(xué)會(huì)避險(xiǎn),我們也需要告訴它什么是錯(cuò)誤的行為。

由于我們不能在真實(shí)馬路上制造事故,這就需要通過數(shù)據(jù)增強(qiáng)或生成式AI來創(chuàng)造出大量的“臨界場(chǎng)景”標(biāo)注。

如將一段正常的駕駛軌跡通過算法修改為潛在的碰撞軌跡,并標(biāo)注為“不可行區(qū)域”。

這種針對(duì)安全邊界的標(biāo)注,是端到端自動(dòng)駕駛能夠最終上車的安全基石。在這個(gè)過程中,標(biāo)注已經(jīng)超越了對(duì)現(xiàn)實(shí)的描繪,變成了對(duì)無限可能的探索和定義。

最后的話

大模型時(shí)代的自動(dòng)駕駛標(biāo)注,早已不再是簡(jiǎn)單的勞動(dòng)力投入,而演變成了集成了高精地圖、三維重建、時(shí)空感知和認(rèn)知推理的尖端技術(shù)領(lǐng)域。這種復(fù)雜度的提升雖然帶來了巨大的成本和技術(shù)壓力,但也為自動(dòng)駕駛跨越最后1%的長(zhǎng)尾挑戰(zhàn)提供了可能。

-- END --

       原文標(biāo)題 : 大模型時(shí)代自動(dòng)駕駛標(biāo)注有什么特殊要求?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)