訂閱
糾錯(cuò)
加入自媒體

具身智能,正在打一場(chǎng)“數(shù)據(jù)戰(zhàn)”

編者按:具身智能有三座大山需要跨越:模型、數(shù)據(jù)、量產(chǎn)。

模型決定能力上限,量產(chǎn)決定能否走向現(xiàn)實(shí),而數(shù)據(jù)連接著二者,是目前最難補(bǔ)齊的一環(huán)。

無(wú)論模型多先進(jìn)、硬件多復(fù)雜,具身智能能否真正學(xué)會(huì)如何在真實(shí)世界中行動(dòng),最終都取決于是否擁有高質(zhì)量、可規(guī)模、可復(fù)用的數(shù)據(jù)作為底層燃料。

數(shù)據(jù)從何而來(lái)、如何生成、如何使用,正在深刻影響技術(shù)路線(xiàn)的選擇,也直接塑造著企業(yè)的商業(yè)化節(jié)奏,成為當(dāng)下競(jìng)爭(zhēng)中最關(guān)鍵的變量。

基于此,星河頻率特別策劃「具身智能數(shù)據(jù)專(zhuān)題」,系統(tǒng)拆解遙操作、仿真、人類(lèi)視頻、UMI 等核心數(shù)據(jù)采集技術(shù)路徑,梳理代表性玩家的技術(shù)取舍與商業(yè)邏輯,觀察數(shù)據(jù)廠(chǎng)商如何參與構(gòu)建這一輪具身智能的底層基礎(chǔ)設(shè)施。

我們將持續(xù)跟蹤這一核心領(lǐng)域的演進(jìn),剖析數(shù)據(jù)如何驅(qū)動(dòng)智能進(jìn)化,并探索行業(yè)突破瓶頸、構(gòu)建協(xié)同生態(tài)的可能路徑。

作者 | 向欣

春晚過(guò)后,具身智能行業(yè)迎來(lái)了一波融資高峰。

智平方、千尋智能先后宣布融資超 10 億與近 20 億,估值均突破百億;自變量機(jī)器人最近也完成數(shù)億元融資,成為今年已披露融資中估值最高的具身公司。

舞臺(tái)上機(jī)器人的密集亮相點(diǎn)燃了資本市場(chǎng),也改變了大眾的關(guān)注焦點(diǎn)。從機(jī)器人真厲害,變成了它什么時(shí)候能進(jìn)我家?

但現(xiàn)實(shí)是,具身機(jī)器人仍無(wú)法進(jìn)入真實(shí)生活場(chǎng)景。

問(wèn)題的關(guān)鍵,已經(jīng)不在「身體」。

春晚已經(jīng)證明機(jī)器人的瞬時(shí)爆發(fā)、抗沖擊等硬件能力基本成熟。但機(jī)器人真正的瓶頸在「大腦」。

盡管模型層面不斷進(jìn)步,但受限于數(shù)據(jù)規(guī)模與多樣性,泛化能力仍不足。

未來(lái)三年,真正拉開(kāi)差距的,將是能持續(xù)、規(guī)模化產(chǎn)出高質(zhì)量數(shù)據(jù)的能力。

目前,具身智能數(shù)據(jù)領(lǐng)域已分化出四條主流技術(shù)路線(xiàn),并由此形成了被稱(chēng)為「具身數(shù)據(jù)四小龍」的市場(chǎng)格局:遙操作采集:智元機(jī)器人;仿真合成:銀河通用;人類(lèi)操作視頻:它石智航;UMI:鹿明機(jī)器人。

需要說(shuō)明的是,雖然劃分為了四條路線(xiàn),但玩家們并不會(huì)只押注一個(gè)方案。

真實(shí)實(shí)踐中,多數(shù)公司都會(huì)組合使用多種數(shù)據(jù)來(lái)源,只是在資源配置與技術(shù)重心上有所側(cè)重,才逐漸形成了各自更具代表性的路徑。

一場(chǎng)圍繞具身數(shù)據(jù)的卡位戰(zhàn),也就此拉開(kāi)序幕。

質(zhì)量派:遙操作,用成本換取真實(shí)度

在所有具身智能數(shù)據(jù)采集路徑中,通過(guò)遙操作獲得的數(shù)據(jù),被普遍認(rèn)為是最高質(zhì)量的一類(lèi)。

在整套數(shù)據(jù)體系中,遙操作是打基礎(chǔ)的高質(zhì)量樣本來(lái)源,缺陷則是成本高,很難單獨(dú)支撐大規(guī)模數(shù)據(jù)供給。

這條路線(xiàn)可以視為是具身智能數(shù)據(jù)生產(chǎn)的「重工業(yè)模式」,拼的是資金耐力與工程組織能力。

所謂遙操作,是指由人類(lèi)遠(yuǎn)程操控機(jī)器人本體完成具體任務(wù)。常見(jiàn)方式包括 VR 設(shè)備、動(dòng)作捕捉系統(tǒng)、主從機(jī)械臂以及外骨骼等。

特斯拉遙操作數(shù)據(jù)采集與仿真或視頻不同,遙操作發(fā)生在真實(shí)物理環(huán)境中,人類(lèi)動(dòng)作可以被完整映射到機(jī)器人執(zhí)行層面,使機(jī)器人直接經(jīng)歷現(xiàn)實(shí)世界的力學(xué)約束與環(huán)境干擾。

在這一過(guò)程中,遙操作設(shè)備不僅記錄下關(guān)節(jié)軌跡、力反饋、觸覺(jué)信息和視覺(jué)畫(huà)面,還同步保留了人類(lèi)在復(fù)雜、不確定環(huán)境中的決策過(guò)程,包括如何判斷、取舍并不斷修正動(dòng)作。

這等同于人類(lèi)在現(xiàn)場(chǎng)「手把手」教機(jī)器人做事,精度高、信息密度大,也最接近真實(shí)可用能力。

正因如此,不少企業(yè)選擇以遙操作作為早期真機(jī)數(shù)據(jù)的核心來(lái)源,智元機(jī)器人是其中最具代表性的一家公司。

一方面,智元是國(guó)內(nèi)較早系統(tǒng)性投入遙操作數(shù)據(jù)采集的企業(yè),并率先將這一過(guò)程工業(yè)化。

2024 年 9 月,智元在上海啟用了一座面積超過(guò) 4000 平方米的數(shù)據(jù)采集工廠(chǎng),復(fù)刻了家居、餐飲、工業(yè)、商超和辦公五類(lèi)核心場(chǎng)景,配置 3000 多種真實(shí)物品,并支持上百臺(tái)機(jī)器人并行作業(yè)。

基于這一體系,智元在 2024 年 12 月開(kāi)源了百萬(wàn)級(jí)真機(jī)數(shù)據(jù)集 AgiBot World,成為當(dāng)時(shí)全球規(guī)模最大的公開(kāi)遙操作數(shù)據(jù)集之一。

AgiBot World 由 100 臺(tái)機(jī)器人執(zhí)行、累計(jì)超過(guò) 100 萬(wàn)條示范軌跡構(gòu)成,總時(shí)長(zhǎng)約 595 小時(shí),覆蓋 80 余種家庭與工業(yè)操作任務(wù)。

據(jù)了解,智元的數(shù)據(jù)工廠(chǎng)目前日均可產(chǎn)出 3 萬(wàn)至 5 萬(wàn)條高質(zhì)量數(shù)據(jù),在規(guī)模與效率上均處于行業(yè)前列。

另一方面,遙操作還有著技術(shù)門(mén)檻,需要滿(mǎn)足高精度、低延遲的要求。

智元的遙操作技術(shù)也經(jīng)過(guò)公開(kāi)驗(yàn)證。在智元精力 G2 的發(fā)布會(huì)上,北京的技術(shù)人員控制上海發(fā)布會(huì)現(xiàn)場(chǎng)的機(jī)器人精準(zhǔn)射中飄動(dòng)的氣球,操作延遲低于 10ms,軌跡復(fù)現(xiàn)精度達(dá) 99%。

從數(shù)據(jù)采集到使用數(shù)據(jù)訓(xùn)練模型的過(guò)程中,還需要經(jīng)歷數(shù)據(jù)上傳、清洗、標(biāo)注等一系列流程。智元機(jī)器人很早就搭建起了一套數(shù)據(jù)處理的系統(tǒng)。

2024 年 8 月,其發(fā)布了具身智能數(shù)據(jù)系統(tǒng) AIDEA,覆蓋從數(shù)據(jù)采集到模型部署、再到數(shù)據(jù)回傳的全鏈路;2025 年 4 月推出的 Genie Studio,則進(jìn)一步打通了「數(shù)據(jù)采集—模型訓(xùn)練—仿真評(píng)測(cè)—模型推理」的一體化流程,單機(jī)單日產(chǎn)能高達(dá) 1000 條,數(shù)據(jù)采集與使用效率顯著提升。

智元機(jī)器人的雄厚資本與量產(chǎn)經(jīng)驗(yàn),也使得其在遙操作路線(xiàn)上,具備長(zhǎng)線(xiàn)作戰(zhàn)的能力。

智元自 2023 年 2 月成立以來(lái),以平均每 3 個(gè)月一輪的融資節(jié)奏快速崛起,目前已完成 11 輪融資,估值已攀升至 150 億元人民幣,2025 年出貨量達(dá) 5168 臺(tái)。

盡管遙操作數(shù)據(jù)質(zhì)量極高,但其代價(jià)同樣明顯,體現(xiàn)為「高成本、低泛化」。

首先,成本極其高昂。

建立一個(gè)數(shù)據(jù)工廠(chǎng),涉及多項(xiàng)巨額開(kāi)支:硬件成本:高自由度機(jī)器人本體(單價(jià)普遍超 50 萬(wàn)元)、精密動(dòng)捕設(shè)備(單套數(shù)十萬(wàn)元)是基礎(chǔ)投入;場(chǎng)景與人力成本:搭建逼真的物理場(chǎng)景需要場(chǎng)地、物料;操作和維護(hù)設(shè)備需要雇傭?qū)I(yè)團(tuán)隊(duì),培訓(xùn)周期長(zhǎng);時(shí)間與效率成本:數(shù)據(jù)采集速度受限于人工操作,難以爆發(fā)式增長(zhǎng)。

僅僅是建設(shè)一個(gè)規(guī)模化數(shù)據(jù)工廠(chǎng),都需要數(shù)千萬(wàn)元乃至更高的前期投入,運(yùn)營(yíng)維護(hù)也是一筆不菲的支出。

此外,遙操作數(shù)據(jù)與具體機(jī)器人本體高度綁定。

由于動(dòng)作映射、結(jié)構(gòu)參數(shù)和控制接口存在差異,這類(lèi)數(shù)據(jù)往往難以直接遷移到其他本體上使用,泛化能力受限。

綜合來(lái)看,遙操作是一條用高昂代價(jià)換取最高質(zhì)量數(shù)據(jù)的路徑,能夠?yàn)槠髽I(yè)訓(xùn)練模型提供最扎實(shí)的地基。

但由于是一種重資產(chǎn)、重投入、重運(yùn)營(yíng)的路徑,也對(duì)企業(yè)的資金實(shí)力、工程化能力以及長(zhǎng)期投入的耐力提出了極高要求。

這些現(xiàn)實(shí)約束,推動(dòng)行業(yè)不斷尋找更低成本、更高效率的替代方案。

規(guī)模派:仿真&視頻,數(shù)據(jù)海量,存在遷移誤差

仿真數(shù)據(jù)與人類(lèi)視頻數(shù)據(jù),正在成為被寄予厚望的技術(shù)路徑。

兩條路線(xiàn)的共同特點(diǎn)是,不依賴(lài)大量真實(shí)機(jī)器人,成本更低、效率更高,規(guī)模極大。它們共同的缺陷則是不夠真實(shí)。

由于它們都不是機(jī)器人本體直接產(chǎn)生的數(shù)據(jù),都存在從訓(xùn)練環(huán)境到真實(shí)執(zhí)行環(huán)境的遷移誤差,即「Sim-to-Real Gap」。

仿真數(shù)據(jù),指的是通過(guò)物理仿真引擎,在虛擬環(huán)境中生成機(jī)器人與環(huán)境交互的數(shù)據(jù)。

仿真數(shù)據(jù)的優(yōu)勢(shì)在于:?jiǎn)螚l數(shù)據(jù)成本更低、可規(guī)模化、環(huán)境高度可控、場(chǎng)景幾乎無(wú)限擴(kuò)展。

在仿真環(huán)境中,機(jī)器人不需要真實(shí)硬件,也無(wú)需人工參與,只受算力和參數(shù)設(shè)定約束。

虛擬機(jī)器人可以 7×24 小時(shí)在仿真環(huán)境中訓(xùn)練,場(chǎng)景參數(shù)、物理?xiàng)l件和任務(wù)難度都能被精確控制,非常適合進(jìn)行大規(guī)模訓(xùn)練與算法驗(yàn)證。銀河通用是仿真合成數(shù)據(jù)路線(xiàn)的堅(jiān)定支持者。

目前銀河通用約 90% 的訓(xùn)練數(shù)據(jù)來(lái)自仿真合成。

團(tuán)隊(duì)在這一方向持續(xù)投入多年,自研了一套完整的仿真數(shù)據(jù)生成管線(xiàn),能夠在一周內(nèi)生成 10 億級(jí)別的數(shù)據(jù),數(shù)據(jù)生成效率是傳統(tǒng)真機(jī)采集的上千倍,單條數(shù)據(jù)成本僅為真實(shí)采集的 1/100。

基于這套數(shù)據(jù)生成方案,銀河通用聯(lián)合北京智源人工智能研究院等共同發(fā)布了全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA,其預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),展現(xiàn)了七大卓越的泛化能力,包括高度、平面位置、物體類(lèi)別、光照、干擾物、背景的泛化以及閉環(huán)能力。

銀河通用創(chuàng)始人王鶴認(rèn)為,在人形機(jī)器人仍停留在千臺(tái)級(jí)出貨規(guī)模的現(xiàn)實(shí)下,真實(shí)數(shù)據(jù)的產(chǎn)出能力與自動(dòng)駕駛動(dòng)輒百萬(wàn)級(jí)車(chē)隊(duì)所產(chǎn)生的數(shù)據(jù)量,存在數(shù)量級(jí)差距。

僅靠真機(jī)數(shù)據(jù),難以支撐具身大模型所需的訓(xùn)練規(guī)模,仿真因此成為補(bǔ)齊數(shù)據(jù)缺口的現(xiàn)實(shí)選擇。

但仿真數(shù)據(jù)也有局限性。

虛擬環(huán)境的狀態(tài)過(guò)于理想化,物理參數(shù)與感知反饋高度穩(wěn)定;而現(xiàn)實(shí)世界充滿(mǎn)傳感器延遲、光照變化、硬件誤差等各類(lèi)干擾。

模型在仿真中學(xué)到的往往是最優(yōu)策略,但遷移到實(shí)體機(jī)器人時(shí)性能容易衰減。

同時(shí),機(jī)器人本體的虛擬模型與實(shí)際硬件在關(guān)節(jié)精度、動(dòng)力響應(yīng)等方面的差異,也導(dǎo)致動(dòng)作軌跡難以精確復(fù)現(xiàn)。

Agility Robotics 使用仿真數(shù)據(jù)訓(xùn)練機(jī)器人如果要追求更高的真實(shí)度,讓仿真環(huán)境無(wú)限逼近物理世界,其成本優(yōu)勢(shì)又會(huì)開(kāi)始動(dòng)搖。

高精度物理建模、復(fù)雜場(chǎng)景重建和參數(shù)標(biāo)定,對(duì)高端人才、算力資源與工程投入的要求不斷上升,成本甚至可能超過(guò)直接進(jìn)行真實(shí)采集。

仿真數(shù)據(jù)的種種問(wèn)題,歸根結(jié)底都源于虛擬環(huán)境的理想化,與真實(shí)世界復(fù)雜性之間難以消除的差距。

在多數(shù)人眼中,仿真數(shù)據(jù)更適合作為探索與輔助工具,而難以獨(dú)立支撐機(jī)器人在真實(shí)場(chǎng)景中的性能上限。

于是,另一類(lèi)更貼近現(xiàn)實(shí)的數(shù)據(jù)信息開(kāi)始受到重視——人類(lèi)視頻數(shù)據(jù)。

相比仿真,人類(lèi)視頻更加貼近真實(shí)世界,保留了真實(shí)場(chǎng)景中的行為邏輯和任務(wù)流程。

人類(lèi)視頻按照來(lái)源可分為兩類(lèi):一是場(chǎng)景極其豐富但缺乏標(biāo)注的互聯(lián)網(wǎng)海量視頻;二是針對(duì)特定任務(wù)錄制的高質(zhì)量示范視頻。

人類(lèi)操作視頻的缺陷在于,視頻內(nèi)信息不夠完整,單純的視覺(jué)信息不足以支撐精細(xì)操作。

如何在保持規(guī)模優(yōu)勢(shì)的同時(shí),引入更完整的動(dòng)作與物理交互信息,成為這一路線(xiàn)能否真正落地的關(guān)鍵。

特斯拉、它石智航、逐際動(dòng)力、千尋智能、Skild AI 等公司均在持續(xù)投入。

其中,它石智航給出了更加工程化、體系化的解法。它石提出了 Human-Centric 數(shù)據(jù)采集范式,核心思路是讓真實(shí)勞動(dòng)者佩戴一套簡(jiǎn)易的數(shù)據(jù)采集設(shè)備,在真實(shí)場(chǎng)景中自然完成工作。

它石自研了一套數(shù)據(jù)采集設(shè)備:SenseHub 數(shù)采套件,由輕便的采集手套(TARS Glove,包含五指、兩指兩個(gè)版本)與一個(gè)全景相機(jī)(TARS Vision)組成。

設(shè)備同步記錄視覺(jué)、動(dòng)作與力觸覺(jué)信息,自動(dòng)化數(shù)據(jù)引擎 TARS Datacore 會(huì)全程對(duì)數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,將數(shù)據(jù)拆解為機(jī)器人可理解的操作單元與任務(wù)邏輯。

這種方式實(shí)現(xiàn)了兩項(xiàng)突破:首先,數(shù)據(jù)源自真實(shí)的生產(chǎn)生活場(chǎng)景,而非人為搭建的實(shí)驗(yàn)室環(huán)境;其次,成本結(jié)構(gòu)大幅優(yōu)化,采集成本降至遙操作的 1/100。

基于這一系列數(shù)據(jù)采集系統(tǒng),它石智航僅用幾個(gè)月,就收集了超過(guò) 10 萬(wàn)條以上的真實(shí)人類(lèi)操作視頻,并將其整理開(kāi)源為 WIYH 數(shù)據(jù)集,并部分開(kāi)源。

已開(kāi)源的 WIYH 數(shù)據(jù)集包含 40 余種任務(wù)類(lèi)型、100 多種人類(lèi)技能,覆蓋了含 520 余種真實(shí)物品,真實(shí)還原商超、酒店、餐飲、工業(yè)、辦公、家居等多行業(yè)的 10 種核心場(chǎng)景全鏈路任務(wù)。

依托該數(shù)據(jù)集訓(xùn)練的 AWE2.0 模型,已能使機(jī)器人完成刺繡等高難度精細(xì)動(dòng)作。

盡管人類(lèi)視頻極大擴(kuò)展了數(shù)據(jù)規(guī)模,但它始終存在幾項(xiàng)難以回避的限制。

一是純視覺(jué)信息難以還原完整物理交互數(shù)據(jù);ヂ(lián)網(wǎng)人類(lèi)視頻雖然規(guī)模大且豐富,但缺失力覺(jué)、觸感、關(guān)節(jié)狀態(tài)等關(guān)鍵控制變量,使模型對(duì)精細(xì)操作的理解存在先天不足。

二是數(shù)據(jù)噪聲。它石智航式的示范視頻雖然真實(shí),但由于場(chǎng)景非結(jié)構(gòu)化,存在大量的遮擋與冗余信息。這要求后端 AI 必須具備極強(qiáng)的感知與清洗能力,才能從雜亂的人類(lèi)操作中提取出有效樣本。

總體而言,仿真與人類(lèi)視頻的核心價(jià)值在于「規(guī)模」,但在物理精度與真實(shí)執(zhí)行一致性上,仍需與高價(jià)值的真機(jī)數(shù)據(jù)互為補(bǔ)充。

平衡派:UMI 范式,在成本與質(zhì)量之間求解

如果遙操作是重工業(yè),仿真是自動(dòng)化生產(chǎn)線(xiàn),那么 UMI 更像是分布式采集網(wǎng)絡(luò)。它是行業(yè)找到的一種折中方案,既不依賴(lài)昂貴機(jī)器人本體,又能采集到足夠真實(shí)的操作數(shù)據(jù),還具備規(guī);瘽摿。

UMI 它的特點(diǎn)是低成本、便攜、效率高、可規(guī)模化、并且與硬件解耦,可跨本體遷移。

目前其工程化優(yōu)勢(shì)已經(jīng)顯現(xiàn),但真實(shí)落地效果仍需要更長(zhǎng)周期、更廣泛的實(shí)踐支撐。

UMI 全稱(chēng)是 Universal Manipulation Interface,即通用操作接口,是 2024 年斯坦福大學(xué)、哥倫比亞大學(xué)與豐田研究所聯(lián)合提出的低成本數(shù)據(jù)收集與策略學(xué)習(xí)框架。

在最初被提出時(shí),UMI 的優(yōu)點(diǎn)只是低成本與便攜。

其數(shù)據(jù)采集設(shè)備非常簡(jiǎn)易,僅由手持夾爪、集成相機(jī)與 IMU 的傳感模塊、數(shù)據(jù)記錄系統(tǒng)三大部分組成,整套成本約 400 美元。

操作時(shí),使用者佩戴設(shè)備,在真實(shí)世界完成任務(wù),無(wú)需機(jī)器人本體參與。

真正讓 UMI 這一范式火起來(lái)的,是是美國(guó)具身智能公司 Generalist 與 Sunday Robotics 對(duì) UMI 技術(shù)的應(yīng)用,他們分別驗(yàn)證了 UMI 技術(shù)路線(xiàn)的規(guī)模性與有效性。

Generalist 基于 UMI 范式,采集了 27 萬(wàn)小時(shí)的數(shù)據(jù),當(dāng)前每周可采集約 1 萬(wàn)小時(shí)數(shù)據(jù),數(shù)據(jù)采集效率還在不斷上升,并在此基礎(chǔ)上訓(xùn)練出具身基礎(chǔ)模型 GEN-0,實(shí)現(xiàn)了復(fù)雜、長(zhǎng)時(shí)序操作任務(wù)的零樣本泛化。

Sunday Robotics 則是利用 UMI 范式采集的數(shù)據(jù),訓(xùn)練出了 ACT-1 模型,并做出一個(gè)極致的 demo。

其輪式機(jī)器人 Memo 能夠圍繞「清理桌面」的簡(jiǎn)單指令,自主規(guī)劃并執(zhí)行數(shù)十個(gè)連續(xù)任務(wù),包括收納杯子、刀具、碗筷、清理垃圾。此外它還會(huì)疊襪子、使用手沖咖啡機(jī),執(zhí)行從填粉、壓粉到啟動(dòng)萃取的完整流程。

值得注意的是,Sunday Robotics 的聯(lián)合創(chuàng)始人就是 UMI 的一作遲宬。

海外團(tuán)隊(duì)驗(yàn)證了 UMI 的可行性,而真正將這一路線(xiàn)推向工程化與規(guī)模復(fù)制的,是國(guó)內(nèi)的鹿明機(jī)器人。鹿明機(jī)器人聯(lián)合創(chuàng)始人丁琰,是最早系統(tǒng)性研究 UMI 范式的研究者之一。

早在 2024 年初,他便啟動(dòng)了相關(guān)項(xiàng)目,并在隨后主導(dǎo)研發(fā)了 FastUMI、FastUMI Pro,將原本偏科研的 UMI 升級(jí)為具備工程可用性的系統(tǒng)。

原始 UMI 存在兩個(gè)明顯限制:一是硬件綁定嚴(yán)重,只能適配特定夾爪和少數(shù)高端機(jī)械臂;二是數(shù)據(jù)處理流程冗長(zhǎng)。

FastUMI 針對(duì)這兩點(diǎn)進(jìn)行了系統(tǒng)性重構(gòu)。通過(guò)統(tǒng)一的指尖套件,F(xiàn)astUMI 實(shí)現(xiàn)了數(shù)據(jù)與機(jī)器人本體的徹底解耦。

無(wú)論使用何種夾爪,只要安裝相同指尖模塊,機(jī)器人所「看到」的操作視角便可與人類(lèi)采集時(shí)保持一致,使一份數(shù)據(jù)能夠復(fù)用于多種不同構(gòu)型的機(jī)器人,大幅提升了數(shù)據(jù)通用性。

同時(shí),F(xiàn)astUMI 將原本事后完成的軌跡計(jì)算,前置到采集階段,通過(guò)獨(dú)立的實(shí)時(shí)追蹤模塊,實(shí)現(xiàn)「數(shù)據(jù)采完即可使用」,顯著提升了效率與精度。

在此基礎(chǔ)上,鹿明進(jìn)一步升級(jí),推出了 FastUMI Pro,使其具備工業(yè)級(jí)部署能力。

與傳統(tǒng)遙操作相比,F(xiàn)astUMI Pro 將單條數(shù)據(jù)采集時(shí)間從約 50 秒縮短至 10 秒,效率提升 5 倍。

綜合人力與硬件成本后,F(xiàn)astUMI Pro 單位數(shù)據(jù)成本僅為遙操作的約 1/200。

鹿明設(shè)計(jì)了一套夾爪式采集設(shè)備,集成 RGB 魚(yú)眼相機(jī),高精度深度相機(jī),超高精度視覺(jué)里程計(jì)傳感器,高分辨率夾爪開(kāi)合傳感器等,夾爪整體重量?jī)H 600g,負(fù)載能力達(dá) 2kg,定位精度可達(dá) 1-3mm。

目前,鹿明已基于 FastUMI Pro 累積超過(guò) 1 萬(wàn)小時(shí)數(shù)據(jù),并完成了從采集、處理到模型訓(xùn)練的完整閉環(huán)。最近,鹿明機(jī)器人還發(fā)布全球首款背包版 UMI 數(shù)采設(shè)備 FastUMI Pro(背包版),計(jì)劃在多個(gè)城市投放 1 萬(wàn)臺(tái)背包版 FastUMI Pro 設(shè)備,開(kāi)展系統(tǒng)性采集。

在丁琰看來(lái),具身智能真正的壁壘,不只是采集方式,還在于那條冗長(zhǎng)而復(fù)雜的數(shù)據(jù) pipeline。數(shù)據(jù)處理、異常場(chǎng)景管理、質(zhì)量控制與長(zhǎng)期迭代經(jīng)驗(yàn),本 身就是核心競(jìng)爭(zhēng)力。

鹿明構(gòu)建了六道數(shù)據(jù)檢測(cè)與校驗(yàn)流程,使數(shù)據(jù)有效率從行業(yè)常見(jiàn)的約 70% 提升至 95% 以上。

經(jīng)過(guò)一系列工程化升級(jí),UMI 的優(yōu)勢(shì)已不再局限于低成本、便攜,逐步擴(kuò)展到精度高、效率高、可規(guī);⒖蓮(fù)用、以及與硬件解耦的跨本體遷移能力。

需要說(shuō)明的是,這里的「跨本體遷移」并不意味著 UMI 能夠適配所有機(jī)器人,而是指能夠在較短周期內(nèi)完成對(duì)數(shù)十種不同構(gòu)型機(jī)器人的適配。

鹿明機(jī)器人創(chuàng)始人喻超介紹,目前全球具身智能圈內(nèi)有超過(guò)三分之二的頂尖團(tuán)隊(duì),正在使用 FastUMI Pro。

具身智能,需要萬(wàn)億級(jí)數(shù)據(jù)

具身智能的競(jìng)爭(zhēng)重心正在從本體參數(shù)轉(zhuǎn)向大腦智能,而機(jī)器人大腦的突破,最終繞不開(kāi)數(shù)據(jù)供給。

可以預(yù)見(jiàn),數(shù)據(jù)能力將會(huì)從競(jìng)爭(zhēng)優(yōu)勢(shì),轉(zhuǎn)變?yōu)樾袠I(yè)門(mén)檻。

無(wú)法持續(xù)產(chǎn)出高質(zhì)量數(shù)據(jù)的企業(yè),將很難進(jìn)入下一階段的模型競(jìng)賽。回看當(dāng)前具身智能的數(shù)據(jù)體系,幾條技術(shù)路線(xiàn)各有邊界:遙操作的數(shù)據(jù)質(zhì)量最高,最接近真實(shí)可用能力,但成本高、規(guī)模受限。

仿真數(shù)據(jù)可無(wú)限擴(kuò)展,適合預(yù)訓(xùn)練與探索,卻難以覆蓋真實(shí)世界的復(fù)雜噪聲。

人類(lèi)視頻數(shù)據(jù)貼近現(xiàn)實(shí)、成本可控,但物理交互信息不完整。

UMI 則在成本、質(zhì)量與規(guī)模之間取得平衡,不過(guò)其真實(shí)能力有待進(jìn)一步檢驗(yàn)。

因此,在真實(shí)實(shí)踐中,幾乎沒(méi)有公司押注單一路線(xiàn)。

千尋智能創(chuàng)始人韓峰濤直言,目前不存在一種數(shù)據(jù)類(lèi)型可以獨(dú)立支撐具身大模型訓(xùn)練,更合理的做法,是將不同數(shù)據(jù)用于不同階段。

智元在建設(shè)數(shù)據(jù)采集工廠(chǎng)的同時(shí),也布局仿真路徑,開(kāi)源仿真數(shù)據(jù)集 AgiBot Digital World,為模型提供仿真數(shù)據(jù)補(bǔ)充。

銀河通用則以仿真數(shù)據(jù)完成預(yù)訓(xùn)練,再引入少量真機(jī)數(shù)據(jù)進(jìn)行后訓(xùn)練,降低虛實(shí)偏差。

它石智航創(chuàng)始人陳亦倫認(rèn)為,具身智能真正可用,至少需要 1000 萬(wàn)小時(shí)級(jí)別的數(shù)據(jù)量。

銀河通用團(tuán)隊(duì)則判斷,若要實(shí)現(xiàn)跨任務(wù)、跨場(chǎng)景的泛化能力,所需數(shù)據(jù)規(guī)?赡苓_(dá)到萬(wàn)億級(jí)別。

而現(xiàn)有具身智能數(shù)據(jù)集的數(shù)據(jù)總量?jī)H幾十萬(wàn)量級(jí),且有效性受制于標(biāo)準(zhǔn)、硬件不統(tǒng)一。

深圳市人工智能與機(jī)器人研究院具身智能中心主任劉少山認(rèn)為,數(shù)據(jù)困境的破解之道在于數(shù)據(jù)資產(chǎn)化與標(biāo)準(zhǔn)化,需要「三步走」:首先統(tǒng)一數(shù)據(jù)格式與接口,打破孤島實(shí)現(xiàn)對(duì)齊;其次將數(shù)據(jù)轉(zhuǎn)化為可評(píng)估、可定價(jià)的資產(chǎn);最后建立共享與交易機(jī)制,讓數(shù)據(jù)在不同主體間流動(dòng)。

在真正可用的人形機(jī)器人到來(lái)之前,具身智能的數(shù)據(jù)體系,注定是一場(chǎng)多路線(xiàn)并行、長(zhǎng)期投入、不斷試錯(cuò)的系統(tǒng)工程。

無(wú)論路線(xiàn)如何分化,數(shù)據(jù)都是所有具身智能能力得以成立的前提,其重要性必將在今年的競(jìng)爭(zhēng)中被不斷放大。持續(xù)產(chǎn)出高質(zhì)量數(shù)據(jù)的能力,會(huì)成為今年具身智能公司最突出的競(jìng)爭(zhēng)力。

       原文標(biāo)題 : 具身智能,正在打一場(chǎng)“數(shù)據(jù)戰(zhàn)”

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)