123,123,123

具身智能，正在打一場(chǎng)“數(shù)據(jù)戰(zhàn)”

2026-03-02 13:54

編者按：具身智能有三座大山需要跨越：模型、數(shù)據(jù)、量產(chǎn)。

模型決定能力上限，量產(chǎn)決定能否走向現(xiàn)實(shí)，而數(shù)據(jù)連接著二者，是目前最難補(bǔ)齊的一環(huán)。

無(wú)論模型多先進(jìn)、硬件多復(fù)雜，具身智能能否真正學(xué)會(huì)如何在真實(shí)世界中行動(dòng)，最終都取決于是否擁有高質(zhì)量、可規(guī)模、可復(fù)用的數(shù)據(jù)作為底層燃料。

數(shù)據(jù)從何而來(lái)、如何生成、如何使用，正在深刻影響技術(shù)路線(xiàn)的選擇，也直接塑造著企業(yè)的商業(yè)化節(jié)奏，成為當(dāng)下競(jìng)爭(zhēng)中最關(guān)鍵的變量。

基于此，星河頻率特別策劃「具身智能數(shù)據(jù)專(zhuān)題」，系統(tǒng)拆解遙操作、仿真、人類(lèi)視頻、UMI 等核心數(shù)據(jù)采集技術(shù)路徑，梳理代表性玩家的技術(shù)取舍與商業(yè)邏輯，觀察數(shù)據(jù)廠(chǎng)商如何參與構(gòu)建這一輪具身智能的底層基礎(chǔ)設(shè)施。

我們將持續(xù)跟蹤這一核心領(lǐng)域的演進(jìn)，剖析數(shù)據(jù)如何驅(qū)動(dòng)智能進(jìn)化，并探索行業(yè)突破瓶頸、構(gòu)建協(xié)同生態(tài)的可能路徑。

作者 | 向欣

春晚過(guò)后，具身智能行業(yè)迎來(lái)了一波融資高峰。

智平方、千尋智能先后宣布融資超 10 億與近 20 億，估值均突破百億；自變量機(jī)器人最近也完成數(shù)億元融資，成為今年已披露融資中估值最高的具身公司。

舞臺(tái)上機(jī)器人的密集亮相點(diǎn)燃了資本市場(chǎng)，也改變了大眾的關(guān)注焦點(diǎn)。從機(jī)器人真厲害，變成了它什么時(shí)候能進(jìn)我家？

但現(xiàn)實(shí)是，具身機(jī)器人仍無(wú)法進(jìn)入真實(shí)生活場(chǎng)景。

問(wèn)題的關(guān)鍵，已經(jīng)不在「身體」。

春晚已經(jīng)證明機(jī)器人的瞬時(shí)爆發(fā)、抗沖擊等硬件能力基本成熟。但機(jī)器人真正的瓶頸在「大腦」。

盡管模型層面不斷進(jìn)步，但受限于數(shù)據(jù)規(guī)模與多樣性，泛化能力仍不足。

未來(lái)三年，真正拉開(kāi)差距的，將是能持續(xù)、規(guī)模化產(chǎn)出高質(zhì)量數(shù)據(jù)的能力。

目前，具身智能數(shù)據(jù)領(lǐng)域已分化出四條主流技術(shù)路線(xiàn)，并由此形成了被稱(chēng)為「具身數(shù)據(jù)四小龍」的市場(chǎng)格局：遙操作采集：智元機(jī)器人；仿真合成：銀河通用；人類(lèi)操作視頻：它石智航；UMI：鹿明機(jī)器人。

需要說(shuō)明的是，雖然劃分為了四條路線(xiàn)，但玩家們并不會(huì)只押注一個(gè)方案。

真實(shí)實(shí)踐中，多數(shù)公司都會(huì)組合使用多種數(shù)據(jù)來(lái)源，只是在資源配置與技術(shù)重心上有所側(cè)重，才逐漸形成了各自更具代表性的路徑。

一場(chǎng)圍繞具身數(shù)據(jù)的卡位戰(zhàn)，也就此拉開(kāi)序幕。

質(zhì)量派：遙操作，用成本換取真實(shí)度

在所有具身智能數(shù)據(jù)采集路徑中，通過(guò)遙操作獲得的數(shù)據(jù)，被普遍認(rèn)為是最高質(zhì)量的一類(lèi)。

在整套數(shù)據(jù)體系中，遙操作是打基礎(chǔ)的高質(zhì)量樣本來(lái)源，缺陷則是成本高，很難單獨(dú)支撐大規(guī)模數(shù)據(jù)供給。

這條路線(xiàn)可以視為是具身智能數(shù)據(jù)生產(chǎn)的「重工業(yè)模式」，拼的是資金耐力與工程組織能力。

所謂遙操作，是指由人類(lèi)遠(yuǎn)程操控機(jī)器人本體完成具體任務(wù)。常見(jiàn)方式包括 VR 設(shè)備、動(dòng)作捕捉系統(tǒng)、主從機(jī)械臂以及外骨骼等。

特斯拉遙操作數(shù)據(jù)采集與仿真或視頻不同，遙操作發(fā)生在真實(shí)物理環(huán)境中，人類(lèi)動(dòng)作可以被完整映射到機(jī)器人執(zhí)行層面，使機(jī)器人直接經(jīng)歷現(xiàn)實(shí)世界的力學(xué)約束與環(huán)境干擾。

在這一過(guò)程中，遙操作設(shè)備不僅記錄下關(guān)節(jié)軌跡、力反饋、觸覺(jué)信息和視覺(jué)畫(huà)面，還同步保留了人類(lèi)在復(fù)雜、不確定環(huán)境中的決策過(guò)程，包括如何判斷、取舍并不斷修正動(dòng)作。

這等同于人類(lèi)在現(xiàn)場(chǎng)「手把手」教機(jī)器人做事，精度高、信息密度大，也最接近真實(shí)可用能力。

正因如此，不少企業(yè)選擇以遙操作作為早期真機(jī)數(shù)據(jù)的核心來(lái)源，智元機(jī)器人是其中最具代表性的一家公司。

一方面，智元是國(guó)內(nèi)較早系統(tǒng)性投入遙操作數(shù)據(jù)采集的企業(yè)，并率先將這一過(guò)程工業(yè)化。

2024 年 9 月，智元在上海啟用了一座面積超過(guò) 4000 平方米的數(shù)據(jù)采集工廠(chǎng)，復(fù)刻了家居、餐飲、工業(yè)、商超和辦公五類(lèi)核心場(chǎng)景，配置 3000 多種真實(shí)物品，并支持上百臺(tái)機(jī)器人并行作業(yè)。

基于這一體系，智元在 2024 年 12 月開(kāi)源了百萬(wàn)級(jí)真機(jī)數(shù)據(jù)集 AgiBot World，成為當(dāng)時(shí)全球規(guī)模最大的公開(kāi)遙操作數(shù)據(jù)集之一。

AgiBot World 由 100 臺(tái)機(jī)器人執(zhí)行、累計(jì)超過(guò) 100 萬(wàn)條示范軌跡構(gòu)成，總時(shí)長(zhǎng)約 595 小時(shí)，覆蓋 80 余種家庭與工業(yè)操作任務(wù)。

據(jù)了解，智元的數(shù)據(jù)工廠(chǎng)目前日均可產(chǎn)出 3 萬(wàn)至 5 萬(wàn)條高質(zhì)量數(shù)據(jù)，在規(guī)模與效率上均處于行業(yè)前列。

另一方面，遙操作還有著技術(shù)門(mén)檻，需要滿(mǎn)足高精度、低延遲的要求。

智元的遙操作技術(shù)也經(jīng)過(guò)公開(kāi)驗(yàn)證。在智元精力 G2 的發(fā)布會(huì)上，北京的技術(shù)人員控制上海發(fā)布會(huì)現(xiàn)場(chǎng)的機(jī)器人精準(zhǔn)射中飄動(dòng)的氣球，操作延遲低于 10ms，軌跡復(fù)現(xiàn)精度達(dá) 99%。

從數(shù)據(jù)采集到使用數(shù)據(jù)訓(xùn)練模型的過(guò)程中，還需要經(jīng)歷數(shù)據(jù)上傳、清洗、標(biāo)注等一系列流程。智元機(jī)器人很早就搭建起了一套數(shù)據(jù)處理的系統(tǒng)。

2024 年 8 月，其發(fā)布了具身智能數(shù)據(jù)系統(tǒng) AIDEA，覆蓋從數(shù)據(jù)采集到模型部署、再到數(shù)據(jù)回傳的全鏈路；2025 年 4 月推出的 Genie Studio，則進(jìn)一步打通了「數(shù)據(jù)采集—模型訓(xùn)練—仿真評(píng)測(cè)—模型推理」的一體化流程，單機(jī)單日產(chǎn)能高達(dá) 1000 條，數(shù)據(jù)采集與使用效率顯著提升。

智元機(jī)器人的雄厚資本與量產(chǎn)經(jīng)驗(yàn)，也使得其在遙操作路線(xiàn)上，具備長(zhǎng)線(xiàn)作戰(zhàn)的能力。

智元自 2023 年 2 月成立以來(lái)，以平均每 3 個(gè)月一輪的融資節(jié)奏快速崛起，目前已完成 11 輪融資，估值已攀升至 150 億元人民幣，2025 年出貨量達(dá) 5168 臺(tái)。

盡管遙操作數(shù)據(jù)質(zhì)量極高，但其代價(jià)同樣明顯，體現(xiàn)為「高成本、低泛化」。

首先，成本極其高昂。

建立一個(gè)數(shù)據(jù)工廠(chǎng)，涉及多項(xiàng)巨額開(kāi)支：硬件成本：高自由度機(jī)器人本體（單價(jià)普遍超 50 萬(wàn)元）、精密動(dòng)捕設(shè)備（單套數(shù)十萬(wàn)元）是基礎(chǔ)投入；場(chǎng)景與人力成本：搭建逼真的物理場(chǎng)景需要場(chǎng)地、物料；操作和維護(hù)設(shè)備需要雇傭?qū)I(yè)團(tuán)隊(duì)，培訓(xùn)周期長(zhǎng)；時(shí)間與效率成本：數(shù)據(jù)采集速度受限于人工操作，難以爆發(fā)式增長(zhǎng)。

僅僅是建設(shè)一個(gè)規(guī)模化數(shù)據(jù)工廠(chǎng)，都需要數(shù)千萬(wàn)元乃至更高的前期投入，運(yùn)營(yíng)維護(hù)也是一筆不菲的支出。

此外，遙操作數(shù)據(jù)與具體機(jī)器人本體高度綁定。

由于動(dòng)作映射、結(jié)構(gòu)參數(shù)和控制接口存在差異，這類(lèi)數(shù)據(jù)往往難以直接遷移到其他本體上使用，泛化能力受限。

綜合來(lái)看，遙操作是一條用高昂代價(jià)換取最高質(zhì)量數(shù)據(jù)的路徑，能夠?yàn)槠髽I(yè)訓(xùn)練模型提供最扎實(shí)的地基。

但由于是一種重資產(chǎn)、重投入、重運(yùn)營(yíng)的路徑，也對(duì)企業(yè)的資金實(shí)力、工程化能力以及長(zhǎng)期投入的耐力提出了極高要求。

這些現(xiàn)實(shí)約束，推動(dòng)行業(yè)不斷尋找更低成本、更高效率的替代方案。

規(guī)模派：仿真&視頻，數(shù)據(jù)海量，存在遷移誤差

仿真數(shù)據(jù)與人類(lèi)視頻數(shù)據(jù)，正在成為被寄予厚望的技術(shù)路徑。

兩條路線(xiàn)的共同特點(diǎn)是，不依賴(lài)大量真實(shí)機(jī)器人，成本更低、效率更高，規(guī)模極大。它們共同的缺陷則是不夠真實(shí)。

由于它們都不是機(jī)器人本體直接產(chǎn)生的數(shù)據(jù)，都存在從訓(xùn)練環(huán)境到真實(shí)執(zhí)行環(huán)境的遷移誤差，即「Sim-to-Real Gap」。

仿真數(shù)據(jù)，指的是通過(guò)物理仿真引擎，在虛擬環(huán)境中生成機(jī)器人與環(huán)境交互的數(shù)據(jù)。

仿真數(shù)據(jù)的優(yōu)勢(shì)在于：?jiǎn)螚l數(shù)據(jù)成本更低、可規(guī)模化、環(huán)境高度可控、場(chǎng)景幾乎無(wú)限擴(kuò)展。

在仿真環(huán)境中，機(jī)器人不需要真實(shí)硬件，也無(wú)需人工參與，只受算力和參數(shù)設(shè)定約束。

虛擬機(jī)器人可以 7×24 小時(shí)在仿真環(huán)境中訓(xùn)練，場(chǎng)景參數(shù)、物理?xiàng)l件和任務(wù)難度都能被精確控制，非常適合進(jìn)行大規(guī)模訓(xùn)練與算法驗(yàn)證。銀河通用是仿真合成數(shù)據(jù)路線(xiàn)的堅(jiān)定支持者。

目前銀河通用約 90% 的訓(xùn)練數(shù)據(jù)來(lái)自仿真合成。

團(tuán)隊(duì)在這一方向持續(xù)投入多年，自研了一套完整的仿真數(shù)據(jù)生成管線(xiàn)，能夠在一周內(nèi)生成 10 億級(jí)別的數(shù)據(jù)，數(shù)據(jù)生成效率是傳統(tǒng)真機(jī)采集的上千倍，單條數(shù)據(jù)成本僅為真實(shí)采集的 1/100。

基于這套數(shù)據(jù)生成方案，銀河通用聯(lián)合北京智源人工智能研究院等共同發(fā)布了全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，其預(yù)訓(xùn)練完全基于合成大數(shù)據(jù)，展現(xiàn)了七大卓越的泛化能力，包括高度、平面位置、物體類(lèi)別、光照、干擾物、背景的泛化以及閉環(huán)能力。

銀河通用創(chuàng)始人王鶴認(rèn)為，在人形機(jī)器人仍停留在千臺(tái)級(jí)出貨規(guī)模的現(xiàn)實(shí)下，真實(shí)數(shù)據(jù)的產(chǎn)出能力與自動(dòng)駕駛動(dòng)輒百萬(wàn)級(jí)車(chē)隊(duì)所產(chǎn)生的數(shù)據(jù)量，存在數(shù)量級(jí)差距。

僅靠真機(jī)數(shù)據(jù)，難以支撐具身大模型所需的訓(xùn)練規(guī)模，仿真因此成為補(bǔ)齊數(shù)據(jù)缺口的現(xiàn)實(shí)選擇。

但仿真數(shù)據(jù)也有局限性。

虛擬環(huán)境的狀態(tài)過(guò)于理想化，物理參數(shù)與感知反饋高度穩(wěn)定；而現(xiàn)實(shí)世界充滿(mǎn)傳感器延遲、光照變化、硬件誤差等各類(lèi)干擾。

模型在仿真中學(xué)到的往往是最優(yōu)策略，但遷移到實(shí)體機(jī)器人時(shí)性能容易衰減。

同時(shí)，機(jī)器人本體的虛擬模型與實(shí)際硬件在關(guān)節(jié)精度、動(dòng)力響應(yīng)等方面的差異，也導(dǎo)致動(dòng)作軌跡難以精確復(fù)現(xiàn)。

Agility Robotics 使用仿真數(shù)據(jù)訓(xùn)練機(jī)器人如果要追求更高的真實(shí)度，讓仿真環(huán)境無(wú)限逼近物理世界，其成本優(yōu)勢(shì)又會(huì)開(kāi)始動(dòng)搖。

高精度物理建模、復(fù)雜場(chǎng)景重建和參數(shù)標(biāo)定，對(duì)高端人才、算力資源與工程投入的要求不斷上升，成本甚至可能超過(guò)直接進(jìn)行真實(shí)采集。

仿真數(shù)據(jù)的種種問(wèn)題，歸根結(jié)底都源于虛擬環(huán)境的理想化，與真實(shí)世界復(fù)雜性之間難以消除的差距。

在多數(shù)人眼中，仿真數(shù)據(jù)更適合作為探索與輔助工具，而難以獨(dú)立支撐機(jī)器人在真實(shí)場(chǎng)景中的性能上限。

于是，另一類(lèi)更貼近現(xiàn)實(shí)的數(shù)據(jù)信息開(kāi)始受到重視——人類(lèi)視頻數(shù)據(jù)。

相比仿真，人類(lèi)視頻更加貼近真實(shí)世界，保留了真實(shí)場(chǎng)景中的行為邏輯和任務(wù)流程。

人類(lèi)視頻按照來(lái)源可分為兩類(lèi)：一是場(chǎng)景極其豐富但缺乏標(biāo)注的互聯(lián)網(wǎng)海量視頻；二是針對(duì)特定任務(wù)錄制的高質(zhì)量示范視頻。

人類(lèi)操作視頻的缺陷在于，視頻內(nèi)信息不夠完整，單純的視覺(jué)信息不足以支撐精細(xì)操作。

如何在保持規(guī)模優(yōu)勢(shì)的同時(shí)，引入更完整的動(dòng)作與物理交互信息，成為這一路線(xiàn)能否真正落地的關(guān)鍵。

特斯拉、它石智航、逐際動(dòng)力、千尋智能、Skild AI 等公司均在持續(xù)投入。

其中，它石智航給出了更加工程化、體系化的解法。它石提出了 Human-Centric 數(shù)據(jù)采集范式，核心思路是讓真實(shí)勞動(dòng)者佩戴一套簡(jiǎn)易的數(shù)據(jù)采集設(shè)備，在真實(shí)場(chǎng)景中自然完成工作。

它石自研了一套數(shù)據(jù)采集設(shè)備：SenseHub 數(shù)采套件，由輕便的采集手套（TARS Glove，包含五指、兩指兩個(gè)版本）與一個(gè)全景相機(jī)（TARS Vision）組成。

設(shè)備同步記錄視覺(jué)、動(dòng)作與力觸覺(jué)信息，自動(dòng)化數(shù)據(jù)引擎 TARS Datacore 會(huì)全程對(duì)數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注，將數(shù)據(jù)拆解為機(jī)器人可理解的操作單元與任務(wù)邏輯。

這種方式實(shí)現(xiàn)了兩項(xiàng)突破：首先，數(shù)據(jù)源自真實(shí)的生產(chǎn)生活場(chǎng)景，而非人為搭建的實(shí)驗(yàn)室環(huán)境；其次，成本結(jié)構(gòu)大幅優(yōu)化，采集成本降至遙操作的 1/100。

基于這一系列數(shù)據(jù)采集系統(tǒng)，它石智航僅用幾個(gè)月，就收集了超過(guò) 10 萬(wàn)條以上的真實(shí)人類(lèi)操作視頻，并將其整理開(kāi)源為 WIYH 數(shù)據(jù)集，并部分開(kāi)源。

已開(kāi)源的 WIYH 數(shù)據(jù)集包含 40 余種任務(wù)類(lèi)型、100 多種人類(lèi)技能，覆蓋了含 520 余種真實(shí)物品，真實(shí)還原商超、酒店、餐飲、工業(yè)、辦公、家居等多行業(yè)的 10 種核心場(chǎng)景全鏈路任務(wù)。

依托該數(shù)據(jù)集訓(xùn)練的 AWE2.0 模型，已能使機(jī)器人完成刺繡等高難度精細(xì)動(dòng)作。

盡管人類(lèi)視頻極大擴(kuò)展了數(shù)據(jù)規(guī)模，但它始終存在幾項(xiàng)難以回避的限制。

一是純視覺(jué)信息難以還原完整物理交互數(shù)據(jù)�；ヂ�(lián)網(wǎng)人類(lèi)視頻雖然規(guī)模大且豐富，但缺失力覺(jué)、觸感、關(guān)節(jié)狀態(tài)等關(guān)鍵控制變量，使模型對(duì)精細(xì)操作的理解存在先天不足。

二是數(shù)據(jù)噪聲。它石智航式的示范視頻雖然真實(shí)，但由于場(chǎng)景非結(jié)構(gòu)化，存在大量的遮擋與冗余信息。這要求后端 AI 必須具備極強(qiáng)的感知與清洗能力，才能從雜亂的人類(lèi)操作中提取出有效樣本。

總體而言，仿真與人類(lèi)視頻的核心價(jià)值在于「規(guī)模」，但在物理精度與真實(shí)執(zhí)行一致性上，仍需與高價(jià)值的真機(jī)數(shù)據(jù)互為補(bǔ)充。

平衡派：UMI 范式，在成本與質(zhì)量之間求解

如果遙操作是重工業(yè)，仿真是自動(dòng)化生產(chǎn)線(xiàn)，那么 UMI 更像是分布式采集網(wǎng)絡(luò)。它是行業(yè)找到的一種折中方案，既不依賴(lài)昂貴機(jī)器人本體，又能采集到足夠真實(shí)的操作數(shù)據(jù)，還具備規(guī)�；瘽摿�。

UMI 它的特點(diǎn)是低成本、便攜、效率高、可規(guī)模化、并且與硬件解耦，可跨本體遷移。

目前其工程化優(yōu)勢(shì)已經(jīng)顯現(xiàn)，但真實(shí)落地效果仍需要更長(zhǎng)周期、更廣泛的實(shí)踐支撐。

UMI 全稱(chēng)是 Universal Manipulation Interface，即通用操作接口，是 2024 年斯坦福大學(xué)、哥倫比亞大學(xué)與豐田研究所聯(lián)合提出的低成本數(shù)據(jù)收集與策略學(xué)習(xí)框架。

在最初被提出時(shí)，UMI 的優(yōu)點(diǎn)只是低成本與便攜。

其數(shù)據(jù)采集設(shè)備非常簡(jiǎn)易，僅由手持夾爪、集成相機(jī)與 IMU 的傳感模塊、數(shù)據(jù)記錄系統(tǒng)三大部分組成，整套成本約 400 美元。

操作時(shí)，使用者佩戴設(shè)備，在真實(shí)世界完成任務(wù)，無(wú)需機(jī)器人本體參與。

真正讓 UMI 這一范式火起來(lái)的，是是美國(guó)具身智能公司 Generalist 與 Sunday Robotics 對(duì) UMI 技術(shù)的應(yīng)用，他們分別驗(yàn)證了 UMI 技術(shù)路線(xiàn)的規(guī)模性與有效性。

Generalist 基于 UMI 范式，采集了 27 萬(wàn)小時(shí)的數(shù)據(jù)，當(dāng)前每周可采集約 1 萬(wàn)小時(shí)數(shù)據(jù)，數(shù)據(jù)采集效率還在不斷上升，并在此基礎(chǔ)上訓(xùn)練出具身基礎(chǔ)模型 GEN-0，實(shí)現(xiàn)了復(fù)雜、長(zhǎng)時(shí)序操作任務(wù)的零樣本泛化。

Sunday Robotics 則是利用 UMI 范式采集的數(shù)據(jù)，訓(xùn)練出了 ACT-1 模型，并做出一個(gè)極致的 demo。

其輪式機(jī)器人 Memo 能夠圍繞「清理桌面」的簡(jiǎn)單指令，自主規(guī)劃并執(zhí)行數(shù)十個(gè)連續(xù)任務(wù)，包括收納杯子、刀具、碗筷、清理垃圾。此外它還會(huì)疊襪子、使用手沖咖啡機(jī)，執(zhí)行從填粉、壓粉到啟動(dòng)萃取的完整流程。

值得注意的是，Sunday Robotics 的聯(lián)合創(chuàng)始人就是 UMI 的一作遲宬。

海外團(tuán)隊(duì)驗(yàn)證了 UMI 的可行性，而真正將這一路線(xiàn)推向工程化與規(guī)模復(fù)制的，是國(guó)內(nèi)的鹿明機(jī)器人。鹿明機(jī)器人聯(lián)合創(chuàng)始人丁琰，是最早系統(tǒng)性研究 UMI 范式的研究者之一。

早在 2024 年初，他便啟動(dòng)了相關(guān)項(xiàng)目，并在隨后主導(dǎo)研發(fā)了 FastUMI、FastUMI Pro，將原本偏科研的 UMI 升級(jí)為具備工程可用性的系統(tǒng)。

原始 UMI 存在兩個(gè)明顯限制：一是硬件綁定嚴(yán)重，只能適配特定夾爪和少數(shù)高端機(jī)械臂；二是數(shù)據(jù)處理流程冗長(zhǎng)。

FastUMI 針對(duì)這兩點(diǎn)進(jìn)行了系統(tǒng)性重構(gòu)。通過(guò)統(tǒng)一的指尖套件，F(xiàn)astUMI 實(shí)現(xiàn)了數(shù)據(jù)與機(jī)器人本體的徹底解耦。

無(wú)論使用何種夾爪，只要安裝相同指尖模塊，機(jī)器人所「看到」的操作視角便可與人類(lèi)采集時(shí)保持一致，使一份數(shù)據(jù)能夠復(fù)用于多種不同構(gòu)型的機(jī)器人，大幅提升了數(shù)據(jù)通用性。

同時(shí)，F(xiàn)astUMI 將原本事后完成的軌跡計(jì)算，前置到采集階段，通過(guò)獨(dú)立的實(shí)時(shí)追蹤模塊，實(shí)現(xiàn)「數(shù)據(jù)采完即可使用」，顯著提升了效率與精度。

在此基礎(chǔ)上，鹿明進(jìn)一步升級(jí)，推出了 FastUMI Pro，使其具備工業(yè)級(jí)部署能力。

與傳統(tǒng)遙操作相比，F(xiàn)astUMI Pro 將單條數(shù)據(jù)采集時(shí)間從約 50 秒縮短至 10 秒，效率提升 5 倍。

綜合人力與硬件成本后，F(xiàn)astUMI Pro 單位數(shù)據(jù)成本僅為遙操作的約 1/200。

鹿明設(shè)計(jì)了一套夾爪式采集設(shè)備，集成 RGB 魚(yú)眼相機(jī)，高精度深度相機(jī)，超高精度視覺(jué)里程計(jì)傳感器，高分辨率夾爪開(kāi)合傳感器等，夾爪整體重量?jī)H 600g，負(fù)載能力達(dá) 2kg，定位精度可達(dá) 1-3mm。

目前，鹿明已基于 FastUMI Pro 累積超過(guò) 1 萬(wàn)小時(shí)數(shù)據(jù)，并完成了從采集、處理到模型訓(xùn)練的完整閉環(huán)。最近，鹿明機(jī)器人還發(fā)布全球首款背包版 UMI 數(shù)采設(shè)備 FastUMI Pro（背包版），計(jì)劃在多個(gè)城市投放 1 萬(wàn)臺(tái)背包版 FastUMI Pro 設(shè)備，開(kāi)展系統(tǒng)性采集。

在丁琰看來(lái)，具身智能真正的壁壘，不只是采集方式，還在于那條冗長(zhǎng)而復(fù)雜的數(shù)據(jù) pipeline。數(shù)據(jù)處理、異常場(chǎng)景管理、質(zhì)量控制與長(zhǎng)期迭代經(jīng)驗(yàn)，本身就是核心競(jìng)爭(zhēng)力。

鹿明構(gòu)建了六道數(shù)據(jù)檢測(cè)與校驗(yàn)流程，使數(shù)據(jù)有效率從行業(yè)常見(jiàn)的約 70% 提升至 95% 以上。

經(jīng)過(guò)一系列工程化升級(jí)，UMI 的優(yōu)勢(shì)已不再局限于低成本、便攜，逐步擴(kuò)展到精度高、效率高、可規(guī)�；⒖蓮�(fù)用、以及與硬件解耦的跨本體遷移能力。

需要說(shuō)明的是，這里的「跨本體遷移」并不意味著 UMI 能夠適配所有機(jī)器人，而是指能夠在較短周期內(nèi)完成對(duì)數(shù)十種不同構(gòu)型機(jī)器人的適配。

鹿明機(jī)器人創(chuàng)始人喻超介紹，目前全球具身智能圈內(nèi)有超過(guò)三分之二的頂尖團(tuán)隊(duì)，正在使用 FastUMI Pro。

具身智能，需要萬(wàn)億級(jí)數(shù)據(jù)

具身智能的競(jìng)爭(zhēng)重心正在從本體參數(shù)轉(zhuǎn)向大腦智能，而機(jī)器人大腦的突破，最終繞不開(kāi)數(shù)據(jù)供給。

可以預(yù)見(jiàn)，數(shù)據(jù)能力將會(huì)從競(jìng)爭(zhēng)優(yōu)勢(shì)，轉(zhuǎn)變?yōu)樾袠I(yè)門(mén)檻。

無(wú)法持續(xù)產(chǎn)出高質(zhì)量數(shù)據(jù)的企業(yè)，將很難進(jìn)入下一階段的模型競(jìng)賽。回看當(dāng)前具身智能的數(shù)據(jù)體系，幾條技術(shù)路線(xiàn)各有邊界：遙操作的數(shù)據(jù)質(zhì)量最高，最接近真實(shí)可用能力，但成本高、規(guī)模受限。

仿真數(shù)據(jù)可無(wú)限擴(kuò)展，適合預(yù)訓(xùn)練與探索，卻難以覆蓋真實(shí)世界的復(fù)雜噪聲。

人類(lèi)視頻數(shù)據(jù)貼近現(xiàn)實(shí)、成本可控，但物理交互信息不完整。

UMI 則在成本、質(zhì)量與規(guī)模之間取得平衡，不過(guò)其真實(shí)能力有待進(jìn)一步檢驗(yàn)。

因此，在真實(shí)實(shí)踐中，幾乎沒(méi)有公司押注單一路線(xiàn)。

千尋智能創(chuàng)始人韓峰濤直言，目前不存在一種數(shù)據(jù)類(lèi)型可以獨(dú)立支撐具身大模型訓(xùn)練，更合理的做法，是將不同數(shù)據(jù)用于不同階段。

智元在建設(shè)數(shù)據(jù)采集工廠(chǎng)的同時(shí)，也布局仿真路徑，開(kāi)源仿真數(shù)據(jù)集 AgiBot Digital World，為模型提供仿真數(shù)據(jù)補(bǔ)充。

銀河通用則以仿真數(shù)據(jù)完成預(yù)訓(xùn)練，再引入少量真機(jī)數(shù)據(jù)進(jìn)行后訓(xùn)練，降低虛實(shí)偏差。

它石智航創(chuàng)始人陳亦倫認(rèn)為，具身智能真正可用，至少需要 1000 萬(wàn)小時(shí)級(jí)別的數(shù)據(jù)量。

銀河通用團(tuán)隊(duì)則判斷，若要實(shí)現(xiàn)跨任務(wù)、跨場(chǎng)景的泛化能力，所需數(shù)據(jù)規(guī)�？赡苓_(dá)到萬(wàn)億級(jí)別。

而現(xiàn)有具身智能數(shù)據(jù)集的數(shù)據(jù)總量?jī)H幾十萬(wàn)量級(jí)，且有效性受制于標(biāo)準(zhǔn)、硬件不統(tǒng)一。

深圳市人工智能與機(jī)器人研究院具身智能中心主任劉少山認(rèn)為，數(shù)據(jù)困境的破解之道在于數(shù)據(jù)資產(chǎn)化與標(biāo)準(zhǔn)化，需要「三步走」：首先統(tǒng)一數(shù)據(jù)格式與接口，打破孤島實(shí)現(xiàn)對(duì)齊；其次將數(shù)據(jù)轉(zhuǎn)化為可評(píng)估、可定價(jià)的資產(chǎn)；最后建立共享與交易機(jī)制，讓數(shù)據(jù)在不同主體間流動(dòng)。

在真正可用的人形機(jī)器人到來(lái)之前，具身智能的數(shù)據(jù)體系，注定是一場(chǎng)多路線(xiàn)并行、長(zhǎng)期投入、不斷試錯(cuò)的系統(tǒng)工程。

無(wú)論路線(xiàn)如何分化，數(shù)據(jù)都是所有具身智能能力得以成立的前提，其重要性必將在今年的競(jìng)爭(zhēng)中被不斷放大。持續(xù)產(chǎn)出高質(zhì)量數(shù)據(jù)的能力，會(huì)成為今年具身智能公司最突出的競(jìng)爭(zhēng)力。

原文標(biāo)題 : 具身智能，正在打一場(chǎng)“數(shù)據(jù)戰(zhàn)”