訂閱
糾錯(cuò)
加入自媒體

具身智能,是時(shí)候跳出“中國先研,國外帶火”的怪圈了

編者按:

讓 AI 像人類一樣思考并行動(dòng),曾是科幻小說中的終極幻想。如今,隨著通用大模型向物理世界的這一躍,具身智能大腦成為了科技競爭的絕對(duì)高地。

但技術(shù)的演進(jìn)絕非一蹴而就的坦途,數(shù)據(jù)匱乏、泛化難題、甚至每一次微小的幻覺,都是橫亙?cè)?Demo 與真實(shí)落地之間的鴻溝。

當(dāng)端到端成為行業(yè)熱詞,當(dāng)VLA模型不斷刷新上限,我們需要冷靜的思考:什么才是具身智能大腦的最佳架構(gòu)?算力與數(shù)據(jù)的飛輪如何驅(qū)動(dòng)物理智能的涌現(xiàn)?

在這個(gè)技術(shù)范式轉(zhuǎn)移的前夜,星河頻率特別策劃“具身智能大腦”系列文章,我們將深入演進(jìn)中的技術(shù)范式,試圖穿透技術(shù)概念的表面熱潮,回歸系統(tǒng)與架構(gòu)的本質(zhì)思考,記錄智能體從有軀體到有智慧的進(jìn)化歷程。

作者 | 毛心如

大多數(shù)人不知道,關(guān)于Scaling Law的原始研究來自百度,而不是OpenAI。

2014年,Anthropic 創(chuàng)始人 Dario Amodei在百度北美實(shí)驗(yàn)室研究AI的這段時(shí)間,他摸到了大模型發(fā)展的圣杯——Scaling Law。

Dario Amodei離開百度后加入了OpenAI,最終Scaling Law在美國率先開花結(jié)果,催生了GPT-3.5。

但百度在2017年發(fā)表的《Deep Learning Scaling is Predictable, Empirically》論文里,就已經(jīng)詳細(xì)討論了機(jī)器翻譯、語言建模等領(lǐng)域的Scaling現(xiàn)象。

當(dāng)時(shí)百度的研究人員用 LSTM 代替了 Transformers,而且沒有將他們的發(fā)現(xiàn)命名為Laws。

后來,ChatGPT 3.5橫空出世,讓全球都認(rèn)識(shí)了OpenAI,也讓LLM徹底開始了繁榮發(fā)展。

百度的這段往事,也成為了與Dario Amodei同期進(jìn)入百度的MiniMax創(chuàng)始人閆俊杰心里的遺憾。

十年后的今天,當(dāng)全球AI的聚光燈從大語言模型轉(zhuǎn)向更具挑戰(zhàn)的具身智能時(shí),相似的歷史場景似乎正在重演。

中國研究者在關(guān)鍵架構(gòu)上早有先見,卻常由海外團(tuán)隊(duì)帶火并收獲掌聲。

但這一次,中國的具身智能玩家們已決心不再讓歷史重演。

從VLA模型、世界模型到強(qiáng)化學(xué)習(xí),他們正在關(guān)鍵技術(shù)領(lǐng)域構(gòu)建起完整的創(chuàng)新體系,以一種更系統(tǒng)、更深入的方式參與這場關(guān)于智能本質(zhì)的競爭。

VLA,讓機(jī)器人擁有自主大腦

VLA模型的核心價(jià)值,是徹底打破了傳統(tǒng)機(jī)器人的被動(dòng)困境,將機(jī)器人從只能完成專項(xiàng)任務(wù)的提線木偶,升級(jí)為具備自主理解、自主決策能力的智能體。

而中國團(tuán)隊(duì)在這一領(lǐng)域的創(chuàng)新探索,其實(shí)也一直走在行業(yè)前列,卻被國外團(tuán)隊(duì)的熱度掩蓋。

早年的機(jī)器人技術(shù),核心依賴兩種驅(qū)動(dòng)模式,固定程序編程和模塊化控制

這兩種方式本質(zhì)上都是人定義規(guī)則、機(jī)器人執(zhí)行,機(jī)器人一直是被動(dòng)的工具,缺乏了主動(dòng)理解能力。

隨著LLM、VLM技術(shù)的爆發(fā)和突破實(shí)現(xiàn)了先理解后生成的范式突破,模型可以在大規(guī)模文本與圖像上學(xué)到語義、常識(shí)與推理能力。

基于此,一個(gè)技術(shù)直覺出現(xiàn):既然能用同一種模型去理解語言和圖像,能不能把動(dòng)作也放進(jìn)同一套體系里,讓模型直接把看到、聽到的信息映射成要做什么。

所以VLA模型的崛起,本質(zhì)上是LLM 與VLM技術(shù)溢出的必然結(jié)果。

2023年7月,谷歌DeepMind發(fā)布模型RT-2,第一次正式提出了VLA概念。

RT-2徹底改變了機(jī)器人編程的范式,不再需要工程師為每個(gè)任務(wù)編寫復(fù)雜的控制代碼,而是讓機(jī)器人通過觀察和學(xué)習(xí),自主生成合適的動(dòng)作。

盡管RT-2這類VLA可以處理一些基本任務(wù),但還有兩個(gè)痛點(diǎn),一是面對(duì)復(fù)雜任務(wù),推理能力不足;二是在微調(diào)和推斷上,算力成本太高。

2024年6月,中國公司智平方聯(lián)合北大等機(jī)構(gòu),首次將狀態(tài)空間序列模型Mamba引入了VLA架構(gòu),推出了輕量化結(jié)構(gòu)RoboMamba。

相比之前的VLA模型,RoboMamba不僅復(fù)雜度降低了,還顯著提升了長序列推理能力,直接實(shí)現(xiàn)了VLA模型效率與推理泛化能力的雙重提升。

這項(xiàng)論文當(dāng)年入選了人工智能頂會(huì)NeurIPS 2024,也創(chuàng)造了中國具身公司在VLA領(lǐng)域國際舞臺(tái)的首次發(fā)聲。

如今,VLA模型已經(jīng)成為具身智能大腦發(fā)展的主流路線,而在共識(shí)之下,許多玩家也開始了一些細(xì)分思路的分流。

在端到端VLA模型的這個(gè)思路下,入局玩家大體上被分成了兩派,一派是采取分層端到端,另一派是純粹的端到端。

前者的代表玩家有Figure AI、星動(dòng)紀(jì)元、星海圖、星塵智能等,后者的代表玩家則是Physical Intelligence、自變量機(jī)器人。

這里需要厘清的是,分層屬于端到端的一種實(shí)現(xiàn)路徑,二者并不是對(duì)立的關(guān)系。

純粹的端到端路線的核心在于用統(tǒng)一或少數(shù)大模型直接從感知映射到動(dòng)作決策。而分層端到端則是在內(nèi)部采用系統(tǒng)1、系統(tǒng)2的快慢腦方式來拆分理解任務(wù)和執(zhí)行任務(wù)。

最近新發(fā)布的Sharpa的CraftNet、Figure AI的Helix02,還在這一基礎(chǔ)上加入了系統(tǒng)0,進(jìn)一步提升機(jī)器人操作的精度和準(zhǔn)確度,讓VLA模型的落地更具實(shí)用性。

然而,在目前的具身智能競爭里,要問某項(xiàng)技術(shù)工作誰最具有代表性,最先被提到的總是Physical Intelligence、Figure AI、谷歌等國外公司。

但其實(shí)中國公司在這一塊同樣付出了不少的努力,但大多陷入了中國團(tuán)隊(duì)先行落地成果,最后由外國團(tuán)隊(duì)帶火的情況。

例如,分層端到端架構(gòu)徹底開始火源于2025年2月Figure的Helix01發(fā)布,但早在2024年9月星動(dòng)紀(jì)元就已經(jīng)推出了HiRT快慢分層架構(gòu),并且這一架構(gòu)也應(yīng)用到其自研端到端原生機(jī)器人大模型 ERA-42 中。

值得一提的是,ERA-42也是國內(nèi)首個(gè)實(shí)現(xiàn)一個(gè)具身大腦VLA控制機(jī)器人四肢及末端靈巧手的模型。

而自變量機(jī)器人的王潛也有相似的經(jīng)歷。2024年10-11月其團(tuán)隊(duì)開始研發(fā) any-to-any 模型,實(shí)現(xiàn)多模態(tài)輸入輸出,還同期完成具身思維鏈(COT)研發(fā)。

這與2025年年中PI發(fā)布的π0.5模型技術(shù)方向也存在著高度一致。

這種中國先發(fā)、海外帶火的模式,恰似LLM遺憾的重演,也是中國具身智能玩家必須突破的困局。

世界模型,讓模型真正理解物理世界

當(dāng)VLA賦予機(jī)器人實(shí)時(shí)感知和響應(yīng)的能力后,一個(gè)新的問題浮現(xiàn),機(jī)器人如何像人類一樣,對(duì)物理世界有深刻的理解和預(yù)測能力。

即便最先進(jìn)的VLA模型,本質(zhì)上也屬于開環(huán)執(zhí)行模式。即根據(jù)當(dāng)下的視覺信息和語言指令預(yù)測動(dòng)作,卻無法預(yù)判這個(gè)動(dòng)作會(huì)引發(fā)什么后果,一旦出現(xiàn)意外情況,就難以調(diào)整策略。

正因這個(gè)技術(shù)痛點(diǎn),讓世界模型成為具身智能領(lǐng)域炙手可熱的研究方向,甚至有不少學(xué)者認(rèn)為,世界模型是實(shí)現(xiàn)AGI的終局關(guān)鍵。

簡單來說,世界模型就是讓機(jī)器人擁有提前推演的能力。

它通過對(duì)環(huán)境的動(dòng)態(tài)感知與規(guī)律學(xué)習(xí),構(gòu)建起一個(gè)虛擬的環(huán)境模型,能預(yù)測出做出某個(gè)動(dòng)作后,環(huán)境會(huì)發(fā)生怎樣的變化,從而為機(jī)器人提供前瞻性的決策依據(jù)。

目前行業(yè)對(duì)世界模型尚無統(tǒng)一定義,不同團(tuán)隊(duì)基于對(duì)認(rèn)知的不同理解,走出了條截然不同的技術(shù)路線。

以楊立昆為首的研究團(tuán)隊(duì),認(rèn)為真正的智能必須像人一樣去理解為什么。

楊立昆本人對(duì)于LLM能夠?qū)崿F(xiàn)AGI一直存在質(zhì)疑,認(rèn)為語言載體存在根本性缺陷,所以他提出了基于V-JEPA架構(gòu)的世界模型。

這類模型不依賴語言文本,而是通過學(xué)習(xí)視頻和空間數(shù)據(jù)來理解物理世界,同時(shí)具備規(guī)劃、推理和長效記憶的能力。

以李飛飛為首的World Labs則聚焦空間智能,讓AI理解物體在三維空間中的關(guān)系、遮擋、透視和運(yùn)動(dòng)規(guī)律。

他們開發(fā)了能夠從2D圖像推斷3D結(jié)構(gòu)的系統(tǒng),這條路線強(qiáng)調(diào)幾何一致性和物理合理性,對(duì)于機(jī)器人導(dǎo)航、操作等任務(wù)有直接的應(yīng)用價(jià)值。

谷歌DeepMind的Genie則代表了另一種思路,訓(xùn)練一個(gè)能從圖像和文本生成可交互虛擬世界的模型。

目前最新的Genie3通過給定一段文本描述,就能生成相應(yīng)的3D環(huán)境,這種方法通過創(chuàng)造多元訓(xùn)練環(huán)境,讓AI在其中學(xué)習(xí)物理規(guī)律和互動(dòng)策略。

從技術(shù)實(shí)現(xiàn)的角度分析:

楊立昆的方向最理想化,但也最難落地

李飛飛的方式成本高,3D生成也存在對(duì)物理原理的理解缺失;

谷歌Genie的思路目前可執(zhí)行性最高,也少不了仿真模擬到現(xiàn)實(shí)的Gap。

在這場外國玩家引領(lǐng)的世界模型激戰(zhàn)里,中國玩家并不是坐在場邊圍觀,而是早早地開始進(jìn)行可操作的工程執(zhí)行。

2024年12月,星動(dòng)紀(jì)元了發(fā)布融合世界模型的算法框架VPP,這也是全球首個(gè)將世界模型與VLA框架深度融合的算法。

星動(dòng)紀(jì)元在VPP里選用的世界模型思路跟谷歌2024年推出的Genie1相似,主打用視頻訓(xùn)練 AI 來理解世界,因?yàn)橐恢币詠砘ヂ?lián)網(wǎng)視頻都是機(jī)器人數(shù)據(jù)的重要來源。

通過視頻擴(kuò)散模型的預(yù)測視覺表征作為機(jī)器人策略的輸入,星動(dòng)紀(jì)元團(tuán)隊(duì)首次在生成式視頻模型上實(shí)現(xiàn)通用機(jī)器人策略。

除了幫助機(jī)器人理解物理世界外,世界模型的引入也降低了機(jī)器人學(xué)習(xí)的難度,同時(shí)也能作為一種監(jiān)督和提前預(yù)知的未來,觀察機(jī)器人的策略學(xué)習(xí)效果。

讓機(jī)器人直接去執(zhí)行指令可能會(huì)損壞機(jī)器,同時(shí)整個(gè)檢測的復(fù)雜度也會(huì)上升,通過先驗(yàn)經(jīng)驗(yàn)預(yù)判,如果后續(xù)操作會(huì)失敗,機(jī)器人會(huì)選擇停止策略。

2025年10月,星動(dòng)紀(jì)元也聯(lián)合PI團(tuán)隊(duì)發(fā)布論文Ctrl-World,首次提出可控生成式世界模型,突破了傳統(tǒng)世界模型的單視角幻覺、動(dòng)作控制不精細(xì)、長時(shí)一致性差三大瓶頸。

對(duì)于當(dāng)下而言,世界模型更像輔助VLA模型提升綜合性能的一項(xiàng)技術(shù)工具。

但隨著技術(shù)路徑的不斷收斂,VLA模型的不斷提升,包括科研成果的進(jìn)一步落地,世界模型很有可能會(huì)成為繼VLA之后的具身智能新的主流范式。

強(qiáng)化學(xué)習(xí),從模仿經(jīng)驗(yàn)到自主進(jìn)化

當(dāng)VLA模型解決了能動(dòng)的問題,世界模型補(bǔ)齊了能預(yù)判的短板,具身智能的下一個(gè)核心訴求,就是能優(yōu)化。

而強(qiáng)化學(xué)習(xí),正是實(shí)現(xiàn)這一訴求的關(guān)鍵技術(shù),也是當(dāng)前具身智能研究中備受關(guān)注的熱點(diǎn)領(lǐng)域。

它與VLA、世界模型形成完美互補(bǔ):

VLA賦予機(jī)器人感知與理解的能力

世界模型賦予機(jī)器人預(yù)測與想象的能力

強(qiáng)化學(xué)習(xí)賦予機(jī)器人增強(qiáng)學(xué)習(xí)與優(yōu)化的能力

強(qiáng)化學(xué)習(xí)的核心邏輯并不復(fù)雜,本質(zhì)上是模擬人類試錯(cuò)學(xué)習(xí)的過程。

通過試錯(cuò)-獎(jiǎng)勵(lì)的閉環(huán)機(jī)制,讓機(jī)器人自主探索動(dòng)作策略,最終讓模型逐漸收斂到最優(yōu)策略。

這種學(xué)習(xí)模式的最大優(yōu)勢的在于,無需依賴海量的專家演示數(shù)據(jù),也無需人工設(shè)計(jì)動(dòng)作規(guī)則,機(jī)器人能通過自主探索適應(yīng)未知場景,甚至發(fā)現(xiàn)人類未曾想到的高效策略。

早在2016年,AlphaGo憑借強(qiáng)化學(xué)習(xí)擊敗人類圍棋世界冠軍,就讓這項(xiàng)技術(shù)名聲大噪,但在具身智能領(lǐng)域,強(qiáng)化學(xué)習(xí)的落地卻長期面臨瓶頸。

早期機(jī)器人的硬件成本高昂,強(qiáng)化學(xué)習(xí)的試錯(cuò)過程容易導(dǎo)致設(shè)備損耗,且真實(shí)環(huán)境中的變量復(fù)雜,難以設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù),導(dǎo)致強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域的應(yīng)用多局限于虛擬仿真場景。

最近一年,隨著VLA和世界模型的發(fā)展,以及強(qiáng)化學(xué)習(xí)算法的優(yōu)化,這項(xiàng)技術(shù)再次成為具身智能領(lǐng)域的研究熱點(diǎn)。

同時(shí),這一輪強(qiáng)化學(xué)習(xí)的熱潮,也離不開強(qiáng)化學(xué)習(xí)權(quán)威、Physical Intelligence創(chuàng)始人Sergey Levine的推動(dòng)。

他帶領(lǐng)團(tuán)隊(duì)發(fā)布的一系列成果,不僅驗(yàn)證了強(qiáng)化學(xué)習(xí)與VLA結(jié)合的潛力,更重塑了行業(yè)對(duì)具身智能訓(xùn)練范式的認(rèn)知。

Sergey Levine的研究重心之一是離線強(qiáng)化學(xué)習(xí),即利用已有的歷史數(shù)據(jù)訓(xùn)練模型,無需機(jī)器人在真實(shí)環(huán)境中實(shí)時(shí)試錯(cuò),從而避免了設(shè)備損耗和安全風(fēng)險(xiǎn),大幅降低了訓(xùn)練成本。

其團(tuán)隊(duì)最新發(fā)布的π*0.6模型,展現(xiàn)了VLA模型性能的又一個(gè)新高,甚至在Robot Olympic完成了剝橘子、翻襪子、拿鑰匙開鎖等高難度動(dòng)作。

但π*0.6也反映出強(qiáng)化學(xué)習(xí)領(lǐng)域的一個(gè)核心痛點(diǎn),那就是獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)難度太高。

復(fù)雜任務(wù)中,單個(gè)動(dòng)作的價(jià)值難以量化,且不同場景下的獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差異巨大,所以π*0.6模型不得不引入監(jiān)督學(xué)習(xí)的范式輔助訓(xùn)練,沒有完全發(fā)揮強(qiáng)化學(xué)習(xí)自主探索的優(yōu)勢。

這一局限也讓工程師們意識(shí)到,離線強(qiáng)化學(xué)習(xí)雖成本可控、安全性高,卻難以應(yīng)對(duì)訓(xùn)練數(shù)據(jù)之外的未知場景,泛化能力不足,需要引入在線強(qiáng)化學(xué)習(xí),通過實(shí)時(shí)環(huán)境反饋動(dòng)態(tài)優(yōu)化策略。

在這個(gè)技術(shù)發(fā)展階段,中國團(tuán)隊(duì)的技術(shù)突破展現(xiàn)出了獨(dú)特的價(jià)值。

星動(dòng)紀(jì)元2025年5月發(fā)布的iRe-VLA框架,實(shí)現(xiàn)了全球首次將在線強(qiáng)化學(xué)習(xí)融入VLA模型,為解決強(qiáng)化學(xué)習(xí)的核心痛點(diǎn)提供了突破性解法。

該框架通過算法優(yōu)化,在保證實(shí)時(shí)反饋的同時(shí),將試錯(cuò)風(fēng)險(xiǎn)和設(shè)備損耗降低到可接受范圍,讓機(jī)器人能在真實(shí)環(huán)境中自主探索、動(dòng)態(tài)優(yōu)化動(dòng)作策略。

更值得一提的是,iRe-VLA的核心思路,成為π*0.6模型強(qiáng)化學(xué)習(xí)模塊的重要參考來源之一。

LLM和具身在RL上的區(qū)別

在iRe-VLA發(fā)布同時(shí)期,中國玩家靈初智能發(fā)布了分層端到端VLA+強(qiáng)化學(xué)習(xí)算法模型Psi-R1,R1能夠讓機(jī)器人基于CoAT框架的自主推理系統(tǒng),攻克了開放場景下的長程復(fù)雜任務(wù)挑戰(zhàn)。

2025年11月,由智元推出的,全球首個(gè)具身智能機(jī)器人真機(jī)強(qiáng)化學(xué)習(xí)技術(shù)正式投入上海一家智能設(shè)備產(chǎn)線,將機(jī)器人訓(xùn)練周期從數(shù)周縮短至十幾分鐘,任務(wù)完成率達(dá)到100%。

中國玩家在強(qiáng)化學(xué)習(xí)這一波浪潮里,并不是追隨者,而是貢獻(xiàn)者,不僅有學(xué)術(shù)成果的實(shí)際影響力,更有早于國外玩家的協(xié)同的產(chǎn)業(yè)落地。

回顧大語言模型的發(fā)展,一個(gè)深刻的教訓(xùn)是,早期洞察并不等于最終成功,從理論認(rèn)識(shí)到產(chǎn)業(yè)領(lǐng)先之間,有著漫長的工程化、產(chǎn)品化和生態(tài)化之路。

如今,在具身智能這一被認(rèn)為是物理AI下一個(gè)突破口的領(lǐng)域,中國團(tuán)隊(duì)在各個(gè)關(guān)鍵技術(shù)點(diǎn)上已展現(xiàn)出與全球同行并跑的態(tài)勢。

具身智能的競爭,本質(zhì)上是原創(chuàng)能力與落地效率的雙重競爭,更是話語權(quán)的競爭。

要拒絕LLM式遺憾,我們需要做好兩件事:

一是加強(qiáng)學(xué)術(shù)成果的市場化傳播,讓中國團(tuán)隊(duì)的技術(shù)創(chuàng)新被行業(yè)看見、被市場認(rèn)可,打破國外團(tuán)隊(duì)對(duì)賽道話語權(quán)的壟斷。

二是加速技術(shù)落地迭代,通過真實(shí)場景的應(yīng)用反饋優(yōu)化技術(shù),形成學(xué)術(shù)創(chuàng)新-產(chǎn)業(yè)落地-迭代升級(jí)的閉環(huán),讓原創(chuàng)成果真正轉(zhuǎn)化為產(chǎn)品競爭力。

歷史不會(huì)簡單重復(fù),但會(huì)押著相似的韻腳。但至少現(xiàn)在成功概率,中美玩家都是五五開。

       原文標(biāo)題 : 具身智能,是時(shí)候跳出“中國先研,國外帶火”的怪圈了

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)