訂閱
糾錯
加入自媒體

Lex Fridman硬核訪談,5萬字2026 AI全景報告

圖片

作者|林易

編輯|重點君

2月1日,知名科技播客博主Lex Fridman與兩位機(jī)器學(xué)習(xí)領(lǐng)域的重量級嘉賓開展了一場深度對話。Sebastian Raschka是知名機(jī)器學(xué)習(xí)研究員與教育家,Nathan Lambert是艾倫人工智能研究所(AI2)的后訓(xùn)練負(fù)責(zé)人,同時也是RLHF領(lǐng)域的權(quán)威專家。兩位嘉賓恰好代表了當(dāng)前AI領(lǐng)域的兩大核心關(guān)切:原理與技術(shù)路線。

這場長達(dá)數(shù)小時的硬核訪談信息密度極高,既是對過去一年AI技術(shù)突破的復(fù)盤,更是對2026年技術(shù)風(fēng)向的深度預(yù)判。我們給你劃下重點:

第一,關(guān)于中美AI競爭:2025年的最大變量是DeepSeek時刻,中國公司在開源權(quán)重模型上已占據(jù)主導(dǎo)地位。

2025年1月發(fā)布的DeepSeek R1被視為中美AI競爭的分水嶺,該模型以更低的算力成本達(dá)到了接近最先進(jìn)(SOTA)的性能,震驚了業(yè)界。Nathan Lamber說,在開源模型方面表現(xiàn)強(qiáng)勢。DeepSeek、阿里Qwen、MiniMax、Kimi等公司發(fā)布了大量高性能開源模型,贏得了開源社區(qū)的青睞。

相比之下,美國曾經(jīng)的開源標(biāo)桿Llama卻在這一年迷失了方向。Sebastian Raschka說,Meta試圖通過構(gòu)建巨大的Llama 4模型在基準(zhǔn)測試中擊敗ChatGPT,但陷入刷榜陷阱,忽略了AI領(lǐng)域真正需要的是輕量級、可用的模型。這導(dǎo)致Llama留下的生態(tài)空白正在被中國的開源模型迅速填補。

第二,主要AI實驗室與模型現(xiàn)狀:Anthropic最有序,OpenAI內(nèi)部混亂,Meta開源策略可能動搖。

Anthropic:Claude Opus4.5是當(dāng)前頂流,特別是在編程方面表現(xiàn)出色,深受開發(fā)者喜愛。Anthropic組織最有序、最不混亂。

Google:Gemini 3 雖發(fā)布時營銷聲量不如對手,但性能極其強(qiáng)大。Google的優(yōu)勢在于擁有完整的全棧垂直整合能力(TPU芯片、云計算、模型、應(yīng)用),利潤率極高,不依賴英偉達(dá)的高價GPU芯片。

OpenAI:盡管內(nèi)部混亂,但仍具有極強(qiáng)的交付能力。GPT-5系列(包括o1/o3推理模型)通過推理時計算節(jié)省了大量成本,并定義了新范式。

Meta:LLaMA系列似乎面臨內(nèi)部政治和激勵問題,未來是否會有開源的LLaMA5存疑,Meta的開源策略可能在動搖。

第三,關(guān)于技術(shù)范式轉(zhuǎn)移:預(yù)訓(xùn)練的紅利正在消退,AI技術(shù)戰(zhàn)場轉(zhuǎn)向后訓(xùn)練和RLVR。

Nathan Lamber認(rèn)為,預(yù)訓(xùn)練已經(jīng)變得極其昂貴且邊際效益遞減,而現(xiàn)在的模型能力提升重點源自后訓(xùn)練階段的創(chuàng)新。2025年最大的技術(shù)突破是帶有可驗證獎勵的強(qiáng)化學(xué)習(xí)(RLVR)。這徹底改變了模型的訓(xùn)練方式。

傳統(tǒng)的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)更多是調(diào)整模型的語氣和風(fēng)格,屬于微調(diào)偏好,容易觸及天花板。RLVR則是讓模型在數(shù)學(xué)、代碼等有客觀答案的領(lǐng)域進(jìn)行大規(guī)模試錯。通過“生成-評分”的迭代循環(huán),模型能像人類學(xué)生一樣,在數(shù)萬次的練習(xí)中自我修正,從而解鎖預(yù)訓(xùn)練中已有的知識。

預(yù)訓(xùn)練是計算密集型(算力受限),而后訓(xùn)練階段的RLVR則更像是內(nèi)存密集型(內(nèi)存受限),更看重GPU的運行時間而非單純的算力堆疊。

第四,關(guān)于AI編程:AI催生Vibe Coding,軟件工程正從寫代碼轉(zhuǎn)向系統(tǒng)設(shè)計。

AI對編程領(lǐng)域的重塑遠(yuǎn)超預(yù)期。Vibe Coding讓開發(fā)者不再糾結(jié)于具體的代碼細(xì)節(jié),而是通過自然語言描述需求,快速生成并修改代碼Diffs。在這種模式下,人類的角色從代碼編寫者轉(zhuǎn)變?yōu)橄到y(tǒng)設(shè)計師和審查者。

Nathan Lambert預(yù)測,隨著AI能力的提升,軟件開發(fā)將變得高度工業(yè)化。雖然完全自動化的超級智能編程因數(shù)據(jù)分布的參差不齊而難以在短期內(nèi)完美實現(xiàn),但工具的門檻正在急劇降低。未來,一個不懂底層代碼的人,只要擁有清晰的系統(tǒng)設(shè)計思維,利用Claude Code或Cursor等工具,就能構(gòu)建出復(fù)雜的軟件系統(tǒng)。

第五,關(guān)于Scaling Laws:規(guī)模定律并沒有失效,但維度變得更加豐富了。

針對AI發(fā)展是否遇到瓶頸的質(zhì)疑,嘉賓們給出了否定的回答。Nathan Lambert認(rèn)為,Scaling Laws依然是技術(shù)發(fā)展的基石,但現(xiàn)在的擴(kuò)展已從單一的預(yù)訓(xùn)練規(guī)模分裂為三個維度:

傳統(tǒng)規(guī)模定律:繼續(xù)堆疊模型參數(shù)和數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)規(guī)模:可以進(jìn)行多長時間的試錯學(xué)習(xí)。

推理側(cè)算力:讓模型在回答前思考更久,生成更多的思維鏈Token。

這種多維度的擴(kuò)展策略,使得科技巨頭們在2026年依然敢于投入數(shù)百億美元建設(shè)吉瓦級規(guī)模的算力集群。Sebastian Raschka形象地比喻:在一個擁有無限算力的理想世界里,你會把這三個維度的旋鈕全部拉滿;但在現(xiàn)實中,這變成了一場關(guān)于性價比的權(quán)衡游戲,大公司需要考慮是花1億美元訓(xùn)練更大的模型,還是花200萬美元做推理側(cè)擴(kuò)展。

第六,關(guān)于AGI的終局:單一通用模型的夢想已經(jīng)破滅,未來屬于多智能體與專業(yè)化模型。

對于未來,嘉賓們打破了一個全能模型統(tǒng)治世界的幻想。Nathan Lambert認(rèn)為,未來的AI生態(tài)不會是贏家通吃,而是一個分工明確的系統(tǒng)。

未來不會依賴一個單一的ChatGPT去處理所有事務(wù),而是會有專門負(fù)責(zé)法律、醫(yī)療、編程的垂直模型,F(xiàn)實正在演變?yōu)槿藗冡槍Σ煌蝿?wù)調(diào)用不同的Agent。未來的數(shù)據(jù)中心里,將是許多專門的AGI在相互交流、管理和執(zhí)行任務(wù)。

 

圖片

  以下為Lex Fridman播客訪談實錄:

1、中國 vs 美國:誰將贏得 AI 競賽?

Lex Fridman:以下是一場關(guān)于人工智能前沿動態(tài)的對話,涵蓋了過去一年AI領(lǐng)域激動人心的突破,以及我們對未來一年的展望。雖然內(nèi)容有時會涉及深度的專業(yè)技術(shù),但我們力求讓非專業(yè)人士也能聽懂,同時絕不降低內(nèi)容的專業(yè)深度。我很榮幸能邀請到AI社區(qū)中我最喜歡的兩位嘉賓:Sebastian Raschka 和 Nathan Lambert。他們都是備受尊敬的機(jī)器學(xué)習(xí)研究員、工程師,同時也是優(yōu)秀的傳播者、教育者和作家。Sebastian著有兩本我強(qiáng)烈推薦給初學(xué)者和專家的書:第一本是《從零開始構(gòu)建大語言模型》(Build a Large Language Model From Scratch),另一本是《從零開始構(gòu)建推理模型》(Build a Reasoning Model From Scratch)。我堅信在機(jī)器學(xué)習(xí)和計算機(jī)科學(xué)領(lǐng)域,學(xué)習(xí)并理解某項事物的最佳方式就是親手從零開始構(gòu)建它。Nathan是艾倫人工智能研究所的后訓(xùn)練負(fù)責(zé)人,也是關(guān)于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)權(quán)威著作的作者。

Lex Fridman:讓我們從“DeepSeek時刻”這個視角切入。這大約發(fā)生在一年前的2025年1月,當(dāng)時中國公司DeepSeek發(fā)布了開放權(quán)重的DeepSeek R1。我認(rèn)為可以公平地說,它以更少的算力和更低廉的價格,達(dá)到了接近或持平SOTA(最先進(jìn))的性能,驚艷了所有人。從那時起到今天,AI領(lǐng)域的競爭在研究和產(chǎn)品層面都變得異常激烈,這種趨勢一直在加速。讓我們今天探討所有這些話題。首先我想問一個尖銳的問題:在國際層面上誰處于領(lǐng)先地位?是中國的一系列公司,還是美國的公司?Sebastian,你認(rèn)為誰是贏家?

Sebastian Raschka:“贏”這個詞涵蓋面很廣。既然你提到了DeepSeek時刻,我確實認(rèn)為DeepSeek通過分享開源模型,絕對贏得了那些致力于開放權(quán)重模型(open weight models)的人們的心。我認(rèn)為“贏”包含多個時間尺度:當(dāng)下、明年,還有十年后。我唯一可以肯定的是,我不認(rèn)為到了2026年的今天,還會存在哪家公司能掌握其他公司無法觸及的獨占技術(shù)。主要原因是研究人員頻繁地更換工作和實驗室,人才在不斷流動。因此,我不認(rèn)為在技術(shù)獲取層面會有明顯的贏家。然而,差異化因素將體現(xiàn)在預(yù)算和硬件限制上。這些創(chuàng)意本身并非專利,實現(xiàn)這些創(chuàng)意的方式和資源才是關(guān)鍵。所以,目前我看不到一個“贏家通吃”的局面。

Lex Fridman:Nathan,你怎么看?

Nathan Lambert:你可以看到各個實驗室在目標(biāo)投入上存在差異。為了標(biāo)記我們錄制的時間點,目前針對Anthropic的Claude Opus 4.5模型的炒作簡直瘋狂。我在過去幾周一直用它構(gòu)建東西,它的熱度甚至有點像個“梗”了。這很有趣,因為這種熱度非常自然。如果我們回到幾個月前,Google發(fā)布Gemini 3時的營銷手段和驚艷程度都非常高。但隨后11月底Claude Opus 4.5發(fā)布,熱度一路攀升,感覺大家對Gemini 3的討論反而沒那么多了,盡管它剛推出時被視為Google奪回AI架構(gòu)優(yōu)勢的時機(jī)。Gemini 3依然是一款出色的模型,我目前仍在使用它,只是其差異化程度較低。

我同意Sebastian的觀點,創(chuàng)意空間是非常流動的。但在文化層面上,Anthropic以敢于在代碼能力(即Claude Code)上重注而聞名,目前效果很不錯。所以我認(rèn)為,即使想法可以自由流動,但很大程度上仍然受限于人力投入以及組織的文化氛圍。Anthropic目前看起來是表現(xiàn)得最不混亂的,這算是一個小小的優(yōu)勢。另一方面,在技術(shù)層面,中國有很多令人驚嘆的技術(shù)。除了DeepSeek之外,還有更多的實驗室。DeepSeek在中國引發(fā)了一場運動,類似于ChatGPT在美國引發(fā)的浪潮,當(dāng)時所有產(chǎn)品都加上了聊天機(jī)器人,F(xiàn)在中國有大量科技公司正在發(fā)布實力強(qiáng)勁的前沿開源權(quán)重模型,以至于我會說DeepSeek在某種程度上正在失去其作為中國卓越開源模型制作者的桂冠,像智譜AI的GLM模型、MiniMax的模型以及月之暗面(Kimi),尤其是在過去幾個月里,表現(xiàn)得更加出色。

Lex Fridman:所以像DeepSeek這樣的一些模型因為開源權(quán)重而受到了大眾的喜愛。你認(rèn)為中國公司發(fā)布開放權(quán)重模型的策略會堅持多久?

Nathan Lambert:我認(rèn)為會持續(xù)幾年。就像在美國一樣,目前還沒有一個清晰的商業(yè)模式。我寫關(guān)于開放模型的文章有一段時間了,中國公司也意識到了這一點。他們很聰明,也看到了同樣的限制:許多美國頂尖科技公司出于安全擔(dān)憂,不會購買中國公司的API訂閱服務(wù)。這在技術(shù)領(lǐng)域是長期存在的習(xí)慣。因此,這些公司的從業(yè)者將開放權(quán)重模型視為一種能力,以此來通過這種方式參與到美國巨大且不斷增長的AI支出市場中。他們對此有著非常務(wù)實的認(rèn)識,而且這對他們很有效。但是開發(fā)這些模型非常昂貴,所以我預(yù)計在某個時間點會出現(xiàn)整合,但我不認(rèn)為這會發(fā)生在2026年。2026年開放模型構(gòu)建者的數(shù)量將比2025年更多,而且其中許多著名的構(gòu)建者將來自中國。

Lex Fridman:Sebastian,你剛才想補充什么嗎?

Sebastian Raschka:是的。你提到DeepSeek失去領(lǐng)先地位,我在某種程度上認(rèn)同,但也必須考慮到,我認(rèn)為他們?nèi)匀惶幱谖⑷醯念I(lǐng)先地位。其他模型的情況并非是DeepSeek變差了,而是其他模型正在借鑒DeepSeek的思路。例如你提到的Kimi,采用了相同的架構(gòu)進(jìn)行訓(xùn)練。我們再次看到了這種“跳躍式領(lǐng)先”的情況:一個人發(fā)布了某個東西,另一個緊隨其后。最新的模型往往就是最好的模型。我認(rèn)為這又回到了那個事實,不會有一個絕對的贏家。

Nathan Lambert:是的。我們還會看到中國公司有著不同的激勵機(jī)制。比如DeepSeek非常神秘,而其他一些初創(chuàng)公司則不同,像MiniMax和零一萬物(01.AI)這類公司已經(jīng)提交了IPO文件,正努力爭取西方市場的關(guān)注,并在那里進(jìn)行了大量推廣。DeepSeek是由幻方量化(Highflyer Capital)這家對沖基金創(chuàng)立的,我們并不確切知道他們將這些模型用于什么,或者他們是否在意商業(yè)化。

Lex Fridman:他們在溝通方面很神秘,但在描述模型工作原理的技術(shù)報告方面并不保守,在這方面他們?nèi)匀槐3珠_放。我們還應(yīng)該談?wù)剬laude Opus 4.5的炒作。這其中包含了一些層面,即它作為X(原Twitter)信息繭房里的寵兒的熱度,與實際使用該模型的人數(shù)之間存在差距。我認(rèn)為可以公平地說,ChatGPT和Gemini專注于那些僅僅想使用工具解決日常問題的廣泛用戶群體,那個群體非常龐大。所以關(guān)于編程能力的炒作可能并不能完全代表實際的大眾使用情況。

Sebastian Raschka:很多使用模式也是出于知名度和品牌,同時也形成了一種肌肉記憶。ChatGPT已經(jīng)存在很長時間了,人們習(xí)慣了使用它,這像一種飛輪效應(yīng)。還有一個有趣的觀點是LLM的定制化。例如ChatGPT有記憶功能,你可能有一個訂閱用于處理個人事務(wù),但你不一定想在工作中使用同一個賬號。因為私人生活和工作之間存在界限。我認(rèn)為這也是一個有趣的切入點,你可能會擁有多個訂閱:一個只用于編寫純凈的代碼,不包含任何個人照片或愛好;另一個則是你個人的東西。我認(rèn)為未來會是多個并存的。

2、ChatGPT vs Claude vs Gemini vs Grok:誰正在領(lǐng)先?

Lex Fridman:你認(rèn)為哪個模型贏得了2025年?又有哪些模型將贏得2026年?

Nathan Lambert:在消費級聊天機(jī)器人的語境下,問題在于你是否愿意押注Gemini而非ChatGPT。直覺告訴我,這似乎是一個有點冒險的賭注,因為OpenAI一直是該領(lǐng)域的領(lǐng)先者,這在科技行業(yè)會帶來諸多優(yōu)勢。回顧2025年,勢頭似乎在Gemini這邊,但我認(rèn)為他們當(dāng)時的起點太低了。愿Bard以及那些早期的嘗試安息吧。他們能克服組織內(nèi)部的混亂并實現(xiàn)這一目標(biāo),確實值得稱贊。但與此同時,也很難去賭OpenAI會輸。因為他們雖然表面上顯得混亂,但非常擅長讓項目落地。就我個人而言,我對GPT-5的評價褒貶不一,但它肯定通過高端線路功能的路由機(jī)制為他們節(jié)省了大量資金,即大多數(shù)用戶不再像以前那樣消耗昂貴的GPU資源了。

Lex Fridman:你對2026年怎么看?誰會勝出?

Nathan Lambert:盡管有風(fēng)險,我還是要說,我認(rèn)為Gemini將繼續(xù)追趕ChatGPT的進(jìn)展。當(dāng)兩者都以如此極端的規(guī)模運行時,Google的規(guī)模優(yōu)勢在于它能夠更好地將研究與產(chǎn)品分開。而OpenAI在運營上常被傳非;靵y,一直在追求高影響力的事物,這是典型的創(chuàng)業(yè)公司文化。在軟件和企業(yè)端,我認(rèn)為Anthropic將會延續(xù)他們的成功。Google Cloud擁有豐富的產(chǎn)品線,Gemini這個品牌對他們的建設(shè)至關(guān)重要。Google Cloud將繼續(xù)保持良好的發(fā)展勢頭,但在生態(tài)系統(tǒng)中解釋清楚這一點會更加復(fù)雜,因為那是與Azure和AWS的競爭。

Lex Fridman:所以在基礎(chǔ)設(shè)施方面,你認(rèn)為TPU帶來了優(yōu)勢?

Nathan Lambert:很大程度上是因為NVIDIA芯片的利潤率高得離譜,而Google可以從上到下開發(fā)一切來適配他們的技術(shù)棧,不需要支付這部分利潤空間。而且他們在建設(shè)數(shù)據(jù)中心方面擁有先發(fā)優(yōu)勢。因此,在這些既需要漫長前置時間,又有著極高利潤門檻的領(lǐng)域,Google擁有一種歷史性的優(yōu)勢。如果將出現(xiàn)新的范式,它最有可能來自O(shè)penAI,因為他們的研究部門一次又一次地證明了這一點,比如Deep Research、Sora、o1推理模型。這種落地全新研究理念或產(chǎn)品的能力是OpenAI的核心特質(zhì)。很難賭他們會輸,但我認(rèn)為今年的重點將很大程度上圍繞規(guī);⊿caling)和優(yōu)化模型中那些“垂手可得的果實”。

Lex Fridman:顯然,在智能與速度之間存在權(quán)衡。這就是ChatGPT-5在幕后試圖解決的問題。廣大公眾到底是想要智能,還是想要速度?

Sebastian Raschka:我覺得這實際上是一個很棒的多樣化選擇。就我個人的使用習(xí)慣而言,大多數(shù)時候當(dāng)我查閱某些內(nèi)容時,我會用ChatGPT問一個簡單的問題,快速獲取信息。對于大多數(shù)日常任務(wù),我會使用快速模型,F(xiàn)在自動模式已經(jīng)做得相當(dāng)不錯了。但有時我也想要Pro模式。例如當(dāng)我寫好東西后,我會把它放入ChatGPT并說:“做一個非常徹底的檢查。我的所有引用、想法、格式都正確嗎?”這種情況下我不需要立即得到答案,可以讓它運行著,回頭再看。這就是擁有這種選項的重要性。如果每個查詢都要讓我等30分鐘甚至10分鐘,我一定會瘋掉的。

Nathan Lambert:那就是我。我坐在這兒簡直要瘋了,你居然還在用路由模式和非思考模型(non-thinking models)。我心想:“你是怎么受得了那種東西的?”我已經(jīng)重度使用ChatGPT很長時間了,從來沒碰過非思考模型。我覺得它的語氣和出錯的概率似乎更高。這可以追溯到OpenAI發(fā)布o(jì)3的時候,那是第一個能夠進(jìn)行深度搜索、整合多個來源的模型。我已經(jīng)習(xí)慣了那樣。所以在處理工作信息查詢時,我只會使用GPT-5.2 Thinking或Pro版本。我經(jīng)常會同時進(jìn)行五個Pro查詢,尋找特定的論文或代碼參考。

Sebastian Raschka:我有一個有趣的例子,當(dāng)時我只需要盡快得到答案。在這次旅行之前的播客中,我家里運行著一個本地GPU,我想運行一個長時間的RL(強(qiáng)化學(xué)習(xí))實驗。通常我會拔掉電源,但我如果不小心拔掉了GPU電源,當(dāng)時我妻子已經(jīng)在車?yán)锏戎,我心想?ldquo;噢,糟了。”我想要以最快的速度寫出一個Bash腳本,用來運行不同的實驗和評估。我知道怎么用Bash終端,但在那一刻我只需要大概10秒鐘把命令給我。所以我用了不帶思考過程的最快模型。它給了我Bash命令,我需要將不同的腳本串聯(lián)在一起,這就解決了問題。

Nathan Lambert:我用Gemini處理這類需求。我會用思考模型處理所有信息類事務(wù),然后用Gemini處理追求速度的任務(wù),或者那些通過Google搜索能更好解釋的內(nèi)容。Gemini應(yīng)用也變得好多了。對于代碼和任何形式的哲學(xué)討論,我會使用Claude Opus 4.5,而且總是開啟擴(kuò)展思考(extended thinking)。擴(kuò)展思考和推理時間擴(kuò)展(inference time scaling)只是讓模型變得稍微更聰明一點的方式。然后有時我會使用Grok來獲取實時信息,或者在AI Twitter上尋找內(nèi)容。Grok-4 Super Heavy發(fā)布時表現(xiàn)非常出色,但我后來因為習(xí)慣用ChatGPT App就慢慢把它忘了。

Lex Fridman:是的,我確實也在用Grok-4 Heavy用于調(diào)試。對于那些其他模型無法解決的硬核調(diào)試問題,我發(fā)現(xiàn)它是最擅長的。這很有趣,因為你說ChatGPT是最好的界面,對我來說Gemini是更好的界面。我想是因為我愛上了它們最出色的“大海撈針”(needle in the haystack)能力。如果我放入包含大量上下文的內(nèi)容并尋找非常具體的信息,Gemini一直表現(xiàn)最好。這就像有一種閾值效應(yīng):你會堅持使用一個模型,直到它做了一件蠢事,然后你就會換個工具。

Sebastian Raschka:沒錯,你會一直使用它直到它出故障。就像我們使用瀏覽器一樣,你不會在不同瀏覽器中輸入同一個網(wǎng)址對比,除非網(wǎng)頁無法渲染。關(guān)于長上下文,我之前也是為了這個功能使用Gemini,但GPT-4o發(fā)布時展示了驚人的長上下文評分提升。現(xiàn)在我更看好GPT-5.2的長上下文。

3、最適合編程的AI

Lex Fridman:我們還沒怎么提到編程。那是另一個很多人非常關(guān)注的使用場景。所以我基本上是一半一半地在使用Cursor和Claude Code。你們呢?

Sebastian Raschka:我用的是VSCode的Codex插件。它非常方便,就像一個可以訪問你代碼庫的聊天界面。我知道Claude Code似乎有點不同,它更具智能體(agentic)特征,能為你完成整個項目。我目前還沒到能完全放心使用它的程度,也許是因為我有控制欲,我希望能看到具體發(fā)生了什么。Cursor對我來說目前處于一個恰到好處的平衡點,它在幫助我,但沒有完全取代我的工作。

Lex Fridman:我使用Claude寫代碼的原因之一是為了培養(yǎng)用英語編程的能力。這種體驗從根本上是不同的。你不再是微觀管理代碼生成的細(xì)節(jié),而是查看diff。如果你使用Cursor這種IDE,你可以看到修改和變更代碼時的差異。去觀察、閱讀并深入理解代碼,而不是僅僅停留在設(shè)計層面進(jìn)行宏觀引導(dǎo),這是思考編程過程的另一種方式。Claude Code似乎更好地利用了Claude 3.5 Opus。

Nathan Lambert:這對人們來說是一個很好的并排對比。你可以同時打開Claude Code、Cursor和VSCode,選擇相同的模型并提出問題。Claude在代碼能力那個領(lǐng)域要出色得多。

Lex Fridman:好的,我們應(yīng)該說明你們兩位在多個領(lǐng)域都是名副其實的專家,包括研究員、程序員、教育者以及作家。Nathan,希望你能很快出一本關(guān)于RLHF的書。

Nathan Lambert:已經(jīng)可以預(yù)訂了,而且有完整的數(shù)字預(yù)印本。我只是在為實體書做美化和更好的排版。

Lex Fridman:Sebastian Raschka是一位機(jī)器學(xué)習(xí)研究員和作家,出版了多本具有影響力的書籍。其中有兩本我想特別提一下:一本是我強(qiáng)烈推薦的《從零開始構(gòu)建大語言模型》,以及新書《從零開始構(gòu)建推理模型》。我感到非常興奮,因為從頭開始構(gòu)建東西是學(xué)習(xí)最有效的方式之一。

Sebastian Raschka:說實話,從頭開始構(gòu)建一個LLM非常有趣。這也是一個學(xué)習(xí)很多東西的過程。正如你所說,這可能是了解事物真實運作機(jī)制的最佳方式。你可以看圖表,但圖表可能會有錯誤;你可以看概念,但可能會誤解。但如果你看到代碼并且能運行,你就知道它是正確的,它是精確的。這就是編程背后的魅力,它不會撒謊。即使是數(shù)學(xué),我認(rèn)為書里也可能存在你永遠(yuǎn)察覺不到的錯誤。因為你在讀書時并沒有實際運行那些數(shù)學(xué)計算,所以無法去驗證它。而代碼的優(yōu)勢就在于,你可以動手驗證。

Lex Fridman:沒錯,我同意你關(guān)于《LLM From Scratch》這本書的看法。屏蔽掉互聯(lián)網(wǎng)等一切干擾,全身心投入到書本中,這種感覺確實很好。但是,我也讀過一些書,比如歷史書。某種程度上,讀書讓你不再感到孤獨,這真的更有趣。不過在編程方面,我認(rèn)為與LLM一起編程確實更有意思。其實我認(rèn)為與LLM一起閱讀也更有趣。你說得對。不過這種干擾應(yīng)該被降到最低。也就是說,你是利用LLM來從根本上豐富體驗,通過它增加更多的上下文。也許吧。我只是覺得,在小規(guī)模應(yīng)用上,LLM帶給我的“頓悟時刻”頻率真的很高。

Sebastian Raschka:確實如此。我也想修正一下我的觀點,我并不是建議完全不使用LLM。我建議的是分階段進(jìn)行:先進(jìn)行一輪離線、專注模式的學(xué)習(xí),這時候雖然我會記筆記,但我會努力克制住立即查閱資料的沖動;之后我會進(jìn)行第二輪。對我來說,以這種方式組織學(xué)習(xí)更有效。有時候問題在后續(xù)章節(jié)中自然會得到解答,而有時候,讓問題沉淀一下、多思考一會兒也會有所幫助。當(dāng)然,每個人的偏好不同。我強(qiáng)烈建議在閱讀書籍時使用LLM,只是對我而言,它不是首選步驟,更像是第二輪的復(fù)習(xí)工具。

Lex Fridman:作為一個建議,我的做法恰恰相反。我喜歡在開始時就使用LLM。我想先理清整個背景,比如了解我正要踏入的是一個什么樣的世界。但我會盡量避免從LLM的界面跳轉(zhuǎn)到Twitter或博客之類的網(wǎng)頁,因為那樣你就真的會陷入無底洞。你會讀到某人的觀點,或者看到關(guān)于某個特定話題的激烈爭論,突然間你就脫離了學(xué)習(xí)狀態(tài),進(jìn)入了互聯(lián)網(wǎng)和Reddit的領(lǐng)域。但如果你純粹是讓LLM為你提供“這件事為什么重要”的背景,以及大局觀是什么,這會非常有幫助。雖然有些書本身也很擅長搭建背景,但并不總是如此。

Nathan Lambert:這就是為什么我喜歡ChatGPT的桌面應(yīng)用,因為它把AI整合到了你的電腦工作中,你可以全身心投入其中,而不只是把它當(dāng)作雜亂無章的瀏覽器標(biāo)簽頁中的一個。我認(rèn)為Claude Code以及類似的特定工具在營造這種愉悅感方面做得很好。作為一種產(chǎn)品設(shè)計,它非常吸引人,充當(dāng)了一個讓你的AI走向世界的界面。Claude與OpenAI的Codex之間有一種難以言表的區(qū)別:Claude給人一種溫暖且引人入勝的感覺;而Codex雖然通常也同樣出色,但總讓人覺得在細(xì)節(jié)處理上稍微有點粗糙。相比之下,Claude Code讓構(gòu)建東西變得很有趣,尤其是從零開始的時候,你完全不用操心,因為你相信它一定能做出來。

這對搭建網(wǎng)站和類似的數(shù)據(jù)刷新工具非常有用。我用它來進(jìn)行數(shù)據(jù)分析。比如我的博客需要爬取Hugging Face的數(shù)據(jù),以便持續(xù)保存每個數(shù)據(jù)集和模型的下載量,F(xiàn)在我們有了這些數(shù)據(jù),Claude就像是說:“沒問題,我已經(jīng)利用這些數(shù)據(jù)做好了分析。”我當(dāng)時心想,這原本得花掉我好幾天的時間。我有足夠的局勢感知能力去判斷它生成的趨勢是合理的,并且可以去核查。這確實是一種美妙的交互界面,你擁有了一個中間層,而不必親自去處理那些維護(hù)Web項目時必須面對的底層繁瑣工作。

 

圖片

4、開源 vs 閉源 LLMs

Lex Fridman:好的。剛才我們討論了一系列關(guān)于閉源模型的話題。讓我們聊聊開源模型。跟我說說開源LLM的格局。哪些模型比較有趣?哪些讓你印象深刻,為什么?我們已經(jīng)提到了DeepSeek。

Nathan Lambert:你想看看我們憑記憶能說出多少個嗎?

Lex Fridman:來吧,不用看筆記。

Nathan Lambert:DeepSeek、Kimi、MiniMax、智譜AI(Zhipu AI)、面壁智能(ModelBest)。這就已經(jīng)是不少中國模型了。然后我們把Mistral AI、Gemma也加進(jìn)來。還有GPT-OSS,也就是ChatGPT相關(guān)的開源模型。實際上,NVIDIA也有一個非常酷的模型叫Nemotron 3。特別是在年底這段時間,涌現(xiàn)了很多東西。Qwen(通義千問)也是一個顯而易見的名字。你至少可以列出10個中國的和10個西方的模型。

OpenAI實際上也發(fā)布了他們的第一個開源模型——隔了很久,自GPT-2以來。這就是我當(dāng)時寫關(guān)于“OpenAI發(fā)布開源模型”的文章時所指的。當(dāng)時人們都說“別忘了GPT-2”,我覺得這很有趣,因為那完全是不同的時代了。但GPT-OSS實際上是一個非常強(qiáng)大的模型,并且能做到其他模型做得不太好的一些事情。

出于私心,我也想推介一些西方公司。在美國和歐洲都有完全開放的模型。我在艾倫人工智能研究所工作,我們一直在構(gòu)建OLMo,并發(fā)布了數(shù)據(jù)、代碼以及所有相關(guān)內(nèi)容,F(xiàn)在我們面臨著真正的競爭,人們正致力于發(fā)布所有內(nèi)容以便他人訓(xùn)練模型。例如基礎(chǔ)模型研究所(Institute for Foundation Models)推出的LM360,他們發(fā)布了K2模型。Apertus是一個瑞士的研究聯(lián)盟。Hugging Face推出了SmallLM,非常受歡迎。此外,NVIDIA的Nemotron也已經(jīng)開始發(fā)布數(shù)據(jù)。還有斯坦福大學(xué)的Marin社區(qū)項目,它建立了一套流程,讓人們可以通過提交GitHub issue來實現(xiàn)新想法,并使其在穩(wěn)定的語言建模棧中運行。所以在2024年,這個領(lǐng)域的名單要比以前豐富得多。我認(rèn)為這對于更多人參與進(jìn)來并理解語言模型是一件好事。

目前還沒有一家中國公司有類似的對應(yīng)機(jī)構(gòu)。我要指出的是,中國的開源語言模型往往規(guī)模大得多,這使得它們作為混合專家模型(MoE)具有更高的峰值性能。而許多我們非常喜歡的西方模型,無論是Gemma還是Nemotron,往往是來自美國的較小模型。不過這種情況正開始改變。Mistral Large 3在12月發(fā)布了,它是一個巨大的MoE模型,架構(gòu)與DeepSeek非常相似。還有一家名為Reka的初創(chuàng)公司。Nemotron和NVIDIA已經(jīng)預(yù)告了參數(shù)量遠(yuǎn)超1000億甚至達(dá)到4000億級別的MoE模型,將在2026年第一季度左右推出。所以我認(rèn)為,在“人們使用中國還是美國的開源模型”這一問題上的平衡狀態(tài),今年將會發(fā)生改變。這是我個人非常期待看到的。

Lex Fridman:首先,非常佩服你能叫出這么多名字。LLaMA是你命名的嗎?

Nathan Lambert:不是我。

Lex Fridman:好的。你能提到有哪些表現(xiàn)突出的有趣模型嗎?你剛才提到了Qwen3顯然是一個佼佼者。

Sebastian Raschka:這一年幾乎是以DeepSeek的兩個動作作為開端和結(jié)尾的:DeepSeek V3和R1。DeepSeek V3是在2024年12月發(fā)布的,R1緊隨其后。我喜歡它們的地方在于,它們總是在架構(gòu)上有一些有趣的微調(diào),這是其他公司所不具備的。

除此之外,如果你想選擇熟悉但性能非常出色的模型,Qwen3是個好選擇。另外我還提到了GPT-OSS。我認(rèn)為GPT-OSS的有趣之處在于,它算是第一個在訓(xùn)練時就充分考慮到“工具調(diào)用(Tool Use)”的公開權(quán)重模型。我確實認(rèn)為這在某種程度上是一種范式轉(zhuǎn)移,之前的生態(tài)系統(tǒng)尚未完全準(zhǔn)備好。

所謂“工具調(diào)用”,是指LLM能夠進(jìn)行網(wǎng)頁搜索,或者調(diào)用Python解釋器。我認(rèn)為這是一個巨大的突破。因為關(guān)于LLM最常見的抱怨之一就是“幻覺(Hallucinations)”。在我看來,解決幻覺問題的最佳方法之一,就是不要試圖讓模型總是去記憶信息或憑空捏造。對于數(shù)學(xué)問題,為什么不直接讓它使用計算器應(yīng)用或Python呢?如果我問LLM“誰贏得了1998年的世界杯?”,與其讓它去死記硬背,不如讓它完全通過搜索來回答。它會進(jìn)行工具調(diào)用來訪問Google,也許會找到FIFA官網(wǎng),然后告訴你“哦,是法國隊”。它能可靠地為你獲取信息。

所以我認(rèn)為這是一個巨大的突破,目前尚未被開源、開放權(quán)重生態(tài)系統(tǒng)充分利用。很多人不使用工具調(diào)用模式,首先是因為信任問題。你不想在自己的電腦上運行一個擁有訪問工具權(quán)限的模型,因為它可能會抹掉你的硬盤。所以你可能需要將其容器化。但我確實認(rèn)為,擁有這種能力是未來幾年非常重要的一步。

Lex Fridman:有幾件事簡要說一下。首先,謝謝你定義了你所說的“工具調(diào)用”的具體含義。在討論這些概念時,這樣做非常好。即使是像MoE這樣已經(jīng)非常成熟的概念,你也得說明那代表“混合專家模型(Mixture of Experts)”,建立起直覺,讓人們理解那意味著什么,它是如何被實際應(yīng)用的,以及有哪些不同的變體。那么,開放模型如此爆發(fā)式增長意味著什么?你的直覺是怎么樣的?

Nathan Lambert:如果你發(fā)布一個開放模型,首要目的就是希望人們?nèi)ナ褂盟。緊隨其后的是透明度和信任等因素。當(dāng)你觀察中國時,最大的原因在于他們希望全球用戶都能使用這些模型。如果你觀察美國以外的地區(qū),很多人不會為軟件付費,但他們可能擁有計算資源,可以把模型部署在本地運行。此外,還有一些數(shù)據(jù)是你不想發(fā)送到云端的。因此,首要任務(wù)是讓人們開始使用AI,或者使用你的AI,因為如果沒有模型訪問權(quán)限,他們無法做到這一點。

Lex Fridman:我想我們應(yīng)該明確說明,我們一直在討論這些中國模型和權(quán)重開放模型,通常情況下,它們的運行方式是在本地運行。所以這并不是說你把數(shù)據(jù)發(fā)送到了中國,或者發(fā)送給了硅谷的任何開發(fā)者。

Nathan Lambert:沒錯。許多美國初創(chuàng)公司通過托管這些來自中國的模型并進(jìn)行銷售來賺錢,這被稱為賣Token,意味著有人會調(diào)用該模型來完成工作。

我認(rèn)為另一個原因是,像OpenAI這樣的美國公司非常缺乏GPU。他們已經(jīng)達(dá)到了GPU的極限。每當(dāng)他們發(fā)布新產(chǎn)品時,總是在說GPU資源非常緊張。在GPT-4o的發(fā)布環(huán)節(jié)中,Sam Altman曾暗示過,發(fā)布這個是因為可以利用用戶的GPU,他們不必動用自己的資源,卻仍然可以獲得分發(fā)渠道。這對他們來說沒有任何成本,是一個非,F(xiàn)實的考量。

Sebastian Raschka:對于用戶來說,有些用戶只是像使用ChatGPT那樣在本地使用模型。但對于公司而言,擁有這些模型是一個巨大的突破,因為你可以定制它們,可以通過后期訓(xùn)練添加更多數(shù)據(jù)。比如將它們專門化為法律、醫(yī)療模型等。

此外,中國權(quán)重開放模型的吸引力在于,它們的許可協(xié)議往往更加友好,通常是無限制的開源許可(如Apache 2.0)。而如果我們使用像LLaMA或Gemma這樣的模型,其實是附帶條件的。比如在用戶數(shù)量方面有一個上限,如果你超過了幾百萬用戶,就必須向Meta之類的公司報告財務(wù)狀況。雖然它是免費模型,但確實存在束縛。人們更喜歡沒有束縛的東西。除了性能之外,這也是為什么來自中國的開源權(quán)重模型如此受歡迎的原因之一:你可以直接使用它們,沒有任何陷阱。

Nathan Lambert:在這方面,生態(tài)系統(tǒng)已經(jīng)變得更好了。當(dāng)你打開Perplexity并看到它顯示“在美國托管的Kimi-K2 Thinking”時,這真的很有趣。這正是我們所討論的現(xiàn)象。Kimi-K2是一款非常受歡迎的模型,人們評價它在創(chuàng)意寫作以及處理軟件方面表現(xiàn)出色。這些就是人們在不同模型中發(fā)現(xiàn)并喜愛的細(xì)微特質(zhì)。

Lex Fridman:那么,在這些模型探索過的想法中,有哪些是你覺得特別有趣、值得聊聊的嗎?也許我們可以按時間順序來談。

Sebastian Raschka:首先當(dāng)然是DeepSeek。如果我們聚焦2025年,R1其實是基于前一年(2024年12月)發(fā)布的DeepSeek V3。

在架構(gòu)方面,令人著迷的是,你仍然可以像我在《從零開始構(gòu)建LLM》項目中做的那樣,從GPT-2開始,通過添加組件將其轉(zhuǎn)化為另一個模型。它們之間有著非常緊密的血脈聯(lián)系。DeepSeek的獨特之處在于混合專家模型(MoE)——當(dāng)然,并不是他們發(fā)明了MoE,我們稍后可以詳細(xì)聊聊MoE具體意味著什么。除了MoE,他們還采用了多頭潛在注意力(Multi-head Latent Attention, MLA),這是對注意力機(jī)制的一種改進(jìn)。

我想說,在2025年,這些權(quán)重開放模型之間的主要區(qū)別因素在于針對推理或KV緩存(KV cache)大小所做的各種微調(diào)。其目的主要是為了讓長上下文的成本更低,通過縮小KV緩存的體積來實現(xiàn)。

我們可以做哪些調(diào)整?大部分集中在注意力機(jī)制上。DeepSeek使用了多頭潛在注意力。還有一種“分組查詢注意力(Group Query Attention, GQA)”,目前仍然非常流行,這也不是新發(fā)明的。OLMo-3使用了滑動窗口注意力(Sliding Window Attention)。這些不同的微調(diào)使得模型各不相同。但我曾把它們?nèi)糠旁谝黄恼吕镞M(jìn)行過對比,發(fā)現(xiàn)它們驚人地相似。只是在中間層有多少次Transformer塊的重復(fù)等數(shù)字上有所不同。這就像是微調(diào)了一些小旋鈕,但無論如何它都能奏效。你可以移動歸一化層來獲得性能提升。OLMo在消融實驗(Ablation Studies)中展示了移動組件對模型的具體影響。

實現(xiàn)Transformer并使其保持運行的方法有很多。目前盛行的大思路包括MoE、MLA、滑動窗口注意力以及GQA。到了年底,研究重點轉(zhuǎn)向了使注意力機(jī)制能夠隨推理Token數(shù)量線性擴(kuò)展。例如Qwen2.5-1M增加了一個門控Delta網(wǎng)絡(luò)(Gated Delta Net),有點像受到了狀態(tài)空間模型(SSM)的啟發(fā),本質(zhì)上是用一種更廉價的操作取代了昂貴的注意力機(jī)制。

 

圖片

5、Transformers:2019 年以來 LLMs 的演進(jìn)

Lex Fridman:也許退一步來談?wù)凾ransformer架構(gòu)的總體情況會很有幫助。

Sebastian Raschka:好的,也許我們應(yīng)該從GPT-2架構(gòu)開始。Transformer源自《Attention Is All You Need》這篇論文,原始架構(gòu)包含編碼器(Encoder)和解碼器(Decoder)。而GPT只專注于解碼器部分。它本質(zhì)上仍然是一個神經(jīng)網(wǎng)絡(luò),內(nèi)部包含注意力機(jī)制。你一次預(yù)測一個Token。將其通過一個嵌入層(Embedding Layer),接著是Transformer塊(包含注意力模塊和全連接層),中間還有一些歸一化層。

從GPT-2發(fā)展到現(xiàn)在,出現(xiàn)了例如混合專家(MoE)層。MoE并不是新發(fā)明的,其核心思想是在不增加每次前向傳播算力消耗的情況下,使模型參數(shù)總量變大。

在Transformer內(nèi)部有一個全連接層(可以想象成微型多層感知器MLP),它非常昂貴,因為它是全連接的。如果你有一千個輸入、一千個輸出,那就是一百萬個連接。MoE的想法是將這個全連接層擴(kuò)展為多個前饋網(wǎng)絡(luò)。假設(shè)你有256個這樣的網(wǎng)絡(luò)(專家),但你不會同時使用所有的。你有一個路由器(Router),它會根據(jù)輸入Token決定:“好的,使用這個專家網(wǎng)絡(luò)會很有用。”

這就叫混合專家。根據(jù)輸入內(nèi)容,比如是數(shù)學(xué)密集型任務(wù),還是英譯西任務(wù),它可能會咨詢不同的專家。當(dāng)然,這種分工并不像“數(shù)學(xué)專家”或“語言專家”那樣界限分明,它是一個更模糊的概念。但其核心思想是你把更多知識封裝進(jìn)了網(wǎng)絡(luò),但并非所有知識都會被時刻調(diào)用,因為那樣太浪費了。在Token生成過程中,路由器會有選擇性地分配任務(wù)。這增加了復(fù)雜性和訓(xùn)練難度,有很多環(huán)節(jié)可能出錯。這可能也是為什么OLMo-3仍然使用稠密(Dense)模型的原因。稠密是指只有一個全連接模塊,并且始終被利用;而MoE被稱為稀疏(Sparse),因為只有部分專家是活躍的。

Lex Fridman:從根本上說,從GPT-2到現(xiàn)在,有多少新想法被實現(xiàn)了?比如,這些架構(gòu)之間到底有多大區(qū)別?

Sebastian Raschka:想象一下GPT-OSS中的分組查詢注意力(GQA),它只是從多頭注意力(MHA)微調(diào)而來的;蛘咚麄儼袻ayerNorm換成了RMSNorm,但這只是一種不同的歸一化方式。非線性激活函數(shù)從Sigmoid換成ReLU,這也并沒有從根本上改變網(wǎng)絡(luò)。

這只是微調(diào),做了一點點調(diào)整。我會說,它在本質(zhì)上并沒有那么大的不同,仍然是相同的架構(gòu)。你可以通過添加這些改動,從一個模型演進(jìn)到另一個。例如,我那本書里用的是GPT-2模型(約1.2億參數(shù)),但在獎勵材料中,我?guī)缀鯊牧汩_始構(gòu)建了Gemma 3.0。我總是從GPT-2模型開始,然后調(diào)整組件,就能從一個模型演進(jìn)到另一個。從某種意義上說,這是一種傳承。

Lex Fridman:這真的很有意思。當(dāng)你退一步審視,你會發(fā)現(xiàn)AI領(lǐng)域的發(fā)展如此迅猛,但與此同時,從根本上講,架構(gòu)并沒有發(fā)生翻天覆地的改變。那么,這種劇烈變革和進(jìn)步的動能究竟源自何處?收益究竟在哪里?

Sebastian Raschka:在開發(fā)或訓(xùn)練網(wǎng)絡(luò)的過程中存在不同的階段。在過去GPT-2的時代,只有預(yù)訓(xùn)練(Pre-training)。而現(xiàn)在,我們有了預(yù)訓(xùn)練、中訓(xùn)(Mid-training)和后訓(xùn)練(Post-training)。所以我認(rèn)為,我們目前正處于“后訓(xùn)練聚焦”階段。當(dāng)然,如果你能利用更好、更高質(zhì)量的數(shù)據(jù)進(jìn)行擴(kuò)展,預(yù)訓(xùn)練仍然會帶來優(yōu)勢。

但是,我們現(xiàn)在擁有了GPT-2所不具備的能力解鎖。例如ChatGPT,它本質(zhì)上是一個GPT-3模型。就架構(gòu)而言,GPT-3與GPT-2是相同的。新的突破在于增加了有監(jiān)督微調(diào)(SFT)以及人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。所以這更多是算法層面的改進(jìn),而非架構(gòu)層面的變革。

Nathan Lambert:我認(rèn)為系統(tǒng)層面也發(fā)生了很大變化。如果你關(guān)注過Nvidia的發(fā)布會,他們會提到諸如“現(xiàn)在支持FP8,支持FP4”之類的技術(shù)。這些實驗室正在研究如何將更多的算力投入到單個模型中,這讓他們能夠訓(xùn)練得更快,從而輸入更多數(shù)據(jù)。通過這種方式,你可以更快地找到更優(yōu)的配置。

沒錯,本質(zhì)上“每GPU每秒處理的Token數(shù)”是你進(jìn)行大規(guī)模訓(xùn)練時關(guān)注的核心指標(biāo)。通過開啟FP8訓(xùn)練,性能可以從10K提升到13K左右。這意味著模型中每個參數(shù)占用的內(nèi)存更少,通信開銷降低,從而實現(xiàn)更快的訓(xùn)練速度。所有這些系統(tǒng)層面的優(yōu)化,支撐了數(shù)據(jù)和算法上更快速的實驗迭代。

這就是一個不斷循環(huán)的過程。當(dāng)你觀察它們的架構(gòu)時,很難描述清楚,因為它們看起來幾乎一樣,但訓(xùn)練這些模型的代碼庫卻截然不同。比如訓(xùn)練GPT-OSS 20B的實際用時比當(dāng)年訓(xùn)練GPT-2要快得多。在混合專家模型(MoE)中,他們采用了FP4優(yōu)化,從而獲得了更高的吞吐量。但這并沒有賦予模型新的“能力”,這僅僅關(guān)乎我們能在多大程度上使計算變得更粗粒度,而不導(dǎo)致模型性能下降。

目前Transformer架構(gòu)的替代方案正在涌現(xiàn),比如文本擴(kuò)散模型(Text Diffusion Models)或Mamba這種狀態(tài)空間模型(SSM)。但它們都存在權(quán)衡,事實是目前還沒有任何東西能取代自回歸Transformer作為SOTA(最先進(jìn))模型的地位。所以對于追求最先進(jìn)性能而言,你仍然會選擇它。

6、AI Scaling Laws:它們已經(jīng)失效還是依然成立?

Lex Fridman:我想這里的大問題是,規(guī)模定律(Scaling Laws)在預(yù)訓(xùn)練、后訓(xùn)練、推理、上下文長度、數(shù)據(jù)以及合成數(shù)據(jù)方面是否依然穩(wěn)固?

Nathan Lambert:我想先從規(guī)模定律的技術(shù)定義開始。它本質(zhì)上是一種冪律關(guān)系,你可以將X軸視為算力和數(shù)據(jù)的結(jié)合,而Y軸是對下一個Token的留出預(yù)測準(zhǔn)確率。人們發(fā)現(xiàn)這是一種非?深A(yù)測的關(guān)系,我認(rèn)為這一技術(shù)趨勢仍在繼續(xù)。

現(xiàn)在的維度更加豐富了。OpenAI的o1引入了推理時擴(kuò)展(Inference Time Scaling)。此外,你還可以通過擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練來獲得性能提升。所以目前存在三個維度:

傳統(tǒng)規(guī)模定律:即模型規(guī)模和數(shù)據(jù)集規(guī)模。

強(qiáng)化學(xué)習(xí)規(guī)模:即你可以進(jìn)行多長時間的試錯學(xué)習(xí)。

推理側(cè)算力:即讓模型針對特定問題生成更多的思維鏈Token。

我對這三者都持看好態(tài)度。過去一年在強(qiáng)化學(xué)習(xí)方面(特別是可驗證獎勵學(xué)習(xí),即RLVR)以及推理側(cè)擴(kuò)展方面已經(jīng)達(dá)成了很多容易實現(xiàn)的目標(biāo)。這就是為什么現(xiàn)在的模型使用起來感覺如此不同:以前你會立即得到第一個Token,而現(xiàn)在它們在給出回答前會思考幾秒鐘甚至幾小時,生成隱藏的思維鏈。這在模型能力變化方面簡直是一種美妙的階躍函數(shù)。

這種能力幾乎完全源自于通過可驗證獎勵進(jìn)行的強(qiáng)化學(xué)習(xí)訓(xùn)練。當(dāng)你觀察模型生成大量Token時的推理過程,你會發(fā)現(xiàn)它經(jīng)常在嘗試:調(diào)用一個工具,查看結(jié)果;再嘗試另一個API,查看結(jié)果。模型很快就能學(xué)會執(zhí)行這些操作,這為模型在代碼庫中使用CLI命令、處理Git、整理文件等提供了通用基礎(chǔ)。

Lex Fridman:你提到你基本上看好每一種形式的Scaling。那么關(guān)于預(yù)訓(xùn)練,我們是否在暗示預(yù)訓(xùn)練規(guī);心切“唾手可得的果實”已經(jīng)被采摘殆盡了?預(yù)訓(xùn)練是否遇到了瓶頸,還是你依然看好它?

Nathan Lambert:預(yù)訓(xùn)練已經(jīng)變得極其昂貴。要擴(kuò)大預(yù)訓(xùn)練規(guī)模,意味著你要提供一個非常龐大的模型。目前業(yè)內(nèi)共識是,像GPT-4這一代模型的大小大約在萬億參數(shù)量級。其實隨著訓(xùn)練效率的提高,你會希望把模型做小,因為這樣提供服務(wù)的成本會成比例下降。

相對于向數(shù)億用戶提供服務(wù)的成本來說,訓(xùn)練成本其實是非常低的。DeepSeek有一個著名的數(shù)據(jù),按云市場價格計算,預(yù)訓(xùn)練費用約為500萬美元。在我們剛剛發(fā)布的OLMo 3論文中詳細(xì)說明了,包括工程調(diào)試、實驗和集群閑置在內(nèi),訓(xùn)練一個模型大約花費了200萬美元。很多人都能籌到幾百萬美元來訓(xùn)練模型,但為數(shù)百萬用戶提供服務(wù)的持續(xù)成本需要耗費價值數(shù)十億美元的算力。

問題在于,如果擴(kuò)展規(guī)模確實能帶來更好的模型,它在財務(wù)上是否值得?我認(rèn)為隨著AI解決更多引人注目的任務(wù),市場會推動這一點。比如Claude 3.5 Opus與之前的模型相比,徹底解決了我在七月份構(gòu)建項目時遇到的問題。所以進(jìn)步仍在繼續(xù)。

Lex Fridman:所以你的直覺是,如果不考慮財務(wù)可行性,僅僅從定律的角度來看,如果擴(kuò)展計算規(guī)模,模型會變得更聰明嗎?

Nathan Lambert:是的。雖然這聽起來像是對AI公司領(lǐng)導(dǎo)層的盲目信任,但這一規(guī)律已經(jīng)支撐了13個數(shù)量級的算力增長,不太可能突然停止。只是最終我們可能無法測試更大的規(guī)模,因為規(guī)模越大帶來的算力問題越多。

現(xiàn)在大家都在討論2026年,屆時超大規(guī)模云服務(wù)商將投入運營吉瓦(Gigawatt)級規(guī)模的Blackwell算力集群。這些電力和數(shù)據(jù)中心合同都是在ChatGPT發(fā)布前后簽署的,建設(shè)周期需要兩三年。實驗室將擁有更多的算力用于訓(xùn)練,這是一個既定事實。我預(yù)計我們會看到訂閱服務(wù)價格上漲,比如出現(xiàn)2000美元的訂閱服務(wù),這都源于更大一點的模型所提供的技術(shù)優(yōu)勢。

Lex Fridman:據(jù)報道xAI將在2026年初達(dá)到1吉瓦規(guī)模,并在年底達(dá)到2吉瓦。你認(rèn)為他們會在規(guī)模定律的背景下如何利用這些資源?很大一部分是推理嗎?還是訓(xùn)練?

Nathan Lambert:結(jié)果證明是“以上所有”。你在訓(xùn)練模型時做出的所有決策最終都會回到預(yù)訓(xùn)練。即使你打算擴(kuò)展RL,你也需要決定能夠?qū)崿F(xiàn)這一點的架構(gòu)。比如我們討論的混合專家模型(MoE),其稀疏特性使得生成效率大大提高,這已成為后訓(xùn)練的重要組成部分。

但我認(rèn)為大多數(shù)算力仍然正投入到預(yù)訓(xùn)練階段,因為你仍然希望擁有盡可能最好的基礎(chǔ)模型。幾年后這可能會達(dá)到飽和,屆時RL算力投入的比例將會變大。

Lex Fridman:是否有人不同意你的觀點,認(rèn)為預(yù)訓(xùn)練基本上已經(jīng)過時了?認(rèn)為現(xiàn)在的重點全在于推理擴(kuò)展、后訓(xùn)練擴(kuò)展、上下文擴(kuò)展以及合成數(shù)據(jù)?

Nathan Lambert:人們普遍有這種感覺,但我認(rèn)為實際情況并非如此。那種“預(yù)訓(xùn)練已死”的論調(diào)只是因為興奮點轉(zhuǎn)移到了別處。

以我們在11月發(fā)布的模型為例,如果不算預(yù)訓(xùn)練,僅僅做后訓(xùn)練就花了五天時間,這對于一個300億參數(shù)的模型來說是很長的。到了12月,我們又讓強(qiáng)化學(xué)習(xí)運行了三周半,模型變得顯著更好。把這么長的時間分配給后訓(xùn)練是前所未有的。

但這并不意味著預(yù)訓(xùn)練被遺棄了。這是一種循環(huán):你重新進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行一個月的后訓(xùn)練,接著進(jìn)行安全性測試發(fā)布給用戶?傆锌梢愿倪M(jìn)的地方。當(dāng)你使用10萬塊GPU進(jìn)行大規(guī)模預(yù)訓(xùn)練時,你會遇到截然不同的故障,幾乎肯定隨時至少有一塊GPU是宕機(jī)的。你需要讓訓(xùn)練代碼能夠處理這種冗余,這完全是另一回事。

當(dāng)我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)時,它非常適合異構(gòu)計算。簡要介紹一下語言模型的強(qiáng)化學(xué)習(xí):你需要準(zhǔn)備兩組GPU。一組是Actor(執(zhí)行者),負(fù)責(zé)生成內(nèi)容;另一組是Learner(學(xué)習(xí)者),負(fù)責(zé)實際的策略梯度更新(如PPO或GRPO算法)。你可以讓分布在世界各地的許多不同Actor處理問題,將結(jié)果發(fā)回給Learner進(jìn)行評分和學(xué)習(xí)。

至于推理側(cè)擴(kuò)展,問題變成了:你如何向1億用戶提供一個需要思考一小時的模型服務(wù)?這背后存在巨大的系統(tǒng)性挑戰(zhàn)。

Lex Fridman:但我聽下來,你對所有這些維度的擴(kuò)展都持樂觀態(tài)度。無論是推理、邏輯推理,還是預(yù)訓(xùn)練?

Sebastian Raschka:是的。在一個假設(shè)擁有無限計算資源的世界里,你會想要全面發(fā)力:預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練、推理擴(kuò)展全部拉滿。更大的模型會賦予模型更多的知識。

但是正如Nathan所說,預(yù)訓(xùn)練變得太昂貴了。我們沒有無限的算力,所以必須進(jìn)行權(quán)衡。如果你把錢花在預(yù)訓(xùn)練上,這是一項固定成本,模型訓(xùn)練好后就永久擁有了這種能力。而對于推理側(cè)擴(kuò)展,你是為單次查詢付費。

這就變成了一筆賬:如果我的模型半年后就會被替換,也許花1億美元去訓(xùn)練更大的模型并不值得,不如花200萬美元做推理側(cè)擴(kuò)展來獲得同等的性能提升。這就是ChatGPT現(xiàn)在的策略,他們擁有海量用戶,所以選擇了一條更具性價比的路線,可能使用了一個稍微小一點的GPT-5模型配合推理擴(kuò)展。

但在某些特定任務(wù)(如奧數(shù))中,你可能需要巔峰性能?偠灾,我認(rèn)為預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練以及推理側(cè)擴(kuò)展都是必須做的,關(guān)鍵在于找到合適的比例以獲得最高的性價比。

       原文標(biāo)題 : Lex Fridman硬核訪談,5萬字2026 AI全景報告

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號