123,123

Lex Fridman硬核訪談，5萬字2026 AI全景報告

2026-02-03 14:28

作者｜林易

編輯｜重點君

2月1日，知名科技播客博主Lex Fridman與兩位機(jī)器學(xué)習(xí)領(lǐng)域的重量級嘉賓開展了一場深度對話。Sebastian Raschka是知名機(jī)器學(xué)習(xí)研究員與教育家，Nathan Lambert是艾倫人工智能研究所（AI2）的后訓(xùn)練負(fù)責(zé)人，同時也是RLHF領(lǐng)域的權(quán)威專家。兩位嘉賓恰好代表了當(dāng)前AI領(lǐng)域的兩大核心關(guān)切：原理與技術(shù)路線。

這場長達(dá)數(shù)小時的硬核訪談信息密度極高，既是對過去一年AI技術(shù)突破的復(fù)盤，更是對2026年技術(shù)風(fēng)向的深度預(yù)判。我們給你劃下重點：

第一，關(guān)于中美AI競爭：2025年的最大變量是DeepSeek時刻，中國公司在開源權(quán)重模型上已占據(jù)主導(dǎo)地位。

2025年1月發(fā)布的DeepSeek R1被視為中美AI競爭的分水嶺，該模型以更低的算力成本達(dá)到了接近最先進(jìn)（SOTA）的性能，震驚了業(yè)界。Nathan Lamber說，在開源模型方面表現(xiàn)強(qiáng)勢。DeepSeek、阿里Qwen、MiniMax、Kimi等公司發(fā)布了大量高性能開源模型，贏得了開源社區(qū)的青睞。

相比之下，美國曾經(jīng)的開源標(biāo)桿Llama卻在這一年迷失了方向。Sebastian Raschka說，Meta試圖通過構(gòu)建巨大的Llama 4模型在基準(zhǔn)測試中擊敗ChatGPT，但陷入刷榜陷阱，忽略了AI領(lǐng)域真正需要的是輕量級、可用的模型。這導(dǎo)致Llama留下的生態(tài)空白正在被中國的開源模型迅速填補。

第二，主要AI實驗室與模型現(xiàn)狀：Anthropic最有序，OpenAI內(nèi)部混亂，Meta開源策略可能動搖。

Anthropic：Claude Opus4.5是當(dāng)前頂流，特別是在編程方面表現(xiàn)出色，深受開發(fā)者喜愛。Anthropic組織最有序、最不混亂。

Google：Gemini 3 雖發(fā)布時營銷聲量不如對手，但性能極其強(qiáng)大。Google的優(yōu)勢在于擁有完整的全棧垂直整合能力（TPU芯片、云計算、模型、應(yīng)用），利潤率極高，不依賴英偉達(dá)的高價GPU芯片。

OpenAI：盡管內(nèi)部混亂，但仍具有極強(qiáng)的交付能力。GPT-5系列（包括o1/o3推理模型）通過推理時計算節(jié)省了大量成本，并定義了新范式。

Meta：LLaMA系列似乎面臨內(nèi)部政治和激勵問題，未來是否會有開源的LLaMA5存疑，Meta的開源策略可能在動搖。

第三，關(guān)于技術(shù)范式轉(zhuǎn)移：預(yù)訓(xùn)練的紅利正在消退，AI技術(shù)戰(zhàn)場轉(zhuǎn)向后訓(xùn)練和RLVR。

Nathan Lamber認(rèn)為，預(yù)訓(xùn)練已經(jīng)變得極其昂貴且邊際效益遞減，而現(xiàn)在的模型能力提升重點源自后訓(xùn)練階段的創(chuàng)新。2025年最大的技術(shù)突破是帶有可驗證獎勵的強(qiáng)化學(xué)習(xí)（RLVR）。這徹底改變了模型的訓(xùn)練方式。

傳統(tǒng)的基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）更多是調(diào)整模型的語氣和風(fēng)格，屬于微調(diào)偏好，容易觸及天花板。RLVR則是讓模型在數(shù)學(xué)、代碼等有客觀答案的領(lǐng)域進(jìn)行大規(guī)模試錯。通過“生成-評分”的迭代循環(huán)，模型能像人類學(xué)生一樣，在數(shù)萬次的練習(xí)中自我修正，從而解鎖預(yù)訓(xùn)練中已有的知識。

預(yù)訓(xùn)練是計算密集型（算力受限），而后訓(xùn)練階段的RLVR則更像是內(nèi)存密集型（內(nèi)存受限），更看重GPU的運行時間而非單純的算力堆疊。

第四，關(guān)于AI編程：AI催生Vibe Coding，軟件工程正從寫代碼轉(zhuǎn)向系統(tǒng)設(shè)計。

AI對編程領(lǐng)域的重塑遠(yuǎn)超預(yù)期。Vibe Coding讓開發(fā)者不再糾結(jié)于具體的代碼細(xì)節(jié)，而是通過自然語言描述需求，快速生成并修改代碼Diffs。在這種模式下，人類的角色從代碼編寫者轉(zhuǎn)變?yōu)橄到y(tǒng)設(shè)計師和審查者。

Nathan Lambert預(yù)測，隨著AI能力的提升，軟件開發(fā)將變得高度工業(yè)化。雖然完全自動化的超級智能編程因數(shù)據(jù)分布的參差不齊而難以在短期內(nèi)完美實現(xiàn)，但工具的門檻正在急劇降低。未來，一個不懂底層代碼的人，只要擁有清晰的系統(tǒng)設(shè)計思維，利用Claude Code或Cursor等工具，就能構(gòu)建出復(fù)雜的軟件系統(tǒng)。

第五，關(guān)于Scaling Laws：規(guī)模定律并沒有失效，但維度變得更加豐富了。

針對AI發(fā)展是否遇到瓶頸的質(zhì)疑，嘉賓們給出了否定的回答。Nathan Lambert認(rèn)為，Scaling Laws依然是技術(shù)發(fā)展的基石，但現(xiàn)在的擴(kuò)展已從單一的預(yù)訓(xùn)練規(guī)模分裂為三個維度：

傳統(tǒng)規(guī)模定律：繼續(xù)堆疊模型參數(shù)和數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)規(guī)模：可以進(jìn)行多長時間的試錯學(xué)習(xí)。

推理側(cè)算力：讓模型在回答前思考更久，生成更多的思維鏈Token。

這種多維度的擴(kuò)展策略，使得科技巨頭們在2026年依然敢于投入數(shù)百億美元建設(shè)吉瓦級規(guī)模的算力集群。Sebastian Raschka形象地比喻：在一個擁有無限算力的理想世界里，你會把這三個維度的旋鈕全部拉滿；但在現(xiàn)實中，這變成了一場關(guān)于性價比的權(quán)衡游戲，大公司需要考慮是花1億美元訓(xùn)練更大的模型，還是花200萬美元做推理側(cè)擴(kuò)展。

第六，關(guān)于AGI的終局：單一通用模型的夢想已經(jīng)破滅，未來屬于多智能體與專業(yè)化模型。

對于未來，嘉賓們打破了一個全能模型統(tǒng)治世界的幻想。Nathan Lambert認(rèn)為，未來的AI生態(tài)不會是贏家通吃，而是一個分工明確的系統(tǒng)。

未來不會依賴一個單一的ChatGPT去處理所有事務(wù)，而是會有專門負(fù)責(zé)法律、醫(yī)療、編程的垂直模型�，F(xiàn)實正在演變?yōu)槿藗冡槍Σ煌蝿?wù)調(diào)用不同的Agent。未來的數(shù)據(jù)中心里，將是許多專門的AGI在相互交流、管理和執(zhí)行任務(wù)。

以下為Lex Fridman播客訪談實錄：

1、中國 vs 美國：誰將贏得 AI 競賽？

Lex Fridman：以下是一場關(guān)于人工智能前沿動態(tài)的對話，涵蓋了過去一年AI領(lǐng)域激動人心的突破，以及我們對未來一年的展望。雖然內(nèi)容有時會涉及深度的專業(yè)技術(shù)，但我們力求讓非專業(yè)人士也能聽懂，同時絕不降低內(nèi)容的專業(yè)深度。我很榮幸能邀請到AI社區(qū)中我最喜歡的兩位嘉賓：Sebastian Raschka 和 Nathan Lambert。他們都是備受尊敬的機(jī)器學(xué)習(xí)研究員、工程師，同時也是優(yōu)秀的傳播者、教育者和作家。Sebastian著有兩本我強(qiáng)烈推薦給初學(xué)者和專家的書：第一本是《從零開始構(gòu)建大語言模型》（Build a Large Language Model From Scratch），另一本是《從零開始構(gòu)建推理模型》（Build a Reasoning Model From Scratch）。我堅信在機(jī)器學(xué)習(xí)和計算機(jī)科學(xué)領(lǐng)域，學(xué)習(xí)并理解某項事物的最佳方式就是親手從零開始構(gòu)建它。Nathan是艾倫人工智能研究所的后訓(xùn)練負(fù)責(zé)人，也是關(guān)于人類反饋強(qiáng)化學(xué)習(xí)（RLHF）權(quán)威著作的作者。

Lex Fridman：讓我們從“DeepSeek時刻”這個視角切入。這大約發(fā)生在一年前的2025年1月，當(dāng)時中國公司DeepSeek發(fā)布了開放權(quán)重的DeepSeek R1。我認(rèn)為可以公平地說，它以更少的算力和更低廉的價格，達(dá)到了接近或持平SOTA（最先進(jìn)）的性能，驚艷了所有人。從那時起到今天，AI領(lǐng)域的競爭在研究和產(chǎn)品層面都變得異常激烈，這種趨勢一直在加速。讓我們今天探討所有這些話題。首先我想問一個尖銳的問題：在國際層面上誰處于領(lǐng)先地位？是中國的一系列公司，還是美國的公司？Sebastian，你認(rèn)為誰是贏家？

Sebastian Raschka：“贏”這個詞涵蓋面很廣。既然你提到了DeepSeek時刻，我確實認(rèn)為DeepSeek通過分享開源模型，絕對贏得了那些致力于開放權(quán)重模型（open weight models）的人們的心。我認(rèn)為“贏”包含多個時間尺度：當(dāng)下、明年，還有十年后。我唯一可以肯定的是，我不認(rèn)為到了2026年的今天，還會存在哪家公司能掌握其他公司無法觸及的獨占技術(shù)。主要原因是研究人員頻繁地更換工作和實驗室，人才在不斷流動。因此，我不認(rèn)為在技術(shù)獲取層面會有明顯的贏家。然而，差異化因素將體現(xiàn)在預(yù)算和硬件限制上。這些創(chuàng)意本身并非專利，實現(xiàn)這些創(chuàng)意的方式和資源才是關(guān)鍵。所以，目前我看不到一個“贏家通吃”的局面。

Lex Fridman：Nathan，你怎么看？

Nathan Lambert：你可以看到各個實驗室在目標(biāo)投入上存在差異。為了標(biāo)記我們錄制的時間點，目前針對Anthropic的Claude Opus 4.5模型的炒作簡直瘋狂。我在過去幾周一直用它構(gòu)建東西，它的熱度甚至有點像個“梗”了。這很有趣，因為這種熱度非常自然。如果我們回到幾個月前，Google發(fā)布Gemini 3時的營銷手段和驚艷程度都非常高。但隨后11月底Claude Opus 4.5發(fā)布，熱度一路攀升，感覺大家對Gemini 3的討論反而沒那么多了，盡管它剛推出時被視為Google奪回AI架構(gòu)優(yōu)勢的時機(jī)。Gemini 3依然是一款出色的模型，我目前仍在使用它，只是其差異化程度較低。

我同意Sebastian的觀點，創(chuàng)意空間是非常流動的。但在文化層面上，Anthropic以敢于在代碼能力（即Claude Code）上重注而聞名，目前效果很不錯。所以我認(rèn)為，即使想法可以自由流動，但很大程度上仍然受限于人力投入以及組織的文化氛圍。Anthropic目前看起來是表現(xiàn)得最不混亂的，這算是一個小小的優(yōu)勢。另一方面，在技術(shù)層面，中國有很多令人驚嘆的技術(shù)。除了DeepSeek之外，還有更多的實驗室。DeepSeek在中國引發(fā)了一場運動，類似于ChatGPT在美國引發(fā)的浪潮，當(dāng)時所有產(chǎn)品都加上了聊天機(jī)器人�，F(xiàn)在中國有大量科技公司正在發(fā)布實力強(qiáng)勁的前沿開源權(quán)重模型，以至于我會說DeepSeek在某種程度上正在失去其作為中國卓越開源模型制作者的桂冠，像智譜AI的GLM模型、MiniMax的模型以及月之暗面（Kimi），尤其是在過去幾個月里，表現(xiàn)得更加出色。

Lex Fridman：所以像DeepSeek這樣的一些模型因為開源權(quán)重而受到了大眾的喜愛。你認(rèn)為中國公司發(fā)布開放權(quán)重模型的策略會堅持多久？

Nathan Lambert：我認(rèn)為會持續(xù)幾年。就像在美國一樣，目前還沒有一個清晰的商業(yè)模式。我寫關(guān)于開放模型的文章有一段時間了，中國公司也意識到了這一點。他們很聰明，也看到了同樣的限制：許多美國頂尖科技公司出于安全擔(dān)憂，不會購買中國公司的API訂閱服務(wù)。這在技術(shù)領(lǐng)域是長期存在的習(xí)慣。因此，這些公司的從業(yè)者將開放權(quán)重模型視為一種能力，以此來通過這種方式參與到美國巨大且不斷增長的AI支出市場中。他們對此有著非常務(wù)實的認(rèn)識，而且這對他們很有效。但是開發(fā)這些模型非常昂貴，所以我預(yù)計在某個時間點會出現(xiàn)整合，但我不認(rèn)為這會發(fā)生在2026年。2026年開放模型構(gòu)建者的數(shù)量將比2025年更多，而且其中許多著名的構(gòu)建者將來自中國。

Lex Fridman：Sebastian，你剛才想補充什么嗎？

Sebastian Raschka：是的。你提到DeepSeek失去領(lǐng)先地位，我在某種程度上認(rèn)同，但也必須考慮到，我認(rèn)為他們?nèi)匀惶幱谖⑷醯念I(lǐng)先地位。其他模型的情況并非是DeepSeek變差了，而是其他模型正在借鑒DeepSeek的思路。例如你提到的Kimi，采用了相同的架構(gòu)進(jìn)行訓(xùn)練。我們再次看到了這種“跳躍式領(lǐng)先”的情況：一個人發(fā)布了某個東西，另一個緊隨其后。最新的模型往往就是最好的模型。我認(rèn)為這又回到了那個事實，不會有一個絕對的贏家。

Nathan Lambert：是的。我們還會看到中國公司有著不同的激勵機(jī)制。比如DeepSeek非常神秘，而其他一些初創(chuàng)公司則不同，像MiniMax和零一萬物（01.AI）這類公司已經(jīng)提交了IPO文件，正努力爭取西方市場的關(guān)注，并在那里進(jìn)行了大量推廣。DeepSeek是由幻方量化（Highflyer Capital）這家對沖基金創(chuàng)立的，我們并不確切知道他們將這些模型用于什么，或者他們是否在意商業(yè)化。

Lex Fridman：他們在溝通方面很神秘，但在描述模型工作原理的技術(shù)報告方面并不保守，在這方面他們?nèi)匀槐３珠_放。我們還應(yīng)該談?wù)剬laude Opus 4.5的炒作。這其中包含了一些層面，即它作為X（原Twitter）信息繭房里的寵兒的熱度，與實際使用該模型的人數(shù)之間存在差距。我認(rèn)為可以公平地說，ChatGPT和Gemini專注于那些僅僅想使用工具解決日常問題的廣泛用戶群體，那個群體非常龐大。所以關(guān)于編程能力的炒作可能并不能完全代表實際的大眾使用情況。

Sebastian Raschka：很多使用模式也是出于知名度和品牌，同時也形成了一種肌肉記憶。ChatGPT已經(jīng)存在很長時間了，人們習(xí)慣了使用它，這像一種飛輪效應(yīng)。還有一個有趣的觀點是LLM的定制化。例如ChatGPT有記憶功能，你可能有一個訂閱用于處理個人事務(wù)，但你不一定想在工作中使用同一個賬號。因為私人生活和工作之間存在界限。我認(rèn)為這也是一個有趣的切入點，你可能會擁有多個訂閱：一個只用于編寫純凈的代碼，不包含任何個人照片或愛好；另一個則是你個人的東西。我認(rèn)為未來會是多個并存的。

2、ChatGPT vs Claude vs Gemini vs Grok：誰正在領(lǐng)先？

Lex Fridman：你認(rèn)為哪個模型贏得了2025年？又有哪些模型將贏得2026年？

Nathan Lambert：在消費級聊天機(jī)器人的語境下，問題在于你是否愿意押注Gemini而非ChatGPT。直覺告訴我，這似乎是一個有點冒險的賭注，因為OpenAI一直是該領(lǐng)域的領(lǐng)先者，這在科技行業(yè)會帶來諸多優(yōu)勢。回顧2025年，勢頭似乎在Gemini這邊，但我認(rèn)為他們當(dāng)時的起點太低了。愿Bard以及那些早期的嘗試安息吧。他們能克服組織內(nèi)部的混亂并實現(xiàn)這一目標(biāo)，確實值得稱贊。但與此同時，也很難去賭OpenAI會輸。因為他們雖然表面上顯得混亂，但非常擅長讓項目落地。就我個人而言，我對GPT-5的評價褒貶不一，但它肯定通過高端線路功能的路由機(jī)制為他們節(jié)省了大量資金，即大多數(shù)用戶不再像以前那樣消耗昂貴的GPU資源了。

Lex Fridman：你對2026年怎么看？誰會勝出？

Nathan Lambert：盡管有風(fēng)險，我還是要說，我認(rèn)為Gemini將繼續(xù)追趕ChatGPT的進(jìn)展。當(dāng)兩者都以如此極端的規(guī)模運行時，Google的規(guī)模優(yōu)勢在于它能夠更好地將研究與產(chǎn)品分開。而OpenAI在運營上常被傳非�；靵y，一直在追求高影響力的事物，這是典型的創(chuàng)業(yè)公司文化。在軟件和企業(yè)端，我認(rèn)為Anthropic將會延續(xù)他們的成功。Google Cloud擁有豐富的產(chǎn)品線，Gemini這個品牌對他們的建設(shè)至關(guān)重要。Google Cloud將繼續(xù)保持良好的發(fā)展勢頭，但在生態(tài)系統(tǒng)中解釋清楚這一點會更加復(fù)雜，因為那是與Azure和AWS的競爭。

Lex Fridman：所以在基礎(chǔ)設(shè)施方面，你認(rèn)為TPU帶來了優(yōu)勢？

Nathan Lambert：很大程度上是因為NVIDIA芯片的利潤率高得離譜，而Google可以從上到下開發(fā)一切來適配他們的技術(shù)棧，不需要支付這部分利潤空間。而且他們在建設(shè)數(shù)據(jù)中心方面擁有先發(fā)優(yōu)勢。因此，在這些既需要漫長前置時間，又有著極高利潤門檻的領(lǐng)域，Google擁有一種歷史性的優(yōu)勢。如果將出現(xiàn)新的范式，它最有可能來自O(shè)penAI，因為他們的研究部門一次又一次地證明了這一點，比如Deep Research、Sora、o1推理模型。這種落地全新研究理念或產(chǎn)品的能力是OpenAI的核心特質(zhì)。很難賭他們會輸，但我認(rèn)為今年的重點將很大程度上圍繞規(guī)�；⊿caling）和優(yōu)化模型中那些“垂手可得的果實”。

Lex Fridman：顯然，在智能與速度之間存在權(quán)衡。這就是ChatGPT-5在幕后試圖解決的問題。廣大公眾到底是想要智能，還是想要速度？

Sebastian Raschka：我覺得這實際上是一個很棒的多樣化選擇。就我個人的使用習(xí)慣而言，大多數(shù)時候當(dāng)我查閱某些內(nèi)容時，我會用ChatGPT問一個簡單的問題，快速獲取信息。對于大多數(shù)日常任務(wù)，我會使用快速模型�，F(xiàn)在自動模式已經(jīng)做得相當(dāng)不錯了。但有時我也想要Pro模式。例如當(dāng)我寫好東西后，我會把它放入ChatGPT并說：“做一個非常徹底的檢查。我的所有引用、想法、格式都正確嗎？”這種情況下我不需要立即得到答案，可以讓它運行著，回頭再看。這就是擁有這種選項的重要性。如果每個查詢都要讓我等30分鐘甚至10分鐘，我一定會瘋掉的。

Nathan Lambert：那就是我。我坐在這兒簡直要瘋了，你居然還在用路由模式和非思考模型（non-thinking models）。我心想：“你是怎么受得了那種東西的？”我已經(jīng)重度使用ChatGPT很長時間了，從來沒碰過非思考模型。我覺得它的語氣和出錯的概率似乎更高。這可以追溯到OpenAI發(fā)布o(jì)3的時候，那是第一個能夠進(jìn)行深度搜索、整合多個來源的模型。我已經(jīng)習(xí)慣了那樣。所以在處理工作信息查詢時，我只會使用GPT-5.2 Thinking或Pro版本。我經(jīng)常會同時進(jìn)行五個Pro查詢，尋找特定的論文或代碼參考。

Sebastian Raschka：我有一個有趣的例子，當(dāng)時我只需要盡快得到答案。在這次旅行之前的播客中，我家里運行著一個本地GPU，我想運行一個長時間的RL（強(qiáng)化學(xué)習(xí)）實驗。通常我會拔掉電源，但我如果不小心拔掉了GPU電源，當(dāng)時我妻子已經(jīng)在車?yán)锏戎�，我心想�?ldquo;噢，糟了。”我想要以最快的速度寫出一個Bash腳本，用來運行不同的實驗和評估。我知道怎么用Bash終端，但在那一刻我只需要大概10秒鐘把命令給我。所以我用了不帶思考過程的最快模型。它給了我Bash命令，我需要將不同的腳本串聯(lián)在一起，這就解決了問題。

Nathan Lambert：我用Gemini處理這類需求。我會用思考模型處理所有信息類事務(wù)，然后用Gemini處理追求速度的任務(wù)，或者那些通過Google搜索能更好解釋的內(nèi)容。Gemini應(yīng)用也變得好多了。對于代碼和任何形式的哲學(xué)討論，我會使用Claude Opus 4.5，而且總是開啟擴(kuò)展思考（extended thinking）。擴(kuò)展思考和推理時間擴(kuò)展（inference time scaling）只是讓模型變得稍微更聰明一點的方式。然后有時我會使用Grok來獲取實時信息，或者在AI Twitter上尋找內(nèi)容。Grok-4 Super Heavy發(fā)布時表現(xiàn)非常出色，但我后來因為習(xí)慣用ChatGPT App就慢慢把它忘了。

Lex Fridman：是的，我確實也在用Grok-4 Heavy用于調(diào)試。對于那些其他模型無法解決的硬核調(diào)試問題，我發(fā)現(xiàn)它是最擅長的。這很有趣，因為你說ChatGPT是最好的界面，對我來說Gemini是更好的界面。我想是因為我愛上了它們最出色的“大海撈針”（needle in the haystack）能力。如果我放入包含大量上下文的內(nèi)容并尋找非常具體的信息，Gemini一直表現(xiàn)最好。這就像有一種閾值效應(yīng)：你會堅持使用一個模型，直到它做了一件蠢事，然后你就會換個工具。

Sebastian Raschka：沒錯，你會一直使用它直到它出故障。就像我們使用瀏覽器一樣，你不會在不同瀏覽器中輸入同一個網(wǎng)址對比，除非網(wǎng)頁無法渲染。關(guān)于長上下文，我之前也是為了這個功能使用Gemini，但GPT-4o發(fā)布時展示了驚人的長上下文評分提升。現(xiàn)在我更看好GPT-5.2的長上下文。

3、最適合編程的AI

Lex Fridman：我們還沒怎么提到編程。那是另一個很多人非常關(guān)注的使用場景。所以我基本上是一半一半地在使用Cursor和Claude Code。你們呢？

Sebastian Raschka：我用的是VSCode的Codex插件。它非常方便，就像一個可以訪問你代碼庫的聊天界面。我知道Claude Code似乎有點不同，它更具智能體（agentic）特征，能為你完成整個項目。我目前還沒到能完全放心使用它的程度，也許是因為我有控制欲，我希望能看到具體發(fā)生了什么。Cursor對我來說目前處于一個恰到好處的平衡點，它在幫助我，但沒有完全取代我的工作。

Lex Fridman：我使用Claude寫代碼的原因之一是為了培養(yǎng)用英語編程的能力。這種體驗從根本上是不同的。你不再是微觀管理代碼生成的細(xì)節(jié)，而是查看diff。如果你使用Cursor這種IDE，你可以看到修改和變更代碼時的差異。去觀察、閱讀并深入理解代碼，而不是僅僅停留在設(shè)計層面進(jìn)行宏觀引導(dǎo)，這是思考編程過程的另一種方式。Claude Code似乎更好地利用了Claude 3.5 Opus。

Nathan Lambert：這對人們來說是一個很好的并排對比。你可以同時打開Claude Code、Cursor和VSCode，選擇相同的模型并提出問題。Claude在代碼能力那個領(lǐng)域要出色得多。

Lex Fridman：好的，我們應(yīng)該說明你們兩位在多個領(lǐng)域都是名副其實的專家，包括研究員、程序員、教育者以及作家。Nathan，希望你能很快出一本關(guān)于RLHF的書。

Nathan Lambert：已經(jīng)可以預(yù)訂了，而且有完整的數(shù)字預(yù)印本。我只是在為實體書做美化和更好的排版。

Lex Fridman：Sebastian Raschka是一位機(jī)器學(xué)習(xí)研究員和作家，出版了多本具有影響力的書籍。其中有兩本我想特別提一下：一本是我強(qiáng)烈推薦的《從零開始構(gòu)建大語言模型》，以及新書《從零開始構(gòu)建推理模型》。我感到非常興奮，因為從頭開始構(gòu)建東西是學(xué)習(xí)最有效的方式之一。

Sebastian Raschka：說實話，從頭開始構(gòu)建一個LLM非常有趣。這也是一個學(xué)習(xí)很多東西的過程。正如你所說，這可能是了解事物真實運作機(jī)制的最佳方式。你可以看圖表，但圖表可能會有錯誤；你可以看概念，但可能會誤解。但如果你看到代碼并且能運行，你就知道它是正確的，它是精確的。這就是編程背后的魅力，它不會撒謊。即使是數(shù)學(xué)，我認(rèn)為書里也可能存在你永遠(yuǎn)察覺不到的錯誤。因為你在讀書時并沒有實際運行那些數(shù)學(xué)計算，所以無法去驗證它。而代碼的優(yōu)勢就在于，你可以動手驗證。

Lex Fridman：沒錯，我同意你關(guān)于《LLM From Scratch》這本書的看法。屏蔽掉互聯(lián)網(wǎng)等一切干擾，全身心投入到書本中，這種感覺確實很好。但是，我也讀過一些書，比如歷史書。某種程度上，讀書讓你不再感到孤獨，這真的更有趣。不過在編程方面，我認(rèn)為與LLM一起編程確實更有意思。其實我認(rèn)為與LLM一起閱讀也更有趣。你說得對。不過這種干擾應(yīng)該被降到最低。也就是說，你是利用LLM來從根本上豐富體驗，通過它增加更多的上下文。也許吧。我只是覺得，在小規(guī)模應(yīng)用上，LLM帶給我的“頓悟時刻”頻率真的很高。

Sebastian Raschka：確實如此。我也想修正一下我的觀點，我并不是建議完全不使用LLM。我建議的是分階段進(jìn)行：先進(jìn)行一輪離線、專注模式的學(xué)習(xí)，這時候雖然我會記筆記，但我會努力克制住立即查閱資料的沖動；之后我會進(jìn)行第二輪。對我來說，以這種方式組織學(xué)習(xí)更有效。有時候問題在后續(xù)章節(jié)中自然會得到解答，而有時候，讓問題沉淀一下、多思考一會兒也會有所幫助。當(dāng)然，每個人的偏好不同。我強(qiáng)烈建議在閱讀書籍時使用LLM，只是對我而言，它不是首選步驟，更像是第二輪的復(fù)習(xí)工具。

Lex Fridman：作為一個建議，我的做法恰恰相反。我喜歡在開始時就使用LLM。我想先理清整個背景，比如了解我正要踏入的是一個什么樣的世界。但我會盡量避免從LLM的界面跳轉(zhuǎn)到Twitter或博客之類的網(wǎng)頁，因為那樣你就真的會陷入無底洞。你會讀到某人的觀點，或者看到關(guān)于某個特定話題的激烈爭論，突然間你就脫離了學(xué)習(xí)狀態(tài)，進(jìn)入了互聯(lián)網(wǎng)和Reddit的領(lǐng)域。但如果你純粹是讓LLM為你提供“這件事為什么重要”的背景，以及大局觀是什么，這會非常有幫助。雖然有些書本身也很擅長搭建背景，但并不總是如此。

Nathan Lambert：這就是為什么我喜歡ChatGPT的桌面應(yīng)用，因為它把AI整合到了你的電腦工作中，你可以全身心投入其中，而不只是把它當(dāng)作雜亂無章的瀏覽器標(biāo)簽頁中的一個。我認(rèn)為Claude Code以及類似的特定工具在營造這種愉悅感方面做得很好。作為一種產(chǎn)品設(shè)計，它非常吸引人，充當(dāng)了一個讓你的AI走向世界的界面。Claude與OpenAI的Codex之間有一種難以言表的區(qū)別：Claude給人一種溫暖且引人入勝的感覺；而Codex雖然通常也同樣出色，但總讓人覺得在細(xì)節(jié)處理上稍微有點粗糙。相比之下，Claude Code讓構(gòu)建東西變得很有趣，尤其是從零開始的時候，你完全不用操心，因為你相信它一定能做出來。

這對搭建網(wǎng)站和類似的數(shù)據(jù)刷新工具非常有用。我用它來進(jìn)行數(shù)據(jù)分析。比如我的博客需要爬取Hugging Face的數(shù)據(jù)，以便持續(xù)保存每個數(shù)據(jù)集和模型的下載量�，F(xiàn)在我們有了這些數(shù)據(jù)，Claude就像是說：“沒問題，我已經(jīng)利用這些數(shù)據(jù)做好了分析。”我當(dāng)時心想，這原本得花掉我好幾天的時間。我有足夠的局勢感知能力去判斷它生成的趨勢是合理的，并且可以去核查。這確實是一種美妙的交互界面，你擁有了一個中間層，而不必親自去處理那些維護(hù)Web項目時必須面對的底層繁瑣工作。

4、開源 vs 閉源 LLMs

Lex Fridman：好的。剛才我們討論了一系列關(guān)于閉源模型的話題。讓我們聊聊開源模型。跟我說說開源LLM的格局。哪些模型比較有趣？哪些讓你印象深刻，為什么？我們已經(jīng)提到了DeepSeek。

Nathan Lambert：你想看看我們憑記憶能說出多少個嗎？

Lex Fridman：來吧，不用看筆記。

Nathan Lambert：DeepSeek、Kimi、MiniMax、智譜AI（Zhipu AI）、面壁智能（ModelBest）。這就已經(jīng)是不少中國模型了。然后我們把Mistral AI、Gemma也加進(jìn)來。還有GPT-OSS，也就是ChatGPT相關(guān)的開源模型。實際上，NVIDIA也有一個非常酷的模型叫Nemotron 3。特別是在年底這段時間，涌現(xiàn)了很多東西。Qwen（通義千問）也是一個顯而易見的名字。你至少可以列出10個中國的和10個西方的模型。

OpenAI實際上也發(fā)布了他們的第一個開源模型——隔了很久，自GPT-2以來。這就是我當(dāng)時寫關(guān)于“OpenAI發(fā)布開源模型”的文章時所指的。當(dāng)時人們都說“別忘了GPT-2”，我覺得這很有趣，因為那完全是不同的時代了。但GPT-OSS實際上是一個非常強(qiáng)大的模型，并且能做到其他模型做得不太好的一些事情。

出于私心，我也想推介一些西方公司。在美國和歐洲都有完全開放的模型。我在艾倫人工智能研究所工作，我們一直在構(gòu)建OLMo，并發(fā)布了數(shù)據(jù)、代碼以及所有相關(guān)內(nèi)容�，F(xiàn)在我們面臨著真正的競爭，人們正致力于發(fā)布所有內(nèi)容以便他人訓(xùn)練模型。例如基礎(chǔ)模型研究所（Institute for Foundation Models）推出的LM360，他們發(fā)布了K2模型。Apertus是一個瑞士的研究聯(lián)盟。Hugging Face推出了SmallLM，非常受歡迎。此外，NVIDIA的Nemotron也已經(jīng)開始發(fā)布數(shù)據(jù)。還有斯坦福大學(xué)的Marin社區(qū)項目，它建立了一套流程，讓人們可以通過提交GitHub issue來實現(xiàn)新想法，并使其在穩(wěn)定的語言建模棧中運行。所以在2024年，這個領(lǐng)域的名單要比以前豐富得多。我認(rèn)為這對于更多人參與進(jìn)來并理解語言模型是一件好事。

目前還沒有一家中國公司有類似的對應(yīng)機(jī)構(gòu)。我要指出的是，中國的開源語言模型往往規(guī)模大得多，這使得它們作為混合專家模型（MoE）具有更高的峰值性能。而許多我們非常喜歡的西方模型，無論是Gemma還是Nemotron，往往是來自美國的較小模型。不過這種情況正開始改變。Mistral Large 3在12月發(fā)布了，它是一個巨大的MoE模型，架構(gòu)與DeepSeek非常相似。還有一家名為Reka的初創(chuàng)公司。Nemotron和NVIDIA已經(jīng)預(yù)告了參數(shù)量遠(yuǎn)超1000億甚至達(dá)到4000億級別的MoE模型，將在2026年第一季度左右推出。所以我認(rèn)為，在“人們使用中國還是美國的開源模型”這一問題上的平衡狀態(tài)，今年將會發(fā)生改變。這是我個人非常期待看到的。

Lex Fridman：首先，非常佩服你能叫出這么多名字。LLaMA是你命名的嗎？

Nathan Lambert：不是我。

Lex Fridman：好的。你能提到有哪些表現(xiàn)突出的有趣模型嗎？你剛才提到了Qwen3顯然是一個佼佼者。

Sebastian Raschka：這一年幾乎是以DeepSeek的兩個動作作為開端和結(jié)尾的：DeepSeek V3和R1。DeepSeek V3是在2024年12月發(fā)布的，R1緊隨其后。我喜歡它們的地方在于，它們總是在架構(gòu)上有一些有趣的微調(diào)，這是其他公司所不具備的。

除此之外，如果你想選擇熟悉但性能非常出色的模型，Qwen3是個好選擇。另外我還提到了GPT-OSS。我認(rèn)為GPT-OSS的有趣之處在于，它算是第一個在訓(xùn)練時就充分考慮到“工具調(diào)用（Tool Use）”的公開權(quán)重模型。我確實認(rèn)為這在某種程度上是一種范式轉(zhuǎn)移，之前的生態(tài)系統(tǒng)尚未完全準(zhǔn)備好。

所謂“工具調(diào)用”，是指LLM能夠進(jìn)行網(wǎng)頁搜索，或者調(diào)用Python解釋器。我認(rèn)為這是一個巨大的突破。因為關(guān)于LLM最常見的抱怨之一就是“幻覺（Hallucinations）”。在我看來，解決幻覺問題的最佳方法之一，就是不要試圖讓模型總是去記憶信息或憑空捏造。對于數(shù)學(xué)問題，為什么不直接讓它使用計算器應(yīng)用或Python呢？如果我問LLM“誰贏得了1998年的世界杯？”，與其讓它去死記硬背，不如讓它完全通過搜索來回答。它會進(jìn)行工具調(diào)用來訪問Google，也許會找到FIFA官網(wǎng)，然后告訴你“哦，是法國隊”。它能可靠地為你獲取信息。

所以我認(rèn)為這是一個巨大的突破，目前尚未被開源、開放權(quán)重生態(tài)系統(tǒng)充分利用。很多人不使用工具調(diào)用模式，首先是因為信任問題。你不想在自己的電腦上運行一個擁有訪問工具權(quán)限的模型，因為它可能會抹掉你的硬盤。所以你可能需要將其容器化。但我確實認(rèn)為，擁有這種能力是未來幾年非常重要的一步。

Lex Fridman：有幾件事簡要說一下。首先，謝謝你定義了你所說的“工具調(diào)用”的具體含義。在討論這些概念時，這樣做非常好。即使是像MoE這樣已經(jīng)非常成熟的概念，你也得說明那代表“混合專家模型（Mixture of Experts）”，建立起直覺，讓人們理解那意味著什么，它是如何被實際應(yīng)用的，以及有哪些不同的變體。那么，開放模型如此爆發(fā)式增長意味著什么？你的直覺是怎么樣的？

Nathan Lambert：如果你發(fā)布一個開放模型，首要目的就是希望人們?nèi)ナ褂盟�。緊隨其后的是透明度和信任等因素。當(dāng)你觀察中國時，最大的原因在于他們希望全球用戶都能使用這些模型。如果你觀察美國以外的地區(qū)，很多人不會為軟件付費，但他們可能擁有計算資源，可以把模型部署在本地運行。此外，還有一些數(shù)據(jù)是你不想發(fā)送到云端的。因此，首要任務(wù)是讓人們開始使用AI，或者使用你的AI，因為如果沒有模型訪問權(quán)限，他們無法做到這一點。

Lex Fridman：我想我們應(yīng)該明確說明，我們一直在討論這些中國模型和權(quán)重開放模型，通常情況下，它們的運行方式是在本地運行。所以這并不是說你把數(shù)據(jù)發(fā)送到了中國，或者發(fā)送給了硅谷的任何開發(fā)者。

Nathan Lambert：沒錯。許多美國初創(chuàng)公司通過托管這些來自中國的模型并進(jìn)行銷售來賺錢，這被稱為賣Token，意味著有人會調(diào)用該模型來完成工作。

我認(rèn)為另一個原因是，像OpenAI這樣的美國公司非常缺乏GPU。他們已經(jīng)達(dá)到了GPU的極限。每當(dāng)他們發(fā)布新產(chǎn)品時，總是在說GPU資源非常緊張。在GPT-4o的發(fā)布環(huán)節(jié)中，Sam Altman曾暗示過，發(fā)布這個是因為可以利用用戶的GPU，他們不必動用自己的資源，卻仍然可以獲得分發(fā)渠道。這對他們來說沒有任何成本，是一個非�，F(xiàn)實的考量。

Sebastian Raschka：對于用戶來說，有些用戶只是像使用ChatGPT那樣在本地使用模型。但對于公司而言，擁有這些模型是一個巨大的突破，因為你可以定制它們，可以通過后期訓(xùn)練添加更多數(shù)據(jù)。比如將它們專門化為法律、醫(yī)療模型等。

此外，中國權(quán)重開放模型的吸引力在于，它們的許可協(xié)議往往更加友好，通常是無限制的開源許可（如Apache 2.0）。而如果我們使用像LLaMA或Gemma這樣的模型，其實是附帶條件的。比如在用戶數(shù)量方面有一個上限，如果你超過了幾百萬用戶，就必須向Meta之類的公司報告財務(wù)狀況。雖然它是免費模型，但確實存在束縛。人們更喜歡沒有束縛的東西。除了性能之外，這也是為什么來自中國的開源權(quán)重模型如此受歡迎的原因之一：你可以直接使用它們，沒有任何陷阱。

Nathan Lambert：在這方面，生態(tài)系統(tǒng)已經(jīng)變得更好了。當(dāng)你打開Perplexity并看到它顯示“在美國托管的Kimi-K2 Thinking”時，這真的很有趣。這正是我們所討論的現(xiàn)象。Kimi-K2是一款非常受歡迎的模型，人們評價它在創(chuàng)意寫作以及處理軟件方面表現(xiàn)出色。這些就是人們在不同模型中發(fā)現(xiàn)并喜愛的細(xì)微特質(zhì)。

Lex Fridman：那么，在這些模型探索過的想法中，有哪些是你覺得特別有趣、值得聊聊的嗎？也許我們可以按時間順序來談。

Sebastian Raschka：首先當(dāng)然是DeepSeek。如果我們聚焦2025年，R1其實是基于前一年（2024年12月）發(fā)布的DeepSeek V3。

在架構(gòu)方面，令人著迷的是，你仍然可以像我在《從零開始構(gòu)建LLM》項目中做的那樣，從GPT-2開始，通過添加組件將其轉(zhuǎn)化為另一個模型。它們之間有著非常緊密的血脈聯(lián)系。DeepSeek的獨特之處在于混合專家模型（MoE）——當(dāng)然，并不是他們發(fā)明了MoE，我們稍后可以詳細(xì)聊聊MoE具體意味著什么。除了MoE，他們還采用了多頭潛在注意力（Multi-head Latent Attention, MLA），這是對注意力機(jī)制的一種改進(jìn)。

我想說，在2025年，這些權(quán)重開放模型之間的主要區(qū)別因素在于針對推理或KV緩存（KV cache）大小所做的各種微調(diào)。其目的主要是為了讓長上下文的成本更低，通過縮小KV緩存的體積來實現(xiàn)。

我們可以做哪些調(diào)整？大部分集中在注意力機(jī)制上。DeepSeek使用了多頭潛在注意力。還有一種“分組查詢注意力（Group Query Attention, GQA）”，目前仍然非常流行，這也不是新發(fā)明的。OLMo-3使用了滑動窗口注意力（Sliding Window Attention）。這些不同的微調(diào)使得模型各不相同。但我曾把它們?nèi)糠旁谝黄恼吕镞M(jìn)行過對比，發(fā)現(xiàn)它們驚人地相似。只是在中間層有多少次Transformer塊的重復(fù)等數(shù)字上有所不同。這就像是微調(diào)了一些小旋鈕，但無論如何它都能奏效。你可以移動歸一化層來獲得性能提升。OLMo在消融實驗（Ablation Studies）中展示了移動組件對模型的具體影響。

實現(xiàn)Transformer并使其保持運行的方法有很多。目前盛行的大思路包括MoE、MLA、滑動窗口注意力以及GQA。到了年底，研究重點轉(zhuǎn)向了使注意力機(jī)制能夠隨推理Token數(shù)量線性擴(kuò)展。例如Qwen2.5-1M增加了一個門控Delta網(wǎng)絡(luò)（Gated Delta Net），有點像受到了狀態(tài)空間模型（SSM）的啟發(fā)，本質(zhì)上是用一種更廉價的操作取代了昂貴的注意力機(jī)制。

5、Transformers：2019 年以來 LLMs 的演進(jìn)

Lex Fridman：也許退一步來談?wù)凾ransformer架構(gòu)的總體情況會很有幫助。

Sebastian Raschka：好的，也許我們應(yīng)該從GPT-2架構(gòu)開始。Transformer源自《Attention Is All You Need》這篇論文，原始架構(gòu)包含編碼器（Encoder）和解碼器（Decoder）。而GPT只專注于解碼器部分。它本質(zhì)上仍然是一個神經(jīng)網(wǎng)絡(luò)，內(nèi)部包含注意力機(jī)制。你一次預(yù)測一個Token。將其通過一個嵌入層（Embedding Layer），接著是Transformer塊（包含注意力模塊和全連接層），中間還有一些歸一化層。

從GPT-2發(fā)展到現(xiàn)在，出現(xiàn)了例如混合專家（MoE）層。MoE并不是新發(fā)明的，其核心思想是在不增加每次前向傳播算力消耗的情況下，使模型參數(shù)總量變大。

在Transformer內(nèi)部有一個全連接層（可以想象成微型多層感知器MLP），它非常昂貴，因為它是全連接的。如果你有一千個輸入、一千個輸出，那就是一百萬個連接。MoE的想法是將這個全連接層擴(kuò)展為多個前饋網(wǎng)絡(luò)。假設(shè)你有256個這樣的網(wǎng)絡(luò)（專家），但你不會同時使用所有的。你有一個路由器（Router），它會根據(jù)輸入Token決定：“好的，使用這個專家網(wǎng)絡(luò)會很有用。”

這就叫混合專家。根據(jù)輸入內(nèi)容，比如是數(shù)學(xué)密集型任務(wù)，還是英譯西任務(wù)，它可能會咨詢不同的專家。當(dāng)然，這種分工并不像“數(shù)學(xué)專家”或“語言專家”那樣界限分明，它是一個更模糊的概念。但其核心思想是你把更多知識封裝進(jìn)了網(wǎng)絡(luò)，但并非所有知識都會被時刻調(diào)用，因為那樣太浪費了。在Token生成過程中，路由器會有選擇性地分配任務(wù)。這增加了復(fù)雜性和訓(xùn)練難度，有很多環(huán)節(jié)可能出錯。這可能也是為什么OLMo-3仍然使用稠密（Dense）模型的原因。稠密是指只有一個全連接模塊，并且始終被利用；而MoE被稱為稀疏（Sparse），因為只有部分專家是活躍的。

Lex Fridman：從根本上說，從GPT-2到現(xiàn)在，有多少新想法被實現(xiàn)了？比如，這些架構(gòu)之間到底有多大區(qū)別？

Sebastian Raschka：想象一下GPT-OSS中的分組查詢注意力（GQA），它只是從多頭注意力（MHA）微調(diào)而來的�；蛘咚麄儼袻ayerNorm換成了RMSNorm，但這只是一種不同的歸一化方式。非線性激活函數(shù)從Sigmoid換成ReLU，這也并沒有從根本上改變網(wǎng)絡(luò)。

這只是微調(diào)，做了一點點調(diào)整。我會說，它在本質(zhì)上并沒有那么大的不同，仍然是相同的架構(gòu)。你可以通過添加這些改動，從一個模型演進(jìn)到另一個。例如，我那本書里用的是GPT-2模型（約1.2億參數(shù)），但在獎勵材料中，我?guī)缀鯊牧汩_始構(gòu)建了Gemma 3.0。我總是從GPT-2模型開始，然后調(diào)整組件，就能從一個模型演進(jìn)到另一個。從某種意義上說，這是一種傳承。

Lex Fridman：這真的很有意思。當(dāng)你退一步審視，你會發(fā)現(xiàn)AI領(lǐng)域的發(fā)展如此迅猛，但與此同時，從根本上講，架構(gòu)并沒有發(fā)生翻天覆地的改變。那么，這種劇烈變革和進(jìn)步的動能究竟源自何處？收益究竟在哪里？

Sebastian Raschka：在開發(fā)或訓(xùn)練網(wǎng)絡(luò)的過程中存在不同的階段。在過去GPT-2的時代，只有預(yù)訓(xùn)練（Pre-training）。而現(xiàn)在，我們有了預(yù)訓(xùn)練、中訓(xùn)（Mid-training）和后訓(xùn)練（Post-training）。所以我認(rèn)為，我們目前正處于“后訓(xùn)練聚焦”階段。當(dāng)然，如果你能利用更好、更高質(zhì)量的數(shù)據(jù)進(jìn)行擴(kuò)展，預(yù)訓(xùn)練仍然會帶來優(yōu)勢。

但是，我們現(xiàn)在擁有了GPT-2所不具備的能力解鎖。例如ChatGPT，它本質(zhì)上是一個GPT-3模型。就架構(gòu)而言，GPT-3與GPT-2是相同的。新的突破在于增加了有監(jiān)督微調(diào)（SFT）以及人類反饋強(qiáng)化學(xué)習(xí)（RLHF）。所以這更多是算法層面的改進(jìn)，而非架構(gòu)層面的變革。

Nathan Lambert：我認(rèn)為系統(tǒng)層面也發(fā)生了很大變化。如果你關(guān)注過Nvidia的發(fā)布會，他們會提到諸如“現(xiàn)在支持FP8，支持FP4”之類的技術(shù)。這些實驗室正在研究如何將更多的算力投入到單個模型中，這讓他們能夠訓(xùn)練得更快，從而輸入更多數(shù)據(jù)。通過這種方式，你可以更快地找到更優(yōu)的配置。

沒錯，本質(zhì)上“每GPU每秒處理的Token數(shù)”是你進(jìn)行大規(guī)模訓(xùn)練時關(guān)注的核心指標(biāo)。通過開啟FP8訓(xùn)練，性能可以從10K提升到13K左右。這意味著模型中每個參數(shù)占用的內(nèi)存更少，通信開銷降低，從而實現(xiàn)更快的訓(xùn)練速度。所有這些系統(tǒng)層面的優(yōu)化，支撐了數(shù)據(jù)和算法上更快速的實驗迭代。

這就是一個不斷循環(huán)的過程。當(dāng)你觀察它們的架構(gòu)時，很難描述清楚，因為它們看起來幾乎一樣，但訓(xùn)練這些模型的代碼庫卻截然不同。比如訓(xùn)練GPT-OSS 20B的實際用時比當(dāng)年訓(xùn)練GPT-2要快得多。在混合專家模型（MoE）中，他們采用了FP4優(yōu)化，從而獲得了更高的吞吐量。但這并沒有賦予模型新的“能力”，這僅僅關(guān)乎我們能在多大程度上使計算變得更粗粒度，而不導(dǎo)致模型性能下降。

目前Transformer架構(gòu)的替代方案正在涌現(xiàn)，比如文本擴(kuò)散模型（Text Diffusion Models）或Mamba這種狀態(tài)空間模型（SSM）。但它們都存在權(quán)衡，事實是目前還沒有任何東西能取代自回歸Transformer作為SOTA（最先進(jìn)）模型的地位。所以對于追求最先進(jìn)性能而言，你仍然會選擇它。

6、AI Scaling Laws：它們已經(jīng)失效還是依然成立？

Lex Fridman：我想這里的大問題是，規(guī)模定律（Scaling Laws）在預(yù)訓(xùn)練、后訓(xùn)練、推理、上下文長度、數(shù)據(jù)以及合成數(shù)據(jù)方面是否依然穩(wěn)固？

Nathan Lambert：我想先從規(guī)模定律的技術(shù)定義開始。它本質(zhì)上是一種冪律關(guān)系，你可以將X軸視為算力和數(shù)據(jù)的結(jié)合，而Y軸是對下一個Token的留出預(yù)測準(zhǔn)確率。人們發(fā)現(xiàn)這是一種非�？深A(yù)測的關(guān)系，我認(rèn)為這一技術(shù)趨勢仍在繼續(xù)。

現(xiàn)在的維度更加豐富了。OpenAI的o1引入了推理時擴(kuò)展（Inference Time Scaling）。此外，你還可以通過擴(kuò)展強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練來獲得性能提升。所以目前存在三個維度：

傳統(tǒng)規(guī)模定律：即模型規(guī)模和數(shù)據(jù)集規(guī)模。

強(qiáng)化學(xué)習(xí)規(guī)模：即你可以進(jìn)行多長時間的試錯學(xué)習(xí)。

推理側(cè)算力：即讓模型針對特定問題生成更多的思維鏈Token。

我對這三者都持看好態(tài)度。過去一年在強(qiáng)化學(xué)習(xí)方面（特別是可驗證獎勵學(xué)習(xí)，即RLVR）以及推理側(cè)擴(kuò)展方面已經(jīng)達(dá)成了很多容易實現(xiàn)的目標(biāo)。這就是為什么現(xiàn)在的模型使用起來感覺如此不同：以前你會立即得到第一個Token，而現(xiàn)在它們在給出回答前會思考幾秒鐘甚至幾小時，生成隱藏的思維鏈。這在模型能力變化方面簡直是一種美妙的階躍函數(shù)。

這種能力幾乎完全源自于通過可驗證獎勵進(jìn)行的強(qiáng)化學(xué)習(xí)訓(xùn)練。當(dāng)你觀察模型生成大量Token時的推理過程，你會發(fā)現(xiàn)它經(jīng)常在嘗試：調(diào)用一個工具，查看結(jié)果；再嘗試另一個API，查看結(jié)果。模型很快就能學(xué)會執(zhí)行這些操作，這為模型在代碼庫中使用CLI命令、處理Git、整理文件等提供了通用基礎(chǔ)。

Lex Fridman：你提到你基本上看好每一種形式的Scaling。那么關(guān)于預(yù)訓(xùn)練，我們是否在暗示預(yù)訓(xùn)練規(guī)�；心切�“唾手可得的果實”已經(jīng)被采摘殆盡了？預(yù)訓(xùn)練是否遇到了瓶頸，還是你依然看好它？

Nathan Lambert：預(yù)訓(xùn)練已經(jīng)變得極其昂貴。要擴(kuò)大預(yù)訓(xùn)練規(guī)模，意味著你要提供一個非常龐大的模型。目前業(yè)內(nèi)共識是，像GPT-4這一代模型的大小大約在萬億參數(shù)量級。其實隨著訓(xùn)練效率的提高，你會希望把模型做小，因為這樣提供服務(wù)的成本會成比例下降。

相對于向數(shù)億用戶提供服務(wù)的成本來說，訓(xùn)練成本其實是非常低的。DeepSeek有一個著名的數(shù)據(jù)，按云市場價格計算，預(yù)訓(xùn)練費用約為500萬美元。在我們剛剛發(fā)布的OLMo 3論文中詳細(xì)說明了，包括工程調(diào)試、實驗和集群閑置在內(nèi)，訓(xùn)練一個模型大約花費了200萬美元。很多人都能籌到幾百萬美元來訓(xùn)練模型，但為數(shù)百萬用戶提供服務(wù)的持續(xù)成本需要耗費價值數(shù)十億美元的算力。

問題在于，如果擴(kuò)展規(guī)模確實能帶來更好的模型，它在財務(wù)上是否值得？我認(rèn)為隨著AI解決更多引人注目的任務(wù)，市場會推動這一點。比如Claude 3.5 Opus與之前的模型相比，徹底解決了我在七月份構(gòu)建項目時遇到的問題。所以進(jìn)步仍在繼續(xù)。

Lex Fridman：所以你的直覺是，如果不考慮財務(wù)可行性，僅僅從定律的角度來看，如果擴(kuò)展計算規(guī)模，模型會變得更聰明嗎？

Nathan Lambert：是的。雖然這聽起來像是對AI公司領(lǐng)導(dǎo)層的盲目信任，但這一規(guī)律已經(jīng)支撐了13個數(shù)量級的算力增長，不太可能突然停止。只是最終我們可能無法測試更大的規(guī)模，因為規(guī)模越大帶來的算力問題越多。

現(xiàn)在大家都在討論2026年，屆時超大規(guī)模云服務(wù)商將投入運營吉瓦（Gigawatt）級規(guī)模的Blackwell算力集群。這些電力和數(shù)據(jù)中心合同都是在ChatGPT發(fā)布前后簽署的，建設(shè)周期需要兩三年。實驗室將擁有更多的算力用于訓(xùn)練，這是一個既定事實。我預(yù)計我們會看到訂閱服務(wù)價格上漲，比如出現(xiàn)2000美元的訂閱服務(wù)，這都源于更大一點的模型所提供的技術(shù)優(yōu)勢。

Lex Fridman：據(jù)報道xAI將在2026年初達(dá)到1吉瓦規(guī)模，并在年底達(dá)到2吉瓦。你認(rèn)為他們會在規(guī)模定律的背景下如何利用這些資源？很大一部分是推理嗎？還是訓(xùn)練？

Nathan Lambert：結(jié)果證明是“以上所有”。你在訓(xùn)練模型時做出的所有決策最終都會回到預(yù)訓(xùn)練。即使你打算擴(kuò)展RL，你也需要決定能夠?qū)崿F(xiàn)這一點的架構(gòu)。比如我們討論的混合專家模型（MoE），其稀疏特性使得生成效率大大提高，這已成為后訓(xùn)練的重要組成部分。

但我認(rèn)為大多數(shù)算力仍然正投入到預(yù)訓(xùn)練階段，因為你仍然希望擁有盡可能最好的基礎(chǔ)模型。幾年后這可能會達(dá)到飽和，屆時RL算力投入的比例將會變大。

Lex Fridman：是否有人不同意你的觀點，認(rèn)為預(yù)訓(xùn)練基本上已經(jīng)過時了？認(rèn)為現(xiàn)在的重點全在于推理擴(kuò)展、后訓(xùn)練擴(kuò)展、上下文擴(kuò)展以及合成數(shù)據(jù)？

Nathan Lambert：人們普遍有這種感覺，但我認(rèn)為實際情況并非如此。那種“預(yù)訓(xùn)練已死”的論調(diào)只是因為興奮點轉(zhuǎn)移到了別處。

以我們在11月發(fā)布的模型為例，如果不算預(yù)訓(xùn)練，僅僅做后訓(xùn)練就花了五天時間，這對于一個300億參數(shù)的模型來說是很長的。到了12月，我們又讓強(qiáng)化學(xué)習(xí)運行了三周半，模型變得顯著更好。把這么長的時間分配給后訓(xùn)練是前所未有的。

但這并不意味著預(yù)訓(xùn)練被遺棄了。這是一種循環(huán)：你重新進(jìn)行預(yù)訓(xùn)練，然后進(jìn)行一個月的后訓(xùn)練，接著進(jìn)行安全性測試發(fā)布給用戶�？傆锌梢愿倪M(jìn)的地方。當(dāng)你使用10萬塊GPU進(jìn)行大規(guī)模預(yù)訓(xùn)練時，你會遇到截然不同的故障，幾乎肯定隨時至少有一塊GPU是宕機(jī)的。你需要讓訓(xùn)練代碼能夠處理這種冗余，這完全是另一回事。

當(dāng)我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)時，它非常適合異構(gòu)計算。簡要介紹一下語言模型的強(qiáng)化學(xué)習(xí)：你需要準(zhǔn)備兩組GPU。一組是Actor（執(zhí)行者），負(fù)責(zé)生成內(nèi)容；另一組是Learner（學(xué)習(xí)者），負(fù)責(zé)實際的策略梯度更新（如PPO或GRPO算法）。你可以讓分布在世界各地的許多不同Actor處理問題，將結(jié)果發(fā)回給Learner進(jìn)行評分和學(xué)習(xí)。

至于推理側(cè)擴(kuò)展，問題變成了：你如何向1億用戶提供一個需要思考一小時的模型服務(wù)？這背后存在巨大的系統(tǒng)性挑戰(zhàn)。

Lex Fridman：但我聽下來，你對所有這些維度的擴(kuò)展都持樂觀態(tài)度。無論是推理、邏輯推理，還是預(yù)訓(xùn)練？

Sebastian Raschka：是的。在一個假設(shè)擁有無限計算資源的世界里，你會想要全面發(fā)力：預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練、推理擴(kuò)展全部拉滿。更大的模型會賦予模型更多的知識。

但是正如Nathan所說，預(yù)訓(xùn)練變得太昂貴了。我們沒有無限的算力，所以必須進(jìn)行權(quán)衡。如果你把錢花在預(yù)訓(xùn)練上，這是一項固定成本，模型訓(xùn)練好后就永久擁有了這種能力。而對于推理側(cè)擴(kuò)展，你是為單次查詢付費。

這就變成了一筆賬：如果我的模型半年后就會被替換，也許花1億美元去訓(xùn)練更大的模型并不值得，不如花200萬美元做推理側(cè)擴(kuò)展來獲得同等的性能提升。這就是ChatGPT現(xiàn)在的策略，他們擁有海量用戶，所以選擇了一條更具性價比的路線，可能使用了一個稍微小一點的GPT-5模型配合推理擴(kuò)展。

但在某些特定任務(wù)（如奧數(shù)）中，你可能需要巔峰性能�？偠灾�，我認(rèn)為預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練以及推理側(cè)擴(kuò)展都是必須做的，關(guān)鍵在于找到合適的比例以獲得最高的性價比。

原文標(biāo)題 : Lex Fridman硬核訪談，5萬字2026 AI全景報告