訂閱
糾錯(cuò)
加入自媒體

把大模型刻進(jìn)芯片,可行嗎?

圖片

最近一家叫Taalas的芯片公司橫空出世,引發(fā)行業(yè)關(guān)注。

2023年成立的多倫多初創(chuàng)公司Taalas,由芯片行業(yè)資深人士Ljubisa Bajic等人創(chuàng)立,其憑借一款HC1芯片攪動(dòng)了AI硬件市場(chǎng)的格局。這家公司跳出了傳統(tǒng)AI硬件的設(shè)計(jì)思路,將AI大模型的權(quán)重直接蝕刻到芯片的金屬互連層中,實(shí)現(xiàn)了極致的存算合一,讓芯片的推理速度達(dá)到17000 tokens/秒,遠(yuǎn)超英偉達(dá)H200的約230 tokens/秒、B200的約2000 tokens/秒。這一創(chuàng)新做法,也讓行業(yè)開始重新思考:把大模型直接刻進(jìn)芯片,究竟是打破AI硬件瓶頸的新方向,還是受限于技術(shù)迭代的小眾嘗試?

01

放棄通用性,換極致的性能與能效

Taalas的HC1芯片,本質(zhì)上是徹底拋棄“一顆芯片跑所有模型”的通用路線,轉(zhuǎn)向“為特定模型定制硅結(jié)構(gòu)”。這款芯片采用臺(tái)積電6nm工藝和Mask ROM技術(shù),將模型權(quán)重直接硬編碼在硅片上,從物理層面消除了計(jì)算與存儲(chǔ)之間的數(shù)據(jù)搬運(yùn),大幅破解了困擾行業(yè)的內(nèi)存墻問題。同時(shí),它摒棄了液冷方案和HBM顯存,改用空氣冷卻,在降低功耗的同時(shí)也減少了硬件成本,配套的軟件棧也因模型權(quán)重和結(jié)構(gòu)的硬件固化變得極度簡化,無需復(fù)雜的優(yōu)化層,進(jìn)一步提升了性能和能效比。

這份極致的定制化,讓HC1芯片在性能和成本上展現(xiàn)出顯著優(yōu)勢(shì):其token處理速度達(dá)到英偉達(dá)最強(qiáng)GPU的近10倍,硬件成本僅為傳統(tǒng)GPU方案的1/20,功耗也降至1/10。但與之相伴的,是通用性的完全犧牲——HC1芯片僅能運(yùn)行特定的Llama 3.1 8B模型,任何模型的更新迭代,都意味著芯片需要重新流片。當(dāng)然,這種極端專用化也能擴(kuò)展到更大的模型。Taalas 給出了他們對(duì) DeepSeek R1 671B 的模擬數(shù)據(jù)。671B 參數(shù)的模型需要大約 30 顆芯片協(xié)同工作,每顆芯片承載約 20B 參數(shù)(采用 MXFP4 格式,并將 SRAM 分離到獨(dú)立芯片以提高密度)。30 顆芯片意味著 30 次增量流片,但 Bajic 指出由于每次只改兩層掩模,增量流片成本并不高。

這一特點(diǎn)也決定了Taalas的市場(chǎng)定位,它并非要成為“下一個(gè)英偉達(dá)”,而是瞄準(zhǔn)AI推理的細(xì)分環(huán)節(jié),成為該領(lǐng)域的專用供應(yīng)商,其思路與Groq推出的LPU相似,且在專用化的道路上走得更遠(yuǎn)。

目前Taalas的商業(yè)模式仍在探索中,主要有自建基礎(chǔ)設(shè)施提供API服務(wù)、直接銷售芯片、與模型開發(fā)者合作定制專用芯片三種可能。而這一極端專用化的方案能否被市場(chǎng)接受,主要取決于特定應(yīng)用場(chǎng)景對(duì)延遲的敏感程度,以及模型本身的長期穩(wěn)定性。盡管存在明顯的局限性,但對(duì)于高頻金融交易、自動(dòng)駕駛、軍事裝備等對(duì)延遲高度敏感且模型相對(duì)穩(wěn)定的場(chǎng)景,HC1芯片的技術(shù)方案仍具備不可替代的價(jià)值。

02

推理芯片的賽道,多元技術(shù)路線的探索

在AI硬件領(lǐng)域,GPU在訓(xùn)練環(huán)節(jié)的優(yōu)勢(shì)依舊無可撼動(dòng),但在推理環(huán)節(jié),GPU卻暴露了“貴且慢”的短板,這也讓推理芯片成為眾多初創(chuàng)企業(yè)的創(chuàng)新賽場(chǎng)。除了Taalas的硬編碼方案,行業(yè)內(nèi)還誕生了多種技術(shù)路線,各家都在通過放棄某一傳統(tǒng)設(shè)計(jì)要素,換取推理環(huán)節(jié)的性能突破,形成了各具特色的技術(shù)探索。

圖片

Taalas選擇放棄軟件,走硬連線的路線,將模型的權(quán)重和數(shù)據(jù)流直接變成物理連線,在其設(shè)計(jì)邏輯中,軟件是純粹的開銷,指令集更是一種浪費(fèi),甚至連編譯器都無需配備,模型確定后便直接流片。這種設(shè)計(jì)讓芯片的功耗和成本壓至極低,但容錯(cuò)率也降為0,模型的任何變動(dòng)都會(huì)讓芯片失去使用價(jià)值。

Etched選擇把架構(gòu)刻進(jìn)芯片。他們的第一塊AI芯片是一種專用的集成電路(ASIC),聲稱在AI大語言模型(LLM)推理方面擊敗了英偉達(dá)的H100。由于它是ASIC,所以Etched需要把transformer架構(gòu)刻蝕在芯片上。通過把Transformer的計(jì)算邏輯,注意力機(jī)制、矩陣乘法、激活函數(shù),直接硬編碼進(jìn)芯片的電路設(shè)計(jì)中,效率實(shí)現(xiàn)了指數(shù)級(jí)提升。但這同時(shí)也意味著完全喪失靈活性:無法運(yùn)行循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),無法跑推薦系統(tǒng)模型,無法做任何非Transformer的AI任務(wù)。

Groq則推出了專屬的LPU(語言處理單元),采用純SRAM架構(gòu),摒棄了硬件調(diào)度器、緩存一致性協(xié)議和分支預(yù)測(cè)等傳統(tǒng)設(shè)計(jì)。其核心邏輯是讓硬件保持100%的確定性,數(shù)據(jù)的傳輸和運(yùn)算全靠編譯器在軟件層面提前進(jìn)行周期級(jí)的精確規(guī)劃。這一方案讓芯片在批處理(Batch=1)時(shí)的推理速度極快,而Groq的核心競(jìng)爭(zhēng)力,也并非芯片本身,而是能調(diào)度海量并行指令的編譯器軟件。

Cerebras的核心產(chǎn)品WSE(晶圓級(jí)引擎),跳出了傳統(tǒng)的芯片切割思路,直接將整塊晶圓作為一顆大芯片,晶圓上集成了海量的SRAM和計(jì)算核心。該設(shè)計(jì)的底層邏輯,是從物理層面解決芯片間數(shù)據(jù)傳輸?shù)膬?nèi)存墻問題,畢竟芯片間的數(shù)據(jù)交互是速度最慢、能耗最高的環(huán)節(jié)。這一方案讓芯片獲得了無敵的帶寬,但也讓制造、散熱、容錯(cuò)的物理工程難度達(dá)到了極致。

Tenstorrent(由芯片大神Jim Keller創(chuàng)立)則選擇擁抱開源與解耦,其路線是RISC-V指令集搭配矩陣計(jì)算單元(Tensix),打造高度可編程的數(shù)據(jù)流架構(gòu)。這家企業(yè)也是四家之中最不“ASIC”的存在,Jim Keller認(rèn)為,AI算法仍處于快速迭代的階段,硬件設(shè)計(jì)絕不能寫死,因此采用靈活的RISC-V指令集處理控制流,再通過異構(gòu)網(wǎng)絡(luò)將成千上萬個(gè)小芯片連接起來。這一方案讓芯片更接近“通用計(jì)算機(jī)”,其賭點(diǎn)在于未來的AI并非單一的Transformer架構(gòu),而是會(huì)發(fā)展為包含大量條件判斷、邏輯推理的復(fù)雜軟件工程。

03

回望歷史:固化硬件的教訓(xùn),不同層級(jí)的綁定風(fēng)險(xiǎn)

把程序刻進(jìn)硬件的思路,并非Taalas首創(chuàng),在科技發(fā)展史上早有先例,而這些先例的興衰,也為大模型刻進(jìn)芯片的方案提供了重要的參考。

上世紀(jì)90年代末的3dfx Voodoo顯卡,曾是3D圖形領(lǐng)域的標(biāo)桿,其成功與失敗都源于同一個(gè)設(shè)計(jì)邏輯——將3D渲染的步驟完全硬件化。它把3D游戲的光柵渲染步驟(頂點(diǎn)矩陣、光照、貼圖等計(jì)算)做成“固定管線”直接刻死在電路中,專款專用的設(shè)計(jì)讓其在3D游戲運(yùn)行上的速度碾壓同期產(chǎn)品,成為3D顯卡的代名詞。但到了1999年之后,開發(fā)者開始探索更豐富的3D效果,如水景反光、皮膚質(zhì)感等,而Voodoo顯卡因硬件固化無法支持這些新功能,最終被推出“可編程著色器”的英偉達(dá)GeForce GPU取代,走向破產(chǎn)并被英偉達(dá)收購。

2016-2018年,AI領(lǐng)域的主要算法是用于圖像識(shí)別的CNN(卷積神經(jīng)網(wǎng)絡(luò)),一大批芯片創(chuàng)業(yè)公司針對(duì)CNN的計(jì)算模式,在硬件上設(shè)計(jì)了專門的“卷積加速引擎”,這類芯片在處理人臉識(shí)別、自動(dòng)駕駛的圖像識(shí)別任務(wù)時(shí),速度快、能耗低,與如今Taalas的思路高度相似。但2017年《Attention is All You Need》的發(fā)布,以及2018年BERT的橫空出世,讓大模型的底層數(shù)學(xué)邏輯從“局部卷積”徹底轉(zhuǎn)向“全局自注意力機(jī)制”,那些將CNN邏輯刻死在芯片里的企業(yè),因硬件缺乏通用矩陣計(jì)算能力,運(yùn)行Transformer架構(gòu)的效率極低,甚至無法運(yùn)行,這也讓第一波AI芯片潮中,大部分專注特定視覺算法的初創(chuàng)公司黯然退場(chǎng)。

對(duì)比這兩個(gè)案例與Taalas的方案可以發(fā)現(xiàn),三者的硬件固化程度存在本質(zhì)差異:Voodoo顯卡固化的是渲染管線,即便技術(shù)迭代,只要仍運(yùn)行3D游戲它依然能使用,只是畫面效果落后;CNN芯片固化的是算法,人臉識(shí)別等傳統(tǒng)場(chǎng)景中它依舊能發(fā)揮作用,只是適用場(chǎng)景大幅收窄;而Taalas固化的是特定的模型,一旦模型更新,芯片便會(huì)直接報(bào)廢。這種極致的綁定,也讓Taalas的方案背上了最大的風(fēng)險(xiǎn)——它賭的是AI算法已經(jīng)進(jìn)入“平臺(tái)期”,架構(gòu)上難以再有突破性進(jìn)步,但現(xiàn)實(shí)是,當(dāng)前AI模型的迭代周期甚至以周計(jì)算,只要行業(yè)競(jìng)爭(zhēng)不停止,模型的標(biāo)準(zhǔn)就無從談起,前沿AI領(lǐng)域的技術(shù)變化,始終是懸在這款芯片頭上的達(dá)摩克利斯之劍。

04

并非普適方案,卻在特定場(chǎng)景中具備價(jià)值

從前沿AI研發(fā)的角度來看,將大模型刻進(jìn)芯片的技術(shù)路線顯然并不可行,但這并不意味著該方案毫無市場(chǎng),在大量模型需求相對(duì)固定的場(chǎng)景中,它恰好能解決大模型推理延遲過長的痛點(diǎn),展現(xiàn)出獨(dú)特的應(yīng)用價(jià)值。

工業(yè)領(lǐng)域中,大模型下車間成為趨勢(shì),很多場(chǎng)景并不需要性能頂尖的大模型,只需用蒸餾后的輕量模型(如qwen2.5)就能解決傳統(tǒng)軟件定制化開發(fā)的問題,這類場(chǎng)景對(duì)模型的穩(wěn)定性要求遠(yuǎn)高于迭代速度,將輕量模型刻進(jìn)芯片,能完美解決推理延遲的問題;政務(wù)系統(tǒng)的大模型應(yīng)用中,部署后通常會(huì)斷開外網(wǎng),模型本身無法在線更新,此時(shí)將模型固化為硬件,后續(xù)的模型更新只需替換硬件,反而比軟件更新更便捷;消費(fèi)電子領(lǐng)域,翻譯、TTS等小模型如果做成專用芯片并集成進(jìn)手機(jī)等設(shè)備中,能為設(shè)備提供保底的離線智能能力,即便后續(xù)出現(xiàn)更優(yōu)的模型,也能滿足用戶的基礎(chǔ)需求,同時(shí)相比手機(jī)直接運(yùn)行小模型,專用芯片還能大幅提升設(shè)備的續(xù)航能力。

而在對(duì)延遲和離線運(yùn)行能力有極致要求的特殊場(chǎng)景中,把大模型刻進(jìn)芯片的方案更是展現(xiàn)出不可替代的優(yōu)勢(shì),成為這些領(lǐng)域的最佳選擇之一。在智能駕駛領(lǐng)域,車輛遇到臨時(shí)修路、交警現(xiàn)場(chǎng)指揮等突發(fā)狀況時(shí),需要的是低于1毫秒的“本能邏輯推理反射”,傳統(tǒng)自動(dòng)駕駛芯片僅擅長快速圖像識(shí)別,無法處理這類復(fù)雜的邏輯推理,而云端大模型的反饋又存在延遲,固化了大模型的專用芯片,能實(shí)現(xiàn)本地的極速推理,應(yīng)對(duì)各類突發(fā)狀況;在高頻量化金融領(lǐng)域,美聯(lián)儲(chǔ)講話、非農(nóng)數(shù)據(jù)、企業(yè)財(cái)報(bào)等信息的發(fā)布往往伴隨市場(chǎng)的快速波動(dòng),專用芯片能以極高的速度,快速解析信息,判斷市場(chǎng)走向并轉(zhuǎn)化為交易信號(hào),相當(dāng)于為量化交易開掛;在軍工領(lǐng)域,無需聯(lián)網(wǎng)、固化在物理硬件中的大模型芯片,即便身處斷網(wǎng)的“信息孤島”,也能憑借出廠時(shí)的龐大參數(shù),獨(dú)立進(jìn)行極速的戰(zhàn)術(shù)分析和保密決策。

同時(shí),人們也無需擔(dān)心固化在芯片中的大模型會(huì)因無法迭代,導(dǎo)致知識(shí)永遠(yuǎn)停留在出廠階段。實(shí)際上,芯片固化的只是模型本身的架構(gòu)和權(quán)重,模型無法再進(jìn)化,但它的邏輯推理、知識(shí)檢索能力依舊保持頂級(jí);而且刻入芯片的大模型并非失去聯(lián)網(wǎng)能力,仍可通過聯(lián)網(wǎng)獲取最新信息,進(jìn)行分析和問題解決,只是不再通過模型迭代實(shí)現(xiàn)能力升級(jí)。

05

爭(zhēng)議與未來可能性:一場(chǎng)關(guān)于迭代周期的博弈

把大模型刻進(jìn)芯片的方案,其未來的發(fā)展前景,將圍繞著迭代周期和成本的博弈展開,這也是行業(yè)對(duì)該方案的主要爭(zhēng)議點(diǎn)。

Taalas的競(jìng)爭(zhēng)力之一,是宣稱能將“大模型轉(zhuǎn)化為定制芯片”的周期,從傳統(tǒng)的一年縮短至兩個(gè)月,同時(shí)因拋棄了昂貴的HBM芯片,采用6nm工藝的專用芯片,硬件成本僅為英偉達(dá)H100等GPU方案的1/20。從成本角度來看,這一方案的優(yōu)勢(shì)十分明顯,按照17000tps的處理速度計(jì)算,單顆HC1芯片的處理能力堪比英偉達(dá)的8卡服務(wù)器,只要單芯片總成本不超過1萬美元,就具備極強(qiáng)的市場(chǎng)競(jìng)爭(zhēng)力。

真正的問題在于迭代周期,即便兩個(gè)月的流片周期已經(jīng)大幅縮短,但當(dāng)前AI模型的迭代基本以月為單位,兩個(gè)月的時(shí)間足夠競(jìng)爭(zhēng)對(duì)手推出新一代模型,芯片剛量產(chǎn)就面臨落后的局面,這也是該方案最致命的短板。此外,將軟件時(shí)代迭代最快、最不穩(wěn)定的模型,綁定為硬件時(shí)代迭代最慢、最穩(wěn)定的對(duì)象,這種做法本質(zhì)上是犧牲了技術(shù)的抽象性,換取短期內(nèi)亮眼的性能數(shù)據(jù),這也是行業(yè)對(duì)該方案的主要質(zhì)疑。

不過,Taalas為芯片設(shè)計(jì)了LoRa掛載能力,一定程度上能彌補(bǔ)模型無法迭代的短板;同時(shí),該方案的本質(zhì)是一個(gè)經(jīng)濟(jì)學(xué)問題,隨著大模型技術(shù)的發(fā)展,其架構(gòu)和能力終將逼近極限,模型的更新周期也會(huì)逐步變長,當(dāng)模型迭代速度慢于芯片的流片速度時(shí),這一方案的經(jīng)濟(jì)價(jià)值便會(huì)凸顯。Taalas的賭點(diǎn),正是大模型技術(shù)會(huì)進(jìn)入發(fā)展停滯期,當(dāng)技術(shù)成熟、模型無需頻繁更新底座時(shí),其提前布局的專用芯片方案,便能成為業(yè)界領(lǐng)先的存在。

06

結(jié)語

把大模型刻進(jìn)芯片,并非能顛覆AI硬件市場(chǎng)的普適性技術(shù)路線,在前沿AI研發(fā)領(lǐng)域,因模型的快速迭代,這一方案的局限性被無限放大,難以成為主流。但不可否認(rèn)的是,Taalas的嘗試為AI芯片的發(fā)展提供了全新的視角,其犧牲通用性換取極致性能和能效的思路,切中了AI推理細(xì)分環(huán)節(jié)的市場(chǎng)需求,為存算合一、定制化硬件的設(shè)計(jì)方向提供了重要參考。

這一技術(shù)路線的未來,終究取決于AI模型的迭代速度與行業(yè)場(chǎng)景需求的平衡。當(dāng)大模型技術(shù)進(jìn)入穩(wěn)定期,那些對(duì)延遲、離線運(yùn)行有極致要求的固定場(chǎng)景,終將成為大模型專用芯片的市場(chǎng);而即便技術(shù)迭代始終保持高速,這一方案的創(chuàng)新思路,也會(huì)推動(dòng)行業(yè)不斷探索更高效的AI硬件設(shè)計(jì),讓AI硬件的發(fā)展朝著多元化、場(chǎng)景化的方向不斷前進(jìn)。

       原文標(biāo)題 : 把大模型刻進(jìn)芯片,可行嗎?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)