123,123

AI應用時代，CPU有望成為下一個“存儲”機遇嗎？

2026-01-20 11:57

在算力需求暴增的今天，CPU是否會重演PC時代崛起神話？這是一個值得思考的問題。如今，大模型推理、端側AI、智能物聯(lián)網正將計算壓力推向新的臨界點。英特爾、AMD股價悄然攀升，Arm架構異軍突起，甚至連蘋果、小米都在自研芯片中加大CPU投入。

這究竟是短暫的風口，還是結構性機遇的開始？當云端集群的CPU利用率逼近紅線，當每臺終端設備都需要獨立的AI推理能力，傳統(tǒng)處理器是否已經站在爆發(fā)的邊緣？

01. 推理有望成為重要方向

隨著AI應用從實驗室走向千行百業(yè)，推理計算正取代訓練成為AI算力的主戰(zhàn)場。據IDC與浪潮信息聯(lián)合預測，2023年中國AI服務器工作負載中訓練端占比58.7%，而到2027年推理端算力需求將飆升至72.6%。當大模型逐漸成熟，企業(yè)對算力的需求不再是砸錢堆疊訓練集群，而是如何將模型高效、經濟地部署到真實業(yè)務場景中。這種轉變，讓CPU這一傳統(tǒng)通用處理器重新站在了舞臺中央。

在推理場景中，CPU的性價比優(yōu)勢正被重新發(fā)現(xiàn)。與動輒數十萬、功耗驚人的GPU相比，CPU在成本、可用性和總擁有成本(TCO)上展現(xiàn)出無可比擬的競爭力。英特爾數據顯示，使用CPU進行AI推理無需構建新的IT基礎設施，可復用既有平臺空閑算力，避免異構硬件帶來的管理復雜度。更重要的是，通過AMX加速、INT8量化優(yōu)化等技術，現(xiàn)代CPU的推理性能已實現(xiàn)質的飛躍。實測表明，經過優(yōu)化的至強處理器在ResNet-50等模型上推理速度提升可達8.24倍，精度損失不足0.17%。這種模式，正中中小企業(yè)下懷——它們不需要GPT-4級別的算力，但需要能跑通32B參數模型的經濟型方案。

CPU的用武之地，恰恰集中在AI推理的"長尾市場"。第一類是小語言模型(SLM)部署，如DeepSeek-R1 32B、Qwen-32B等模型，它們在企業(yè)級場景中文能力突出，參數規(guī)模適中，CPU完全能夠勝任。第二類是數據預處理與向量化環(huán)節(jié)，這類任務涉及文本清洗、特征提取、嵌入生成等，天然適合CPU的串行處理能力。第三類是并發(fā)量高但單次計算簡單的"長尾"推理任務，如客服問答、內容審核等，CPU可通過多核心并行處理數百個輕量級請求，實現(xiàn)更高的吞吐率。這些場景的共同點是：對延遲要求相對寬松，但對成本極度敏感，正是CPU大顯身手的舞臺。

2025年以來的許多上市公司已經將相關產品推向市場。浪潮信息(000977) 在3月率先推出元腦CPU推理服務器NF8260G7，搭載4顆英特爾至強處理器，通過張量并行和AMX加速技術，單機可高效運行DeepSeek-R1 32B模型，單用戶性能超20 tokens/s，同時處理20個并發(fā)請求。神州數碼(000034) 則在7月的WAIC大會上發(fā)布KunTai R622 K2推理服務器，基于鯤鵬CPU架構，在2U空間內支持4張加速卡，主打"高性能、低成本"路線，瞄準金融、運營商等預算敏感型行業(yè)。這些廠商的布局揭示了一個明確信號：CPU推理不是退而求其次，而是主動戰(zhàn)略選擇。

更深層的邏輯在于，AI算力正在走向"去中心化"和"場景化"。當每個工廠、每家醫(yī)院甚至每個手機都需要嵌入式推理能力時，不可能也不必要全部依賴GPU集群。CPU作為通用算力底座，能夠將AI能力無縫融入現(xiàn)有IT架構，實現(xiàn)"計算即服務"的平滑過渡。在這個意義上，CPU的確正在成為AI時代的"新存儲"：它不是最閃耀的，但卻是不可或缺的算力基礎設施。

02. CPU可能比GPU更早成為瓶頸

在Agent驅動的強化學習(RL)時代，CPU的瓶頸效應正以比GPU短缺更隱蔽卻更致命的方式浮現(xiàn)。與傳統(tǒng)單任務RL不同，現(xiàn)代Agent系統(tǒng)需要同時運行成百上千個獨立環(huán)境實例來生成訓練數據，這種"環(huán)境并行化"需求讓CPU成為事實上的第一塊短板。

2025年9月，螞蟻集團開源的AWORLD框架將Agent訓練解耦為推理/執(zhí)行端與訓練端后，被迫采用CPU集群承載海量環(huán)境實例，而GPU僅負責模型更新。這種架構選擇并非設計偏好，而是環(huán)境計算密集型的必然結果——每個Agent在與操作系統(tǒng)、代碼解釋器或GUI界面交互時，都需要獨立的CPU進程進行狀態(tài)管理、動作解析和獎勵計算，導致核心數直接決定了可同時探索的軌跡數量。

更深層的矛盾在于CPU-GPU pipeline的異步失衡。當CPU側的環(huán)境模擬速度無法匹配GPU的推理吞吐量時，policy lag(策略滯后)急劇惡化——GPU被迫空轉等待經驗數據，而Agent正在學習的策略與采集數據時的舊策略之間產生致命時差。這種滯后不僅降低樣本效率，更在PPO等on-policy算法中引發(fā)訓練震蕩，甚至導致策略發(fā)散。智元機器人2025年3月開源的VideoDataset項目印證了這一點：其CPU軟件解碼方案成為訓練瓶頸，切換到GPU硬件解碼后吞吐量提升3-4倍，CPU利用率才從飽和狀態(tài)回落。

2025年的工業(yè)級實踐進一步暴露了CPU瓶頸對收斂穩(wěn)定性的系統(tǒng)性破壞。騰訊的AtlasTraining RL框架在萬億參數模型訓練中，不得不專門設計異構計算架構來協(xié)調CPU與GPU的協(xié)作，因其發(fā)現(xiàn)環(huán)境交互的隨機種子、CPU核心調度策略的微小差異，會通過早期學習軌跡的蝴蝶效應影響最終策略性能。更嚴峻的是，多智能體強化學習(MARL)的非平穩(wěn)性加劇了這一問題——當數百個Agent策略同步更新時，CPU不僅要模擬環(huán)境，還需實時計算聯(lián)合獎勵、協(xié)調通信，這直接導致狀態(tài)空間復雜度呈指數級增長。

本質上，Agent RL將計算范式從"模型密集"轉向"環(huán)境密集"，而CPU正是環(huán)境模擬的物理載體。當Agent需要探索工具使用、長鏈推理等復雜行為時，每個環(huán)境實例都是一個小型操作系統(tǒng)，消耗1-2個CPU核心。此時，投入再多的A100或H200，若CPU核心數不足，GPU利用率仍會在30%以下徘徊，收斂時間從數周延長至數月。

2025年，這種瓶頸已從學術研究蔓延至產業(yè)實踐，解決CPU瓶頸已成為RL infra的核心戰(zhàn)場。Agent時代的算力競賽，勝負手或許不在GPU的峰值算力，而在于能否用足夠的CPU核心喂飽那些饑餓的智能體。

- End -

原文標題 : AI應用時代，CPU有望成為下一個“存儲”機遇嗎？