123,123

直播革命來了！StreamDiffusionV2：140億參數(shù)實時視頻飆上58FPS！伯克利&韓松團隊等

2025-11-12 14:18

AI生成未來

關注

作者：Tianrui Feng等

解讀：AI生成未來

亮點直擊

StreamDiffusionV2，這是一個免訓練的流式系統(tǒng)，專為視頻擴散模型設計，用于實現(xiàn)動態(tài)交互式的視頻生成。

巧妙整合了SLO-aware批處理調度器、塊調度器、sink-token引導的滾動KV緩存以及運動感知噪聲控制器等創(chuàng)新組件，同時引入可擴展的pipeline編排機制。

該系統(tǒng)首次在多GPU環(huán)境下實現(xiàn)了實時SLO約束下的高效生成，支持從單個創(chuàng)作者到企業(yè)級平臺的廣泛應用場景。顯著提升了視頻生成的時效性和質量穩(wěn)定性，推動了AI驅動的直播流媒體向下一代發(fā)展。圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同，實時流視頻生成的目標是縮短

圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同，實時流視頻生成的目標是縮短 "到第一幀的時間"，并以較低的延遲生成連續(xù)輸出

總覽

效果展示

注：從左上到右下：參考視頻、StreamDiffusion、Causvid、StreamDiffusionV2

解決的問題

現(xiàn)有視頻擴散模型雖在離線生成中表現(xiàn)出色，但難以適應實時直播流媒體的嚴格要求。具體而言，有以下四大挑戰(zhàn)：

一是無法滿足實時SLO（如最小化首幀時間和每幀截止期限）；

二是長時序生成中出現(xiàn)漂移，導致視覺一致性下降；

三是在高速動態(tài)場景下產(chǎn)生運動撕裂和模糊；

四是多GPU擴展性差，無法在異構環(huán)境中實現(xiàn)線性FPS提升。

這些問題源于現(xiàn)有系統(tǒng)對離線批處理優(yōu)化的偏向，而忽略了在線流媒體的無限輸入和低抖動需求。本工作通過系統(tǒng)級優(yōu)化，填補了這一空白。

提出的方案

StreamDiffusionV2，這是一個端到端的免訓練pipeline，將高效視頻擴散模型轉化為實時交互式應用。其核心在于兩層優(yōu)化：一是實時調度與質量控制，包括SLO-aware批處理調度器（動態(tài)調整批大小以滿足截止期限）、自適應sink和RoPE刷新（防止長時序漂移）以及運動感知噪聲調度器（根據(jù)運動幅度適應去噪路徑）；二是可擴展pipeline編排，通過并行去噪步驟和網(wǎng)絡階段，實現(xiàn)跨GPU的近線性加速。此外，系統(tǒng)還融入了DiT塊調度器、Stream-VAE和異步通信重疊等輕量優(yōu)化，確保長時序流媒體的高利用率和穩(wěn)定性。

應用的技術

StreamDiffusionV2的實現(xiàn)融合了以下關鍵技術：

SLO感知的批處理調度器 (SLO-aware batching scheduler)： 為了在滿足SLO的同時最大化GPU利用率，調度器根據(jù)目標幀率和當前硬件負載，動態(tài)調整批大小。調度器通過調整，使系統(tǒng)的工作點逼近硬件屋頂線模型（roofline model）的“膝點”，從而實現(xiàn)吞吐量最大化。

自適應sink與RoPE刷新 (Adaptive sink and RoPE refresh)： 為應對漂移，系統(tǒng)根據(jù)新塊嵌入與舊sink集的余弦相似度來決定是否更新sink token。同時，當幀索引超過預設閾值時，周期性地重置RoPE相位，以消除累積的位置誤差。

運動感知的噪聲調度器 (Motion-aware noise scheduler)： 通過計算連續(xù)潛在幀之間的L2范數(shù)來估計運動強度，然后對歸一化后的運動強度使用指數(shù)移動平均（EMA）來平滑地更新當前幀的噪聲率，這使得高運動區(qū)域的去噪更保守，低運動區(qū)域的去噪更精細。

可擴展的pipeline編排 (Scalable pipeline orchestration)： 將DiT模塊跨GPU進行劃分，每個GPU作為一個微步（micro-step）處理其輸入，并在一個環(huán)形結構中將結果傳遞給下一個GPU。這允許多個階段并發(fā)執(zhí)行，實現(xiàn)近線性的吞吐量加速。

系統(tǒng)級協(xié)同設計： 還包括動態(tài)DiT塊調度器（根據(jù)實時耗時動態(tài)重分配模塊以平衡負載）、Stream-VAE（為流式處理優(yōu)化的低延遲VAE變體）和異步通信重疊（使用獨立的CUDA流隱藏GPU間通信延遲）。

達到的效果

StreamDiffusionV2在無需TensorRT或量化的情況下，實現(xiàn)了0.5秒內首幀渲染，并在4個H100 GPU上以14B參數(shù)模型達到58.28 FPS，以1.3B參數(shù)模型達到64.52 FPS。即使增加去噪步驟以提升質量，仍保持31.62 FPS（14B）和61.57 FPS（1.3B）。系統(tǒng)在不同分辨率、去噪步數(shù)和GPU規(guī)模下表現(xiàn)出色，支持從低延遲到高品質的靈活權衡，并在CLIP分數(shù)（98.51）和Warp Error（73.31）等指標上超越基線，顯著改善長時序一致性和運動處理能力。

方法

StreamDiffusionV2，這是一個無需訓練的流式系統(tǒng)，它同時實現(xiàn)了實時的效率和長時序的視覺穩(wěn)定性。從高層次來看，本工作的設計基于兩個關鍵的優(yōu)化層面：

（1）實時調度與質量控制，它協(xié)同整合了服務等級目標（SLO）感知的批處理、自適應的sink與RoPE刷新、以及運動感知的噪聲調度，以滿足每幀的截止期限，同時維持長時序的時序連貫性和視覺保真度；

（2）可擴展的pipeline編排，它通過跨去噪步驟和網(wǎng)絡階段進行并行化，以實現(xiàn)近線性的FPS擴展，且不違反延遲保證。此外，還探討了數(shù)個輕量級的系統(tǒng)級優(yōu)化，包括DiT塊調度器、Stream-VAE和異步通信重疊，它們進一步增強了長時間運行的直播流的吞吐量和穩(wěn)定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調度器（控制輸入大小）與pipeline協(xié)調配對，以平衡延遲和 FPS，確保每個幀在嚴格的服務限制條件下滿足其截止日期和 TTFF。(2) 質量。我們部署了運動感知噪聲控制器，以減輕高速撕裂，并將自適應匯令牌與 RoPE 刷新相結合，以提供高質量的用戶交互和數(shù)小時級的流媒體穩(wěn)定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調度器（控制輸入大�。┡cpipeline協(xié)調配對，以平衡延遲和 FPS，確保每個幀在嚴格的服務限制條件下滿足其截止日期和 TTFF。(2) 質量。我們部署了運動感知噪聲控制器，以減輕高速撕裂，并將自適應匯令牌與 RoPE 刷新相結合，以提供高質量的用戶交互和數(shù)小時級的流媒體穩(wěn)定性。

實時調度和質量控制

如圖6所示，StreamDiffusionV2通過三個關鍵組件實現(xiàn)實時視頻生成：

（1）一個SLO感知的批處理調度器，它動態(tài)調整流批次的大小，以滿足每幀的截止期限，同時最大化GPU的利用率；

（2）一個自適應的sink和RoPE刷新機制，通過周期性地重置時序錨點和位置偏移來緩解長時序漂移；

（3）一個運動感知的噪聲調度器，它根據(jù)運動的幅度來調整去噪軌跡，確保在多樣的運動狀態(tài)下都能保持清晰度和時序穩(wěn)定性。

SLO感知的批處理調度器 (SLO-aware batching scheduler) 。為了在最大化GPU利用率的同時滿足服務等級目標（SLO），本文提出了一個SLO感知的批處理調度器，用于動態(tài)調整批大小。給定一個目標幀率，系統(tǒng)每個迭代處理幀，其整體推理延遲取決于塊大小T 和批大小B ，記為L(T,B)。為確保實時處理，乘積B.T不能超過已從輸入流中收集的幀數(shù)。正如第3節(jié)所分析的，模型運行在內存受限的區(qū)域，推理延遲可以近似為：

其中A((T,B)表示激活內存的占用,Pmodel代表模型參數(shù)的內存體積，而"BWmm 是有效內存帶寬，其利用因子為（"(0<η≤1)）。在使用FlashAttention時，激活項 A(T,B) 以 O(BT) 線性擴展，導致延遲 L(T,B)成比例增長。因此，實現(xiàn)的處理頻率可以表示為 f= BT/L(T,B) ，它隨著批大小的增大而增加，因為GPU的利用率得到了提升。當系統(tǒng)接近屋頂線模型（圖4）的膝點——標志著從內存受限到計算受限的過渡——調度器會自適應地收斂到一個最優(yōu)的批大小，從而最大化吞吐效率。

圖 4 序列并行性和pipeline編排的 Roofline 分析

自適應的sink和RoPE刷新 (Adaptive sink and RoPE refresh) 。為了解決第3節(jié)中討論的漂移問題，本文引入了一種自適應的sink token更新和RoPE刷新策略，它們共同維持了連續(xù)視頻生成過程中的長時序穩(wěn)定性。與之前的方法如Self-Forcing不同，StreamDiffusionV2根據(jù)不斷演變的提示語義動態(tài)地更新sink tokens。令表示在塊處的sink集。給定一個新的塊嵌入，系統(tǒng)會計算相似度得分并刷新最不相似的sink：如果，則，否則，其中是一個相似度閾值。在實踐中，本文發(fā)現(xiàn) 應設置得較大，以確保持續(xù)與演變的文本對齊。為了防止因長時間序列中累積的RoPE偏移導致的位置漂移，本文周期性地在當前幀索引超過閾值時重置RoPE相位，即，若，則，否則。

運動感知的噪聲調度器 (Motion-aware noise scheduler) 。為了處理直播視頻中多樣的運動動態(tài)，本文提出了一個運動感知的噪聲調度器，它根據(jù)近期幀的估計運動幅度，自適應地調節(jié)去噪的噪聲率。

如圖8所示，本文使用幀間差異度量來估計連續(xù)幀之間的運動幅度。給定連續(xù)的潛在幀，運動強度為：

為了在一個較短的時間窗口（k幀）內穩(wěn)定這個測量值，本文通過一個統(tǒng)計尺度因子將其歸一化，并裁剪到[0, 1]區(qū)間內：

歸一化后的決定了系統(tǒng)應該以多大的強度去噪當前的塊。一個較高的（快速運動）對應一個更保守的去噪計劃，而一個較低的（慢速或靜態(tài)運動）則允許更強的細化以獲得更銳利的細節(jié)。最后，本文使用指數(shù)移動平均（EMA）來平滑噪聲率，以確保漸進的時序過渡：

其中 0<λ<1 控制更新率，而 Smax和Smin分別表示噪聲率的上下界。

可擴展的pipeline編排

多pipeline編排擴展 (Multi-pipeline orchestration extension) 。為了在多GPU平臺上提升系統(tǒng)吞吐量，本文提出了一種可擴展的pipeline編排方案用于并行推理。具體來說，DiT的模塊被劃分到不同的設備上。如圖7所示，每個設備將其輸入序列作為一個微步（micro-step）進行處理，并在一個環(huán)形結構內將結果傳輸?shù)较乱粋€階段。這使得模型的連續(xù)階段能夠以pipeline并行的方式并發(fā)運行，從而在DiT的吞吐量上實現(xiàn)近線性的加速。

圖 7 我們的pipeline-并行流-批處理架構的詳細設計。DiT 模塊分布在多個設備上以實現(xiàn)pipeline并行，而 Stream-Batch 策略則應用于每個階段。不同顏色表示不同的潛流，說明了通信結構，深度表示相應的噪音水平。本文實現(xiàn)保證了在推理過程中的每個微步驟都能生成干凈的潛變量。

值得注意的是，pipeline并行推理增加了階段間的通信，這與激活流量一起，使得工作負載保持在內存受限狀態(tài)。為了應對這一點并仍然滿足實時約束，本文將SLO感知的批處理機制擴展到了多pipeline設置，并將其與批-去噪策略相結合。具體地，本文在每個微步（圖7）都會產(chǎn)生一個精細去噪的輸出，同時將n個去噪步驟視為一個有效的批次乘數(shù)，從而得到一個精煉的延遲模型。調度器會根據(jù)觀察到的端到端延遲持續(xù)調整B，以使每個流的速率滿足，而聚合的吞吐量則逼近帶寬的屋頂線。

高效的系統(tǒng)-算法協(xié)同設計

DiT塊調度器 (DiT block scheduler) 。靜態(tài)分區(qū)常常會產(chǎn)生不均衡的工作負載，因為第一個和最后一個排名除了處理DiT塊外，還要處理VAE的編碼和解碼，如圖13(a)所示。這種不平衡會導致pipeline停頓和利用率降低。本文引入了一個輕量級的、在推理時運行的DiT塊調度器，它根據(jù)測量的執(zhí)行時間動態(tài)地在設備之間重新分配模塊。該調度器會搜索一個最優(yōu)的分區(qū)方案，以最小化每個階段的延遲，如圖13(b)所示，從而顯著減少了整體的pipeline氣泡。

Stream-VAE。StreamDiffusionV2集成了一個為流式推理設計的低延遲Video-VAE變體。Stream-VAE不是編碼長序列，而是處理短的視頻塊（例如4幀），并在每個3D卷積內部緩存中間特征，以維持時序的連貫性。

異步通信重疊 (Asynchronous communication overlap) 。為了進一步減少同步停頓，每個GPU都維護兩個CUDA流：一個計算流和一個通信流。GPU間的傳輸是異步執(zhí)行的，與本地計算重疊以隱藏通信延遲。這種雙流設計使每個設備的計算節(jié)奏與其通信帶寬保持一致，有效地緩解了殘余的氣泡，并在多GPUpipeline中保持了高利用率。

實驗

實驗設置包括基于Wan 2.1和CausVid的模型（免訓練），評估指標涵蓋效率（FPS、TTFF、加速率）和質量（CLIP分數(shù)、Warp Error）�；€包括Ring-Attention、DeepSpeed-Ulysses、StreamDiffusion、StreamV2V和CausVid變體。實現(xiàn)細節(jié)：在H100和RTX 4090 GPU上測試，使用bf16，無TensorRT或量化，支持1-4去噪步驟和不同分辨率。

效率評估，StreamDiffusionV2在TTFF上大幅優(yōu)于基線（如在30 FPS下為0.37s，CausVid高18倍，Wan2.1-1.3B高280倍）。FPS結果：在4 H100 GPU上，1.3B模型達64.52 FPS（512×512）、42.26 FPS（480p）；14B模型達58.28 FPS（512×512）、39.24 FPS（480p）。即使增加步驟，性能仍穩(wěn)定。

生成質量評估，本系統(tǒng)在CLIP分數(shù)（98.51）和Warp Error（73.31）上領先基線，視覺比較顯示更好的一致性和運動處理。消融研究確認sink token和運動感知噪聲控制器提升時序對齊。分析進一步驗證動態(tài)DiT塊調度器平衡負載，pipeline編排在通信和性能綁定上優(yōu)于序列并行，Stream Batch顯著提高吞吐量，尤其在多步驟下。

總結

StreamDiffusionV2，彌合了離線視頻擴散與受實時SLO約束的直播流媒體之間的差距。本免訓練系統(tǒng)將SLO-aware批處理/塊調度器與sink-token引導的滾動KV緩存、運動感知噪聲控制器以及pipeline編排相結合，后者通過并行去噪步驟和模型層實現(xiàn)近線性FPS擴展，而不違反延遲要求。它在異構GPU上運行，支持靈活步驟計數(shù)，實現(xiàn)0.5 s TTFF，并在4×H100上達到58.28 FPS（14B）/ 64.52 FPS（1.3B），即使步驟增加也能維持高FPS。這些結果使最先進的生成式直播流媒體對單個創(chuàng)作者和企業(yè)平臺都變得實用。

參考文獻

[1] StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

原文標題 : 直播革命來了！StreamDiffusionV2：140億參數(shù)實時視頻飆上58FPS！伯克利&韓松團隊等