訂閱
糾錯
加入自媒體

直播革命來了!StreamDiffusionV2:140億參數(shù)實時視頻飆上58FPS!伯克利&韓松團隊等

2025-11-12 14:18
AI生成未來
關注

作者:Tianrui Feng等

解讀:AI生成未來

亮點直擊

StreamDiffusionV2,這是一個免訓練的流式系統(tǒng),專為視頻擴散模型設計,用于實現(xiàn)動態(tài)交互式的視頻生成。

巧妙整合了SLO-aware批處理調(diào)度器、塊調(diào)度器、sink-token引導的滾動KV緩存以及運動感知噪聲控制器等創(chuàng)新組件,同時引入可擴展的pipeline編排機制。

該系統(tǒng)首次在多GPU環(huán)境下實現(xiàn)了實時SLO約束下的高效生成,支持從單個創(chuàng)作者到企業(yè)級平臺的廣泛應用場景。顯著提升了視頻生成的時效性和質(zhì)量穩(wěn)定性,推動了AI驅(qū)動的直播流媒體向下一代發(fā)展。圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同,實時流視頻生成的目標是縮短

圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同,實時流視頻生成的目標是縮短 "到第一幀的時間",并以較低的延遲生成連續(xù)輸出

總覽

效果展示

注:從左上到右下:參考視頻、StreamDiffusion、Causvid、StreamDiffusionV2

解決的問題

現(xiàn)有視頻擴散模型雖在離線生成中表現(xiàn)出色,但難以適應實時直播流媒體的嚴格要求。具體而言,有以下四大挑戰(zhàn):

一是無法滿足實時SLO(如最小化首幀時間和每幀截止期限);

二是長時序生成中出現(xiàn)漂移,導致視覺一致性下降;

三是在高速動態(tài)場景下產(chǎn)生運動撕裂和模糊;

四是多GPU擴展性差,無法在異構(gòu)環(huán)境中實現(xiàn)線性FPS提升。

這些問題源于現(xiàn)有系統(tǒng)對離線批處理優(yōu)化的偏向,而忽略了在線流媒體的無限輸入和低抖動需求。本工作通過系統(tǒng)級優(yōu)化,填補了這一空白。

提出的方案

StreamDiffusionV2,這是一個端到端的免訓練pipeline,將高效視頻擴散模型轉(zhuǎn)化為實時交互式應用。其核心在于兩層優(yōu)化:一是實時調(diào)度與質(zhì)量控制,包括SLO-aware批處理調(diào)度器(動態(tài)調(diào)整批大小以滿足截止期限)、自適應sink和RoPE刷新(防止長時序漂移)以及運動感知噪聲調(diào)度器(根據(jù)運動幅度適應去噪路徑);二是可擴展pipeline編排,通過并行去噪步驟和網(wǎng)絡階段,實現(xiàn)跨GPU的近線性加速。此外,系統(tǒng)還融入了DiT塊調(diào)度器、Stream-VAE和異步通信重疊等輕量優(yōu)化,確保長時序流媒體的高利用率和穩(wěn)定性。

應用的技術

StreamDiffusionV2的實現(xiàn)融合了以下關鍵技術:

SLO感知的批處理調(diào)度器 (SLO-aware batching scheduler): 為了在滿足SLO的同時最大化GPU利用率,調(diào)度器根據(jù)目標幀率  和當前硬件負載,動態(tài)調(diào)整批大小 。調(diào)度器通過調(diào)整 ,使系統(tǒng)的工作點逼近硬件屋頂線模型(roofline model)的“膝點”,從而實現(xiàn)吞吐量最大化。

自適應sink與RoPE刷新 (Adaptive sink and RoPE refresh): 為應對漂移,系統(tǒng)根據(jù)新塊嵌入  與舊sink集  的余弦相似度  來決定是否更新sink token。同時,當幀索引  超過預設閾值  時,周期性地重置RoPE相位 ,以消除累積的位置誤差。

運動感知的噪聲調(diào)度器 (Motion-aware noise scheduler): 通過計算連續(xù)潛在幀 之間的L2范數(shù)來估計運動強度 ,然后對歸一化后的運動強度  使用指數(shù)移動平均(EMA)來平滑地更新當前幀的噪聲率 ,這使得高運動區(qū)域的去噪更保守,低運動區(qū)域的去噪更精細。

可擴展的pipeline編排 (Scalable pipeline orchestration): 將DiT模塊跨GPU進行劃分,每個GPU作為一個微步(micro-step)處理其輸入,并在一個環(huán)形結(jié)構(gòu)中將結(jié)果傳遞給下一個GPU。這允許多個階段并發(fā)執(zhí)行,實現(xiàn)近線性的吞吐量加速。

系統(tǒng)級協(xié)同設計: 還包括動態(tài)DiT塊調(diào)度器(根據(jù)實時耗時動態(tài)重分配模塊以平衡負載)、Stream-VAE(為流式處理優(yōu)化的低延遲VAE變體)和異步通信重疊(使用獨立的CUDA流隱藏GPU間通信延遲)。

達到的效果

StreamDiffusionV2在無需TensorRT或量化的情況下,實現(xiàn)了0.5秒內(nèi)首幀渲染,并在4個H100 GPU上以14B參數(shù)模型達到58.28 FPS,以1.3B參數(shù)模型達到64.52 FPS。即使增加去噪步驟以提升質(zhì)量,仍保持31.62 FPS(14B)和61.57 FPS(1.3B)。系統(tǒng)在不同分辨率、去噪步數(shù)和GPU規(guī)模下表現(xiàn)出色,支持從低延遲到高品質(zhì)的靈活權(quán)衡,并在CLIP分數(shù)(98.51)和Warp Error(73.31)等指標上超越基線,顯著改善長時序一致性和運動處理能力。

方法

StreamDiffusionV2,這是一個無需訓練的流式系統(tǒng),它同時實現(xiàn)了實時的效率和長時序的視覺穩(wěn)定性。從高層次來看,本工作的設計基于兩個關鍵的優(yōu)化層面:

(1)實時調(diào)度與質(zhì)量控制,它協(xié)同整合了服務等級目標(SLO)感知的批處理、自適應的sink與RoPE刷新、以及運動感知的噪聲調(diào)度,以滿足每幀的截止期限,同時維持長時序的時序連貫性和視覺保真度;

(2)可擴展的pipeline編排,它通過跨去噪步驟和網(wǎng)絡階段進行并行化,以實現(xiàn)近線性的FPS擴展,且不違反延遲保證。此外,還探討了數(shù)個輕量級的系統(tǒng)級優(yōu)化,包括DiT塊調(diào)度器、Stream-VAE和異步通信重疊,它們進一步增強了長時間運行的直播流的吞吐量和穩(wěn)定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調(diào)度器(控制輸入大。┡cpipeline協(xié)調(diào)配對,以平衡延遲和 FPS,確保每個幀在嚴格的服務限制條件下滿足其截止日期和 TTFF。(2) 質(zhì)量。我們部署了運動感知噪聲控制器,以減輕高速撕裂,并將自適應匯令牌與 RoPE 刷新相結(jié)合,以提供高質(zhì)量的用戶交互和數(shù)小時級的流媒體穩(wěn)定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調(diào)度器(控制輸入大小)與pipeline協(xié)調(diào)配對,以平衡延遲和 FPS,確保每個幀在嚴格的服務限制條件下滿足其截止日期和 TTFF。(2) 質(zhì)量。我們部署了運動感知噪聲控制器,以減輕高速撕裂,并將自適應匯令牌與 RoPE 刷新相結(jié)合,以提供高質(zhì)量的用戶交互和數(shù)小時級的流媒體穩(wěn)定性。

實時調(diào)度和質(zhì)量控制

如圖6所示,StreamDiffusionV2通過三個關鍵組件實現(xiàn)實時視頻生成:

(1)一個SLO感知的批處理調(diào)度器,它動態(tài)調(diào)整流批次的大小,以滿足每幀的截止期限,同時最大化GPU的利用率;

(2)一個自適應的sink和RoPE刷新機制,通過周期性地重置時序錨點和位置偏移來緩解長時序漂移;

(3)一個運動感知的噪聲調(diào)度器,它根據(jù)運動的幅度來調(diào)整去噪軌跡,確保在多樣的運動狀態(tài)下都能保持清晰度和時序穩(wěn)定性。

SLO感知的批處理調(diào)度器 (SLO-aware batching scheduler) 。為了在最大化GPU利用率的同時滿足服務等級目標(SLO),本文提出了一個SLO感知的批處理調(diào)度器,用于動態(tài)調(diào)整批大小。給定一個目標幀率 ,系統(tǒng)每個迭代處理  幀,其整體推理延遲取決于塊大小T 和批大小B ,記為L(T,B)。為確保實時處理,乘積B.T不能超過已從輸入流中收集的幀數(shù)。正如第3節(jié)所分析的,模型運行在內(nèi)存受限的區(qū)域,推理延遲可以近似為:

其中A((T,B)表示激活內(nèi)存的占用,Pmodel代表模型參數(shù)的內(nèi)存體積,而"BWmm 是有效內(nèi)存帶寬,其利用因子為 ("(0<η≤1))。在使用FlashAttention時,激活項 A(T,B) 以 O(BT) 線性擴展,導致延遲 L(T,B)成比例增長。因此,實現(xiàn)的處理頻率可以表示為  f= BT/L(T,B) ,它隨著批大小  的增大而增加,因為GPU的利用率得到了提升。當系統(tǒng)接近屋頂線模型(圖4)的膝點——標志著從內(nèi)存受限到計算受限的過渡——調(diào)度器會自適應地收斂到一個最優(yōu)的批大小 ,從而最大化吞吐效率。

圖 4 序列并行性和pipeline編排的 Roofline 分析圖 4 序列并行性和pipeline編排的 Roofline 分析

自適應的sink和RoPE刷新 (Adaptive sink and RoPE refresh) 。為了解決第3節(jié)中討論的漂移問題,本文引入了一種自適應的sink token更新和RoPE刷新策略,它們共同維持了連續(xù)視頻生成過程中的長時序穩(wěn)定性。與之前的方法如Self-Forcing不同,StreamDiffusionV2根據(jù)不斷演變的提示語義動態(tài)地更新sink tokens。令  表示在塊  處的sink集。給定一個新的塊嵌入 ,系統(tǒng)會計算相似度得分  并刷新最不相似的sink:如果 ,則 ,否則 ,其中  是一個相似度閾值。在實踐中,本文發(fā)現(xiàn)  應設置得較大,以確保持續(xù)與演變的文本對齊。為了防止因長時間序列中累積的RoPE偏移導致的位置漂移,本文周期性地在當前幀索引  超過閾值  時重置RoPE相位,即,若 ,則 ,否則 。

運動感知的噪聲調(diào)度器 (Motion-aware noise scheduler) 。為了處理直播視頻中多樣的運動動態(tài),本文提出了一個運動感知的噪聲調(diào)度器,它根據(jù)近期幀的估計運動幅度,自適應地調(diào)節(jié)去噪的噪聲率。

如圖8所示,本文使用幀間差異度量來估計連續(xù)幀之間的運動幅度。給定連續(xù)的潛在幀 ,運動強度  為:

為了在一個較短的時間窗口(k幀)內(nèi)穩(wěn)定這個測量值,本文通過一個統(tǒng)計尺度因子  將其歸一化,并裁剪到[0, 1]區(qū)間內(nèi):

歸一化后的  決定了系統(tǒng)應該以多大的強度去噪當前的塊。一個較高的 (快速運動)對應一個更保守的去噪計劃,而一個較低的 (慢速或靜態(tài)運動)則允許更強的細化以獲得更銳利的細節(jié)。最后,本文使用指數(shù)移動平均(EMA)來平滑噪聲率 ,以確保漸進的時序過渡:

其中  0<λ<1 控制更新率,而 Smax和Smin分別表示噪聲率的上下界。

可擴展的pipeline編排

多pipeline編排擴展 (Multi-pipeline orchestration extension) 。為了在多GPU平臺上提升系統(tǒng)吞吐量,本文提出了一種可擴展的pipeline編排方案用于并行推理。具體來說,DiT的模塊被劃分到不同的設備上。如圖7所示,每個設備將其輸入序列作為一個微步(micro-step)進行處理,并在一個環(huán)形結(jié)構(gòu)內(nèi)將結(jié)果傳輸?shù)较乱粋階段。這使得模型的連續(xù)階段能夠以pipeline并行的方式并發(fā)運行,從而在DiT的吞吐量上實現(xiàn)近線性的加速。

圖 7 我們的pipeline-并行流-批處理架構(gòu)的詳細設計。DiT 模塊分布在多個設備上以實現(xiàn)pipeline并行,而 Stream-Batch 策略則應用于每個階段。不同顏色表示不同的潛流,說明了通信結(jié)構(gòu),深度表示相應的噪音水平。本文實現(xiàn)保證了在推理過程中的每個微步驟都能生成干凈的潛變量。

圖 7 我們的pipeline-并行流-批處理架構(gòu)的詳細設計。DiT 模塊分布在多個設備上以實現(xiàn)pipeline并行,而 Stream-Batch 策略則應用于每個階段。不同顏色表示不同的潛流,說明了通信結(jié)構(gòu),深度表示相應的噪音水平。本文實現(xiàn)保證了在推理過程中的每個微步驟都能生成干凈的潛變量。

值得注意的是,pipeline并行推理增加了階段間的通信,這與激活流量一起,使得工作負載保持在內(nèi)存受限狀態(tài)。為了應對這一點并仍然滿足實時約束,本文將SLO感知的批處理機制擴展到了多pipeline設置,并將其與批-去噪策略相結(jié)合。具體地,本文在每個微步(圖7)都會產(chǎn)生一個精細去噪的輸出,同時將n個去噪步驟視為一個有效的批次乘數(shù),從而得到一個精煉的延遲模型 。調(diào)度器會根據(jù)觀察到的端到端延遲持續(xù)調(diào)整B,以使每個流的速率滿足 ,而聚合的吞吐量則逼近帶寬的屋頂線。

高效的系統(tǒng)-算法協(xié)同設計

DiT塊調(diào)度器 (DiT block scheduler) 。靜態(tài)分區(qū)常常會產(chǎn)生不均衡的工作負載,因為第一個和最后一個排名除了處理DiT塊外,還要處理VAE的編碼和解碼,如圖13(a)所示。這種不平衡會導致pipeline停頓和利用率降低。本文引入了一個輕量級的、在推理時運行的DiT塊調(diào)度器,它根據(jù)測量的執(zhí)行時間動態(tài)地在設備之間重新分配模塊。該調(diào)度器會搜索一個最優(yōu)的分區(qū)方案,以最小化每個階段的延遲,如圖13(b)所示,從而顯著減少了整體的pipeline氣泡。

Stream-VAE。StreamDiffusionV2集成了一個為流式推理設計的低延遲Video-VAE變體。Stream-VAE不是編碼長序列,而是處理短的視頻塊(例如4幀),并在每個3D卷積內(nèi)部緩存中間特征,以維持時序的連貫性。

異步通信重疊 (Asynchronous communication overlap) 。為了進一步減少同步停頓,每個GPU都維護兩個CUDA流:一個計算流和一個通信流。GPU間的傳輸是異步執(zhí)行的,與本地計算重疊以隱藏通信延遲。這種雙流設計使每個設備的計算節(jié)奏與其通信帶寬保持一致,有效地緩解了殘余的氣泡,并在多GPUpipeline中保持了高利用率。

實驗

實驗設置包括基于Wan 2.1和CausVid的模型(免訓練),評估指標涵蓋效率(FPS、TTFF、加速率)和質(zhì)量(CLIP分數(shù)、Warp Error);包括Ring-Attention、DeepSpeed-Ulysses、StreamDiffusion、StreamV2V和CausVid變體。實現(xiàn)細節(jié):在H100和RTX 4090 GPU上測試,使用bf16,無TensorRT或量化,支持1-4去噪步驟和不同分辨率。

效率評估,StreamDiffusionV2在TTFF上大幅優(yōu)于基線(如在30 FPS下為0.37s,CausVid高18倍,Wan2.1-1.3B高280倍)。FPS結(jié)果:在4 H100 GPU上,1.3B模型達64.52 FPS(512×512)、42.26 FPS(480p);14B模型達58.28 FPS(512×512)、39.24 FPS(480p)。即使增加步驟,性能仍穩(wěn)定。

生成質(zhì)量評估,本系統(tǒng)在CLIP分數(shù)(98.51)和Warp Error(73.31)上領先基線,視覺比較顯示更好的一致性和運動處理。消融研究確認sink token和運動感知噪聲控制器提升時序?qū)R。分析進一步驗證動態(tài)DiT塊調(diào)度器平衡負載,pipeline編排在通信和性能綁定上優(yōu)于序列并行,Stream Batch顯著提高吞吐量,尤其在多步驟下。

總結(jié)

StreamDiffusionV2,彌合了離線視頻擴散與受實時SLO約束的直播流媒體之間的差距。本免訓練系統(tǒng)將SLO-aware批處理/塊調(diào)度器與sink-token引導的滾動KV緩存、運動感知噪聲控制器以及pipeline編排相結(jié)合,后者通過并行去噪步驟和模型層實現(xiàn)近線性FPS擴展,而不違反延遲要求。它在異構(gòu)GPU上運行,支持靈活步驟計數(shù),實現(xiàn)0.5 s TTFF,并在4×H100上達到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步驟增加也能維持高FPS。這些結(jié)果使最先進的生成式直播流媒體對單個創(chuàng)作者和企業(yè)平臺都變得實用。

參考文獻

[1] StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

       原文標題 : 直播革命來了!StreamDiffusionV2:140億參數(shù)實時視頻飆上58FPS!伯克利&韓松團隊等

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號