訂閱
糾錯(cuò)
加入自媒體

復(fù)刻“黑客帝國”子彈時(shí)間!SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運(yùn)鏡隨你掌控

作者:Zhening Huang等

解讀:AI生成未來

亮點(diǎn)直擊

首次實(shí)現(xiàn)了聯(lián)合空間和時(shí)間控制的視頻擴(kuò)散模型: SpaceTimePilot 是首個(gè)能夠從單個(gè)單目視頻實(shí)現(xiàn)對(duì)動(dòng)態(tài)場景進(jìn)行聯(lián)合空間(攝像機(jī)視角)和時(shí)間(運(yùn)動(dòng)序列)控制的視頻擴(kuò)散模型。

引入動(dòng)畫時(shí)間嵌入機(jī)制: 提出了一種有效的動(dòng)畫時(shí)間嵌入機(jī)制,能夠顯式控制輸出視頻的運(yùn)動(dòng)序列,實(shí)現(xiàn)對(duì)時(shí)間進(jìn)程的精細(xì)操控,例如慢動(dòng)作、反向播放和子彈時(shí)間。

提出時(shí)間扭曲訓(xùn)練方案: 針對(duì)缺乏具有連續(xù)時(shí)間變化的配對(duì)視頻數(shù)據(jù)集的問題,本文設(shè)計(jì)了一種簡單有效的時(shí)間扭曲訓(xùn)練方案,通過增強(qiáng)現(xiàn)有多視角數(shù)據(jù)集來模擬多樣化的時(shí)間差異,從而幫助模型學(xué)習(xí)時(shí)間控制并實(shí)現(xiàn)時(shí)空解耦。

構(gòu)建 Cam×Time 合成數(shù)據(jù)集: 構(gòu)建了第一個(gè)合成的時(shí)空全覆蓋渲染數(shù)據(jù)集 Cam×Time,該數(shù)據(jù)集提供了場景中完全自由的時(shí)空視頻軌跡,通過密集的時(shí)空采樣為模型學(xué)習(xí)解耦的 4D 表示提供了關(guān)鍵監(jiān)督。

改進(jìn)攝像機(jī)條件機(jī)制: 提出了一種改進(jìn)的攝像機(jī)條件機(jī)制,允許從第一幀開始改變攝像機(jī),并引入源感知攝像機(jī)控制,將源視頻和目標(biāo)視頻的攝像機(jī)姿態(tài)聯(lián)合注入擴(kuò)散模型,顯著提高了攝像機(jī)控制的精度和魯棒性。

支持更長的視頻生成: 通過采用簡單的自回歸視頻生成策略,SpaceTimePilot 能夠生成任意長的連續(xù)視頻片段,實(shí)現(xiàn)靈活的多輪生成,并支持跨越擴(kuò)展時(shí)空軌跡的探索。

總結(jié)速覽

解決的問題

缺乏對(duì)動(dòng)態(tài)場景中空間變化(攝像機(jī)視角)和時(shí)間演變(場景運(yùn)動(dòng))的完全解耦控制。

在 novel viewpoints 下進(jìn)行 4D 重建通常會(huì)出現(xiàn)偽影,且渲染質(zhì)量受限。當(dāng)前的視頻擴(kuò)散模型盡管在空間視點(diǎn)控制方面有所進(jìn)展,但無法在空間和時(shí)間上自由導(dǎo)航場景,即缺乏完整的 4D 探索能力。訓(xùn)練能夠同時(shí)處理多種時(shí)間播放形式和攝像機(jī)運(yùn)動(dòng)的模型,在現(xiàn)有數(shù)據(jù)集上是困難的,因?yàn)樗鼈內(nèi)狈ψ銐虻臅r(shí)間變化覆蓋或無法提供具有連續(xù)時(shí)間變化的相同動(dòng)態(tài)場景的配對(duì)視頻。

提出的方案

本文提出了 SpaceTimePilot,一個(gè)視頻擴(kuò)散模型,旨在通過以下方式解決上述問題:

引入一種新的“動(dòng)畫時(shí)間”概念,將場景動(dòng)態(tài)的時(shí)間狀態(tài)獨(dú)立于攝像機(jī)控制,從而實(shí)現(xiàn)空間和時(shí)間控制的自然解耦。設(shè)計(jì)了一種有效的動(dòng)畫時(shí)間嵌入機(jī)制,用于在擴(kuò)散過程中顯式控制輸出視頻的運(yùn)動(dòng)序列。

提出了一種簡單而有效的時(shí)間扭曲訓(xùn)練方案,通過重新利用現(xiàn)有的多視角數(shù)據(jù)集來模擬時(shí)間差異,以解決缺乏合適訓(xùn)練數(shù)據(jù)的問題。

引入了一個(gè)名為 Cam×Time 的合成時(shí)空全覆蓋渲染數(shù)據(jù)集,它在一個(gè)場景中提供了完全自由的時(shí)空視頻軌跡,以增強(qiáng)控制的精確性。

改進(jìn)了攝像機(jī)條件機(jī)制,允許從第一幀開始改變攝像機(jī),并使用源感知攝像機(jī)條件化,將源視頻和目標(biāo)視頻的攝像機(jī)姿態(tài)聯(lián)合注入擴(kuò)散模型,以提供明確的幾何上下文。

采用自回歸視頻生成策略,通過以先前生成的片段和源視頻為條件,生成更長的視頻片段,從而支持更長的視頻序列。

應(yīng)用的技術(shù)

潛在視頻擴(kuò)散骨干:采用類似于現(xiàn)代文本到視頻基礎(chǔ)模型的架構(gòu),包含用于潛在壓縮的 3D 變分自編碼器(VAE)和在多模態(tài)令牌上操作的基于 Transformer 的去噪模型(DiT)。

動(dòng)畫時(shí)間嵌入機(jī)制:通過正弦時(shí)間嵌入和 1D 卷積層將時(shí)間控制參數(shù)  編碼并注入到擴(kuò)散模型中,從而實(shí)現(xiàn)對(duì)視頻運(yùn)動(dòng)序列的顯式控制。

改進(jìn)的攝像機(jī)條件化:借鑒 ReCamMaster,并在此基礎(chǔ)上進(jìn)行改進(jìn),通過 E_cam(c) 編碼攝像機(jī)軌跡,并進(jìn)一步結(jié)合源感知攝像機(jī)條件化,將源視頻  和目標(biāo)視頻  的攝像機(jī)姿態(tài)聯(lián)合注入模型。

時(shí)間扭曲訓(xùn)練方案:通過對(duì)現(xiàn)有多視角視頻數(shù)據(jù)集應(yīng)用反向、加速、凍結(jié)、分段慢動(dòng)作和之字形運(yùn)動(dòng)等時(shí)間扭曲操作,來模擬多樣化的時(shí)間變化。

合成數(shù)據(jù)集 Cam×Time:在 Blender 中渲染,通過詳盡采樣攝像機(jī)-時(shí)間網(wǎng)格來提供密集且系統(tǒng)覆蓋的訓(xùn)練數(shù)據(jù)。

達(dá)到的效果

統(tǒng)一的時(shí)空控制:在單個(gè)擴(kuò)散模型中對(duì)攝像機(jī)和時(shí)間進(jìn)行統(tǒng)一控制,能夠沿任意時(shí)空軌跡生成連續(xù)且連貫的視頻。

解耦的空間和時(shí)間探索:能夠獨(dú)立改變攝像機(jī)視角和運(yùn)動(dòng)序列,實(shí)現(xiàn)對(duì)動(dòng)態(tài)場景在空間和時(shí)間上的連續(xù)任意探索。

靈活的運(yùn)動(dòng)序列重定時(shí):能夠生成具有重新計(jì)時(shí)運(yùn)動(dòng)序列的新視頻,包括慢動(dòng)作、反向運(yùn)動(dòng)和子彈時(shí)間。

精確的攝像機(jī)軌跡控制:能夠根據(jù)給定的攝像機(jī)軌跡精確控制攝像機(jī)運(yùn)動(dòng)。

強(qiáng)大的性能:在真實(shí)世界和合成數(shù)據(jù)上均表現(xiàn)出清晰的時(shí)空解耦,并與現(xiàn)有工作相比取得了強(qiáng)大的結(jié)果。

支持更長的視頻生成:通過自回歸推理方案,能夠生成更長、更連貫的視頻,實(shí)現(xiàn)超出輸入視頻的視點(diǎn)變化,例如旋轉(zhuǎn)到物體后方或從低角度切換到高空鳥瞰視角,同時(shí)保持視覺和運(yùn)動(dòng)的連貫性。

架構(gòu)方法

本文的方法 SpaceTimePilot 通過在生成過程中解耦空間和時(shí)間因素,實(shí)現(xiàn)了子彈時(shí)間(bullet-time)和從新視點(diǎn)重新計(jì)時(shí)播放等效果,如上圖 1 所示。

解耦空間和時(shí)間

本文通過雙重方法實(shí)現(xiàn)空間和時(shí)間解耦:專用的時(shí)間表示和專門的數(shù)據(jù)集。

時(shí)間表示

最近的視頻擴(kuò)散模型包括用于潛在幀索引  的位置嵌入,例如 RoPE(). 然而,本文發(fā)現(xiàn)使用 RoPE() 進(jìn)行時(shí)間控制是無效的,因?yàn)樗鼤?huì)干擾攝像機(jī)信號(hào):RoPE() 通常同時(shí)限制時(shí)間和攝像機(jī)運(yùn)動(dòng)。為了解決空間和時(shí)間解耦問題,本文引入了一個(gè)專用的時(shí)間控制參數(shù) 。通過操縱 ,本文可以控制合成視頻  的時(shí)間進(jìn)程。例如,將  設(shè)置為常數(shù)會(huì)將  鎖定到  中的特定時(shí)間戳,而反轉(zhuǎn)幀索引會(huì)以反向播放 。

時(shí)間嵌入。 為了將時(shí)間控制注入擴(kuò)散模型,本文分析了幾種方法。首先,本文可以像使用幀索引一樣編碼時(shí)間,使用 RoPE 嵌入。然而,本文發(fā)現(xiàn)它不太適合時(shí)間控制。相反,本文采用應(yīng)用于潛在幀  級(jí)別的正弦時(shí)間嵌入,它提供了每個(gè)幀時(shí)間位置的穩(wěn)定連續(xù)表示,并在精度和穩(wěn)定性之間提供了有利的權(quán)衡。本文進(jìn)一步觀察到每個(gè)潛在幀對(duì)應(yīng)一個(gè)連續(xù)的時(shí)間塊,并提出使用原始幀索引  的嵌入來支持更精細(xì)的時(shí)間控制粒度。為了實(shí)現(xiàn)這一點(diǎn),本文引入了一種時(shí)間編碼方法 ,其中 。本文首先計(jì)算正弦時(shí)間嵌入來表示時(shí)間序列,,,其中 。接下來,本文應(yīng)用兩個(gè) 1D 卷積層逐步將這些嵌入投影到潛在幀空間,。最后,本文將這些時(shí)間特征添加到攝像機(jī)特征和視頻令牌嵌入中,更新等式 (1) 如下:

在下文中,本文將本文的方法與替代條件策略進(jìn)行比較,例如使用正弦嵌入,其中  直接定義在  中,以及使用 MLP 而不是 1D 卷積進(jìn)行壓縮。本文定性和定量地展示了本文提出的方法的優(yōu)勢。

數(shù)據(jù)集

為了在本文的方法中實(shí)現(xiàn)時(shí)間操作,本文需要包含時(shí)間重映射示例的配對(duì)訓(xùn)練數(shù)據(jù)。實(shí)現(xiàn)時(shí)空解耦進(jìn)一步需要包含攝像機(jī)和時(shí)間控制示例的數(shù)據(jù)。據(jù)本文所知,目前沒有公開可用的數(shù)據(jù)集滿足這些要求。只有少數(shù)先前的工作,例如 4DiM和 CAT4D,嘗試解決時(shí)空解耦問題。一種常見的策略是在靜態(tài)場景數(shù)據(jù)集和多視圖視頻數(shù)據(jù)集上聯(lián)合訓(xùn)練。這些數(shù)據(jù)集中有限的控制可變性導(dǎo)致時(shí)間演變和空間運(yùn)動(dòng)之間的混淆,從而導(dǎo)致糾纏或不穩(wěn)定的行為。本文通過使用時(shí)間扭曲增強(qiáng)現(xiàn)有多視圖視頻數(shù)據(jù)并提出新的合成數(shù)據(jù)集來解決這一限制。

時(shí)間扭曲增強(qiáng)。 本文引入了簡單的增強(qiáng)功能,為多視圖視頻數(shù)據(jù)集添加可控的時(shí)間變化。在訓(xùn)練期間,給定源視頻  和目標(biāo)視頻 ,本文將時(shí)間扭曲函數(shù)  應(yīng)用于目標(biāo)序列,生成扭曲視頻 。源動(dòng)畫時(shí)間戳均勻采樣,。扭曲時(shí)間戳  引入非線性時(shí)間效應(yīng)(參見下圖 3 頂部 b-e):(i) 反向,(ii) 加速,(iii) 凍結(jié),(iv) 分段慢動(dòng)作,和 (v) 之字形運(yùn)動(dòng),其中動(dòng)畫重復(fù)反向。在這些增強(qiáng)之后,配對(duì)視頻序列  在攝像機(jī)軌跡和時(shí)間動(dòng)態(tài)方面都存在差異,為模型提供了學(xué)習(xí)解耦時(shí)空表示的清晰信號(hào)。

用于精確時(shí)空控制的合成 Cam×Time 數(shù)據(jù)集。雖然本文的時(shí)間扭曲增強(qiáng)鼓勵(lì)空間和時(shí)間因素之間強(qiáng)烈的解耦,但實(shí)現(xiàn)細(xì)粒度和連續(xù)控制——即平滑精確地調(diào)整時(shí)間動(dòng)態(tài)——受益于系統(tǒng)覆蓋這兩個(gè)維度的數(shù)據(jù)集。為此,本文構(gòu)建了 Cam×Time,一個(gè)新的在 Blender 中渲染的合成時(shí)空數(shù)據(jù)集。給定攝像機(jī)軌跡和一個(gè)動(dòng)畫主題,Cam×Time 詳盡地采樣攝像機(jī)-時(shí)間網(wǎng)格,捕獲跨越不同攝像機(jī)視角和時(shí)間狀態(tài)組合  的每個(gè)動(dòng)態(tài)場景,如下圖 4 所示。源視頻通過采樣密集網(wǎng)格的對(duì)角線幀(下圖 4(底部))獲得,而目標(biāo)視頻通過更自由形式的連續(xù)序列采樣獲得。本文將 Cam×Time 與現(xiàn)有數(shù)據(jù)集進(jìn)行比較,如下表 1 所示。雖然如[23, 32, 53]等是具有復(fù)雜攝像機(jī)路徑注釋的真實(shí)視頻,但它們要么不提供時(shí)間同步的視頻對(duì),要么只提供靜態(tài)場景對(duì)。合成多視圖視頻數(shù)據(jù)集提供動(dòng)態(tài)視頻對(duì),但不允許訓(xùn)練時(shí)間控制。相比之下,Cam×Time 能夠?qū)z像機(jī)運(yùn)動(dòng)和時(shí)間動(dòng)態(tài)進(jìn)行細(xì)粒度操作,從而實(shí)現(xiàn)子彈時(shí)間效果、運(yùn)動(dòng)穩(wěn)定和靈活的控制組合。本文將 Cam×Time 的一部分指定為測試集,旨在將其用作可控視頻生成的基準(zhǔn)。本文將發(fā)布它以支持未來對(duì)細(xì)粒度時(shí)空建模的研究。

精確的攝像機(jī)條件化

本文的目標(biāo)是實(shí)現(xiàn)目標(biāo)視頻中的完整攝像機(jī)軌跡控制。相比之下,先前的 Novel View Synthesis 方法假設(shè)源視頻和目標(biāo)視頻的第一幀是相同的,并且目標(biāo)攝像機(jī)軌跡是相對(duì)于它定義的。這源于兩個(gè)限制。首先,現(xiàn)有方法忽略了源視頻軌跡,導(dǎo)致使用目標(biāo)軌跡計(jì)算的源特征不佳,以保持一致性:

其次,它在數(shù)據(jù)集上進(jìn)行訓(xùn)練,其中源視頻和目標(biāo)視頻的第一幀總是相同的。后一個(gè)限制在本文的訓(xùn)練數(shù)據(jù)集設(shè)計(jì)中得到了解決。為了克服前者,本文設(shè)計(jì)了一種源感知攝像機(jī)條件化。本文使用預(yù)訓(xùn)練的姿態(tài)估計(jì)器估計(jì)源視頻和目標(biāo)視頻的攝像機(jī)姿態(tài),并將它們聯(lián)合注入擴(kuò)散模型以提供明確的幾何上下文。因此,等式 (2) 擴(kuò)展為:

其中  表示 DiT 模型的輸入,它是目標(biāo)和源令牌沿幀維度的連接。這種公式化為模型提供了源和目標(biāo)攝像機(jī)上下文,從而實(shí)現(xiàn)了空間一致的生成和對(duì)攝像機(jī)軌跡的精確控制。

支持更長的視頻片段

最后,為了展示本文攝像機(jī)和時(shí)間控制的全部潛力,本文采用了一種簡單的自回歸視頻生成策略,生成每個(gè)新片段 ,以先前生成的片段  和源視頻  為條件,以生成更長的視頻。

為了在推理過程中實(shí)現(xiàn)此功能,本文需要擴(kuò)展本文的訓(xùn)練場景以支持以兩個(gè)視頻為條件,其中一個(gè)作為 ,另一個(gè)作為 。源視頻  直接取自多視圖數(shù)據(jù)集或本文的合成數(shù)據(jù)集,如前所述。 的構(gòu)建方式與  類似——使用時(shí)間扭曲增強(qiáng)或從本文合成數(shù)據(jù)集的密集時(shí)空網(wǎng)格中采樣。當(dāng)應(yīng)用時(shí)間扭曲時(shí), 和  可能來自代表相同時(shí)間間隔的相同或不同的多視圖序列。為了保持完全的控制靈活性,本文不強(qiáng)制  和  之間有任何其他明確的關(guān)聯(lián),除了指定相對(duì)于選定源視頻幀的攝像機(jī)參數(shù)。

請(qǐng)注意,不約束源視頻和目標(biāo)視頻共享相同的起始幀(如前文所述)對(duì)于在更長序列中實(shí)現(xiàn)靈活的攝像機(jī)控制至關(guān)重要。例如,這種設(shè)計(jì)可以實(shí)現(xiàn)擴(kuò)展的子彈時(shí)間效果:本文可以首先圍繞選定點(diǎn)生成高達(dá) 45° 的旋轉(zhuǎn)(),然后從 45° 繼續(xù)到 90°()。以兩個(gè)連續(xù)的源片段為條件允許模型利用新生成視點(diǎn)的信息。在子彈時(shí)間示例中,以先前生成的視頻為條件允許模型整合所有新合成視點(diǎn)的信息,而不是僅僅依賴于源視頻中相應(yīng)時(shí)刻的視點(diǎn)。

實(shí)驗(yàn)與最先進(jìn)基線的比較時(shí)間控制評(píng)估

首先,本文評(píng)估了模型的時(shí)間重排能力。為了排除攝像機(jī)控制引起的誤差,本文在固定攝像機(jī)姿態(tài)下對(duì) SpaceTimePilot 進(jìn)行條件化,僅改變時(shí)間控制信號(hào)。實(shí)驗(yàn)在未公開的 Cam×Time 測試集上進(jìn)行,該測試集包含 50 個(gè)場景,這些場景以密集的全網(wǎng)格軌跡渲染,可以重新計(jì)時(shí)為任意時(shí)間序列。對(duì)于每個(gè)測試用例,本文使用一個(gè)移動(dòng)攝像機(jī)的源視頻,但將目標(biāo)攝像機(jī)軌跡設(shè)置為第一幀姿態(tài)。然后,本文應(yīng)用一系列時(shí)間控制信號(hào),包括反向、子彈時(shí)間、之字形、慢動(dòng)作和正常播放,以合成相應(yīng)的重定時(shí)輸出。由于本文擁有所有時(shí)間配置的地面真實(shí)幀,因此本文報(bào)告了感知損失:PSNR、SSIM 和 LPIPS。

本文考慮了兩個(gè)基線:(1)ReCamM+preshuffled:原始 ReCamMaster 結(jié)合輸入重新排序;(2)ReCamM+jointdata:遵循 [41, 43],本文使用額外的靜態(tài)場景數(shù)據(jù)集,如 [18, 53] 來訓(xùn)練 ReCamMaster,這些數(shù)據(jù)集僅提供單一的時(shí)間模式。

雖然幀混洗在簡單場景中可能成功,但它無法解耦攝像機(jī)和時(shí)間控制。如下表 2 所示,這種方法表現(xiàn)出最弱的時(shí)間可控性。盡管結(jié)合靜態(tài)場景數(shù)據(jù)集提高了性能,尤其是在子彈時(shí)間類別中,但依賴單一時(shí)間控制模式仍然不足以實(shí)現(xiàn)魯棒的時(shí)間一致性。相比之下,SpaceTimePilot 在所有時(shí)間配置中始終優(yōu)于所有基線。

視覺質(zhì)量評(píng)估

接下來,本文使用 VBench評(píng)估了本文 1800 個(gè)生成視頻的感知真實(shí)感。本文報(bào)告了所有標(biāo)準(zhǔn)視覺質(zhì)量指標(biāo),以提供對(duì)生成保真度的全面評(píng)估。如下表 3 所示,本文模型實(shí)現(xiàn)了與基線相當(dāng)?shù)囊曈X質(zhì)量。

攝像機(jī)控制評(píng)估

最后,本文評(píng)估了前文中詳述的攝像機(jī)控制機(jī)制的有效性。與上述依賴合成地面真實(shí)視頻的時(shí)間重排評(píng)估不同,本文構(gòu)建了一個(gè)由 OpenVideoHD組成的真實(shí)世界 90 視頻評(píng)估集,涵蓋了各種動(dòng)態(tài)人類和物體運(yùn)動(dòng)。每種方法在 20 種攝像機(jī)軌跡下進(jìn)行評(píng)估:10 種從與源視頻相同的初始姿態(tài)開始,10 種從不同的初始姿態(tài)開始,總共生成 1800 個(gè)視頻。本文應(yīng)用 SpatialTracker-v2從生成的視頻中恢復(fù)攝像機(jī)姿態(tài),并將其與相應(yīng)的輸入攝像機(jī)姿態(tài)進(jìn)行比較。為了確保一致的比例,本文對(duì)齊了前兩個(gè)攝像機(jī)位置的幅度。軌跡精度使用 RotErr 和 TransErr 根據(jù) [8] 進(jìn)行量化,采用兩種協(xié)議:(1)評(píng)估相對(duì)于第一幀定義的原始軌跡(相對(duì)協(xié)議,RelRot,RelTrans),以及(2)在與第一幀的估計(jì)姿態(tài)對(duì)齊后進(jìn)行評(píng)估(絕對(duì)協(xié)議,AbsRot,AbsTrans)。具體來說,本文通過乘以由 DUSt3R估計(jì)的生成幀和源第一幀之間的相對(duì)姿態(tài)來變換恢復(fù)的原始軌跡。本文還將此 DUSt3R 姿態(tài)與目標(biāo)軌跡的初始姿態(tài)進(jìn)行比較,并報(bào)告 RotErr、RTA@15 和 RTA@30,因?yàn)槠揭品仁浅叨饶:摹?/p>

為了僅測量源攝像機(jī)條件化的影響,本文考慮了原始 ReCamMaster(ReCamM) 和兩種變體。由于 ReCamMaster 最初是在源視頻和目標(biāo)視頻的第一幀相同的數(shù)據(jù)集上訓(xùn)練的,因此模型總是復(fù)制第一幀,而不管輸入攝像機(jī)姿態(tài)如何。為了公平起見,本文使用更多數(shù)據(jù)增強(qiáng)功能重新訓(xùn)練 ReCamMaster,以包括不相同的起始幀,表示為 ReCamM+Aug。接下來,本文根據(jù)等式 3 額外使用源攝像機(jī)  對(duì)模型進(jìn)行條件化,表示為 ReCamM+Aug+。最后,本文還報(bào)告了 TrajectoryCrafter的結(jié)果。

在下表 4 中,本文觀察到絕對(duì)協(xié)議始終產(chǎn)生更高的誤差,因?yàn)檐壽E不僅必須匹配整體形狀(相對(duì)協(xié)議),而且還必須在位置和方向上正確對(duì)齊。有趣的是,ReCamM+Aug 產(chǎn)生的誤差高于原始 ReCamM,而結(jié)合源攝像機(jī)  產(chǎn)生了最佳的整體性能。這表明,如果沒有明確參考 ,暴露于更多具有不同起始幀的增強(qiáng)視頻反而會(huì)混淆模型。新引入的源視頻軌跡  條件信號(hào)在所有指標(biāo)上實(shí)現(xiàn)了顯著更好的攝像機(jī)控制精度、更可靠的第一幀對(duì)齊,以及比所有基線更忠實(shí)地遵循完整軌跡。

定性結(jié)果

除了定量評(píng)估,本文還通過視覺示例展示了 SpaceTimePilot 的優(yōu)勢。如下圖 6 所示,只有本文的方法正確合成攝像機(jī)運(yùn)動(dòng)(紅色框)和動(dòng)畫時(shí)間狀態(tài)(綠色框)。ReCamMaster 雖然能很好地處理攝像機(jī)控制,但無法修改時(shí)間狀態(tài),例如實(shí)現(xiàn)反向播放。相比之下,TrajectoryCrafter 被反向幀混洗所迷惑,導(dǎo)致最后一個(gè)源幀的攝像機(jī)姿態(tài)(藍(lán)色框)錯(cuò)誤地出現(xiàn)在生成視頻的第一幀中。更多視覺結(jié)果可見下圖 5。

消融研究

為了驗(yàn)證所提出的時(shí)間嵌入模塊的有效性,如下表 5 所示,本文遵循上文中的時(shí)間控制評(píng)估設(shè)置,并將本文的 1D 卷積時(shí)間嵌入與上文中討論的幾種變體和替代方案進(jìn)行比較:(1)均勻采樣:將 81 幀嵌入均勻采樣到 21 幀序列,這等效于在潛在幀  級(jí)別采用正弦嵌入;(2)1D-Conv:使用 1D 卷積層從  壓縮到 ,并使用 ReCamMaster 和 SynCamMaster 數(shù)據(jù)集進(jìn)行訓(xùn)練。(3)1D-Conv+jointdata:第 2 行,但額外包含靜態(tài)場景數(shù)據(jù)集。(4)1D-Conv(本文):第 2 行,但包含所提出的 Cam×Time。本文觀察到,通過將細(xì)粒度  維嵌入壓縮到  維空間來學(xué)習(xí)緊湊表示的 1D 卷積方法明顯優(yōu)于直接在粗略  級(jí)別構(gòu)建正弦嵌入。結(jié)合靜態(tài)場景數(shù)據(jù)集僅帶來了有限的改進(jìn),這可能是由于其有限的時(shí)間控制模式。相比之下,使用所提出的 Cam×Time 始終在所有三個(gè)指標(biāo)上帶來最大的收益,證實(shí)了本文新引入的數(shù)據(jù)集的有效性。此外,如下圖 7 所示,本文展示了使用均勻采樣和 MLP 代替 1D 卷積壓縮時(shí)間控制信號(hào)的子彈時(shí)間結(jié)果的視覺比較。均勻采樣產(chǎn)生了明顯的偽影,MLP 壓縮器導(dǎo)致攝像機(jī)運(yùn)動(dòng)突然,而 1D 卷積有效地鎖定了動(dòng)畫時(shí)間并實(shí)現(xiàn)了平滑的攝像機(jī)運(yùn)動(dòng)。

結(jié)論

SpaceTimePilot,這是第一個(gè)提供完全解耦空間和時(shí)間控制的視頻擴(kuò)散模型,能夠從單個(gè)單目視頻進(jìn)行 4D 時(shí)空探索。本文方法引入了一種新的“動(dòng)畫時(shí)間”表示,并結(jié)合了利用源姿態(tài)和目標(biāo)姿態(tài)的源感知攝像機(jī)控制機(jī)制。這得到了合成 Cam×Time 和時(shí)間扭曲訓(xùn)練方案的支持,這些方案提供了密集的時(shí)空監(jiān)督。這些組件允許精確的攝像機(jī)和時(shí)間操作、任意初始姿態(tài)以及靈活的多輪生成。在廣泛的實(shí)驗(yàn)中,SpaceTimePilot 始終超越最先進(jìn)的基線,顯著提高了攝像機(jī)控制精度,并可靠地執(zhí)行復(fù)雜的重新計(jì)時(shí)效果,例如反向播放、慢動(dòng)作和子彈時(shí)間。

參考文獻(xiàn)

[1] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

       原文標(biāo)題 : 復(fù)刻“黑客帝國”子彈時(shí)間!SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運(yùn)鏡隨你掌控

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)