123,123

復(fù)刻“黑客帝國”子彈時(shí)間！SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運(yùn)鏡隨你掌控

2026-01-06 14:21

作者：Zhening Huang等

解讀：AI生成未來

亮點(diǎn)直擊

首次實(shí)現(xiàn)了聯(lián)合空間和時(shí)間控制的視頻擴(kuò)散模型： SpaceTimePilot 是首個(gè)能夠從單個(gè)單目視頻實(shí)現(xiàn)對(duì)動(dòng)態(tài)場景進(jìn)行聯(lián)合空間（攝像機(jī)視角）和時(shí)間（運(yùn)動(dòng)序列）控制的視頻擴(kuò)散模型。

引入動(dòng)畫時(shí)間嵌入機(jī)制： 提出了一種有效的動(dòng)畫時(shí)間嵌入機(jī)制，能夠顯式控制輸出視頻的運(yùn)動(dòng)序列，實(shí)現(xiàn)對(duì)時(shí)間進(jìn)程的精細(xì)操控，例如慢動(dòng)作、反向播放和子彈時(shí)間。

提出時(shí)間扭曲訓(xùn)練方案： 針對(duì)缺乏具有連續(xù)時(shí)間變化的配對(duì)視頻數(shù)據(jù)集的問題，本文設(shè)計(jì)了一種簡單有效的時(shí)間扭曲訓(xùn)練方案，通過增強(qiáng)現(xiàn)有多視角數(shù)據(jù)集來模擬多樣化的時(shí)間差異，從而幫助模型學(xué)習(xí)時(shí)間控制并實(shí)現(xiàn)時(shí)空解耦。

構(gòu)建 Cam×Time 合成數(shù)據(jù)集： 構(gòu)建了第一個(gè)合成的時(shí)空全覆蓋渲染數(shù)據(jù)集 Cam×Time，該數(shù)據(jù)集提供了場景中完全自由的時(shí)空視頻軌跡，通過密集的時(shí)空采樣為模型學(xué)習(xí)解耦的 4D 表示提供了關(guān)鍵監(jiān)督。

改進(jìn)攝像機(jī)條件機(jī)制： 提出了一種改進(jìn)的攝像機(jī)條件機(jī)制，允許從第一幀開始改變攝像機(jī)，并引入源感知攝像機(jī)控制，將源視頻和目標(biāo)視頻的攝像機(jī)姿態(tài)聯(lián)合注入擴(kuò)散模型，顯著提高了攝像機(jī)控制的精度和魯棒性。

支持更長的視頻生成： 通過采用簡單的自回歸視頻生成策略，SpaceTimePilot 能夠生成任意長的連續(xù)視頻片段，實(shí)現(xiàn)靈活的多輪生成，并支持跨越擴(kuò)展時(shí)空軌跡的探索。

總結(jié)速覽

解決的問題

缺乏對(duì)動(dòng)態(tài)場景中空間變化（攝像機(jī)視角）和時(shí)間演變（場景運(yùn)動(dòng)）的完全解耦控制。

在 novel viewpoints 下進(jìn)行 4D 重建通常會(huì)出現(xiàn)偽影，且渲染質(zhì)量受限。當(dāng)前的視頻擴(kuò)散模型盡管在空間視點(diǎn)控制方面有所進(jìn)展，但無法在空間和時(shí)間上自由導(dǎo)航場景，即缺乏完整的 4D 探索能力。訓(xùn)練能夠同時(shí)處理多種時(shí)間播放形式和攝像機(jī)運(yùn)動(dòng)的模型，在現(xiàn)有數(shù)據(jù)集上是困難的，因?yàn)樗鼈內(nèi)狈ψ銐虻臅r(shí)間變化覆蓋或無法提供具有連續(xù)時(shí)間變化的相同動(dòng)態(tài)場景的配對(duì)視頻。

提出的方案

本文提出了 SpaceTimePilot，一個(gè)視頻擴(kuò)散模型，旨在通過以下方式解決上述問題：

引入一種新的“動(dòng)畫時(shí)間”概念，將場景動(dòng)態(tài)的時(shí)間狀態(tài)獨(dú)立于攝像機(jī)控制，從而實(shí)現(xiàn)空間和時(shí)間控制的自然解耦。設(shè)計(jì)了一種有效的動(dòng)畫時(shí)間嵌入機(jī)制，用于在擴(kuò)散過程中顯式控制輸出視頻的運(yùn)動(dòng)序列。

提出了一種簡單而有效的時(shí)間扭曲訓(xùn)練方案，通過重新利用現(xiàn)有的多視角數(shù)據(jù)集來模擬時(shí)間差異，以解決缺乏合適訓(xùn)練數(shù)據(jù)的問題。

引入了一個(gè)名為 Cam×Time 的合成時(shí)空全覆蓋渲染數(shù)據(jù)集，它在一個(gè)場景中提供了完全自由的時(shí)空視頻軌跡，以增強(qiáng)控制的精確性。

改進(jìn)了攝像機(jī)條件機(jī)制，允許從第一幀開始改變攝像機(jī)，并使用源感知攝像機(jī)條件化，將源視頻和目標(biāo)視頻的攝像機(jī)姿態(tài)聯(lián)合注入擴(kuò)散模型，以提供明確的幾何上下文。

采用自回歸視頻生成策略，通過以先前生成的片段和源視頻為條件，生成更長的視頻片段，從而支持更長的視頻序列。

應(yīng)用的技術(shù)

潛在視頻擴(kuò)散骨干：采用類似于現(xiàn)代文本到視頻基礎(chǔ)模型的架構(gòu)，包含用于潛在壓縮的 3D 變分自編碼器（VAE）和在多模態(tài)令牌上操作的基于 Transformer 的去噪模型（DiT）。

動(dòng)畫時(shí)間嵌入機(jī)制：通過正弦時(shí)間嵌入和 1D 卷積層將時(shí)間控制參數(shù) 編碼并注入到擴(kuò)散模型中，從而實(shí)現(xiàn)對(duì)視頻運(yùn)動(dòng)序列的顯式控制。

改進(jìn)的攝像機(jī)條件化：借鑒 ReCamMaster，并在此基礎(chǔ)上進(jìn)行改進(jìn)，通過 E_cam(c) 編碼攝像機(jī)軌跡，并進(jìn)一步結(jié)合源感知攝像機(jī)條件化，將源視頻和目標(biāo)視頻的攝像機(jī)姿態(tài)聯(lián)合注入模型。

時(shí)間扭曲訓(xùn)練方案：通過對(duì)現(xiàn)有多視角視頻數(shù)據(jù)集應(yīng)用反向、加速、凍結(jié)、分段慢動(dòng)作和之字形運(yùn)動(dòng)等時(shí)間扭曲操作，來模擬多樣化的時(shí)間變化。

合成數(shù)據(jù)集 Cam×Time：在 Blender 中渲染，通過詳盡采樣攝像機(jī)-時(shí)間網(wǎng)格來提供密集且系統(tǒng)覆蓋的訓(xùn)練數(shù)據(jù)。

達(dá)到的效果

統(tǒng)一的時(shí)空控制：在單個(gè)擴(kuò)散模型中對(duì)攝像機(jī)和時(shí)間進(jìn)行統(tǒng)一控制，能夠沿任意時(shí)空軌跡生成連續(xù)且連貫的視頻。

解耦的空間和時(shí)間探索：能夠獨(dú)立改變攝像機(jī)視角和運(yùn)動(dòng)序列，實(shí)現(xiàn)對(duì)動(dòng)態(tài)場景在空間和時(shí)間上的連續(xù)任意探索。

靈活的運(yùn)動(dòng)序列重定時(shí)：能夠生成具有重新計(jì)時(shí)運(yùn)動(dòng)序列的新視頻，包括慢動(dòng)作、反向運(yùn)動(dòng)和子彈時(shí)間。

精確的攝像機(jī)軌跡控制：能夠根據(jù)給定的攝像機(jī)軌跡精確控制攝像機(jī)運(yùn)動(dòng)。

強(qiáng)大的性能：在真實(shí)世界和合成數(shù)據(jù)上均表現(xiàn)出清晰的時(shí)空解耦，并與現(xiàn)有工作相比取得了強(qiáng)大的結(jié)果。

支持更長的視頻生成：通過自回歸推理方案，能夠生成更長、更連貫的視頻，實(shí)現(xiàn)超出輸入視頻的視點(diǎn)變化，例如旋轉(zhuǎn)到物體后方或從低角度切換到高空鳥瞰視角，同時(shí)保持視覺和運(yùn)動(dòng)的連貫性。

架構(gòu)方法

本文的方法 SpaceTimePilot 通過在生成過程中解耦空間和時(shí)間因素，實(shí)現(xiàn)了子彈時(shí)間（bullet-time）和從新視點(diǎn)重新計(jì)時(shí)播放等效果，如上圖 1 所示。

解耦空間和時(shí)間

本文通過雙重方法實(shí)現(xiàn)空間和時(shí)間解耦：專用的時(shí)間表示和專門的數(shù)據(jù)集。

時(shí)間表示

最近的視頻擴(kuò)散模型包括用于潛在幀索引的位置嵌入，例如 RoPE(). 然而，本文發(fā)現(xiàn)使用 RoPE() 進(jìn)行時(shí)間控制是無效的，因?yàn)樗鼤?huì)干擾攝像機(jī)信號(hào)：RoPE() 通常同時(shí)限制時(shí)間和攝像機(jī)運(yùn)動(dòng)。為了解決空間和時(shí)間解耦問題，本文引入了一個(gè)專用的時(shí)間控制參數(shù) 。通過操縱，本文可以控制合成視頻的時(shí)間進(jìn)程。例如，將設(shè)置為常數(shù)會(huì)將鎖定到中的特定時(shí)間戳，而反轉(zhuǎn)幀索引會(huì)以反向播放。

時(shí)間嵌入。 為了將時(shí)間控制注入擴(kuò)散模型，本文分析了幾種方法。首先，本文可以像使用幀索引一樣編碼時(shí)間，使用 RoPE 嵌入。然而，本文發(fā)現(xiàn)它不太適合時(shí)間控制。相反，本文采用應(yīng)用于潛在幀級(jí)別的正弦時(shí)間嵌入，它提供了每個(gè)幀時(shí)間位置的穩(wěn)定連續(xù)表示，并在精度和穩(wěn)定性之間提供了有利的權(quán)衡。本文進(jìn)一步觀察到每個(gè)潛在幀對(duì)應(yīng)一個(gè)連續(xù)的時(shí)間塊，并提出使用原始幀索引的嵌入來支持更精細(xì)的時(shí)間控制粒度。為了實(shí)現(xiàn)這一點(diǎn)，本文引入了一種時(shí)間編碼方法，其中。本文首先計(jì)算正弦時(shí)間嵌入來表示時(shí)間序列，，，其中。接下來，本文應(yīng)用兩個(gè) 1D 卷積層逐步將這些嵌入投影到潛在幀空間，。最后，本文將這些時(shí)間特征添加到攝像機(jī)特征和視頻令牌嵌入中，更新等式 (1) 如下：

在下文中，本文將本文的方法與替代條件策略進(jìn)行比較，例如使用正弦嵌入，其中直接定義在中，以及使用 MLP 而不是 1D 卷積進(jìn)行壓縮。本文定性和定量地展示了本文提出的方法的優(yōu)勢。

數(shù)據(jù)集

為了在本文的方法中實(shí)現(xiàn)時(shí)間操作，本文需要包含時(shí)間重映射示例的配對(duì)訓(xùn)練數(shù)據(jù)。實(shí)現(xiàn)時(shí)空解耦進(jìn)一步需要包含攝像機(jī)和時(shí)間控制示例的數(shù)據(jù)。據(jù)本文所知，目前沒有公開可用的數(shù)據(jù)集滿足這些要求。只有少數(shù)先前的工作，例如 4DiM和 CAT4D，嘗試解決時(shí)空解耦問題。一種常見的策略是在靜態(tài)場景數(shù)據(jù)集和多視圖視頻數(shù)據(jù)集上聯(lián)合訓(xùn)練。這些數(shù)據(jù)集中有限的控制可變性導(dǎo)致時(shí)間演變和空間運(yùn)動(dòng)之間的混淆，從而導(dǎo)致糾纏或不穩(wěn)定的行為。本文通過使用時(shí)間扭曲增強(qiáng)現(xiàn)有多視圖視頻數(shù)據(jù)并提出新的合成數(shù)據(jù)集來解決這一限制。

時(shí)間扭曲增強(qiáng)。 本文引入了簡單的增強(qiáng)功能，為多視圖視頻數(shù)據(jù)集添加可控的時(shí)間變化。在訓(xùn)練期間，給定源視頻和目標(biāo)視頻，本文將時(shí)間扭曲函數(shù) 應(yīng)用于目標(biāo)序列，生成扭曲視頻。源動(dòng)畫時(shí)間戳均勻采樣，。扭曲時(shí)間戳引入非線性時(shí)間效應(yīng)（參見下圖 3 頂部 b-e）：(i) 反向，(ii) 加速，(iii) 凍結(jié)，(iv) 分段慢動(dòng)作，和 (v) 之字形運(yùn)動(dòng)，其中動(dòng)畫重復(fù)反向。在這些增強(qiáng)之后，配對(duì)視頻序列在攝像機(jī)軌跡和時(shí)間動(dòng)態(tài)方面都存在差異，為模型提供了學(xué)習(xí)解耦時(shí)空表示的清晰信號(hào)。

用于精確時(shí)空控制的合成 Cam×Time 數(shù)據(jù)集。雖然本文的時(shí)間扭曲增強(qiáng)鼓勵(lì)空間和時(shí)間因素之間強(qiáng)烈的解耦，但實(shí)現(xiàn)細(xì)粒度和連續(xù)控制——即平滑精確地調(diào)整時(shí)間動(dòng)態(tài)——受益于系統(tǒng)覆蓋這兩個(gè)維度的數(shù)據(jù)集。為此，本文構(gòu)建了 Cam×Time，一個(gè)新的在 Blender 中渲染的合成時(shí)空數(shù)據(jù)集。給定攝像機(jī)軌跡和一個(gè)動(dòng)畫主題，Cam×Time 詳盡地采樣攝像機(jī)-時(shí)間網(wǎng)格，捕獲跨越不同攝像機(jī)視角和時(shí)間狀態(tài)組合的每個(gè)動(dòng)態(tài)場景，如下圖 4 所示。源視頻通過采樣密集網(wǎng)格的對(duì)角線幀（下圖 4（底部））獲得，而目標(biāo)視頻通過更自由形式的連續(xù)序列采樣獲得。本文將 Cam×Time 與現(xiàn)有數(shù)據(jù)集進(jìn)行比較，如下表 1 所示。雖然如[23, 32, 53]等是具有復(fù)雜攝像機(jī)路徑注釋的真實(shí)視頻，但它們要么不提供時(shí)間同步的視頻對(duì)，要么只提供靜態(tài)場景對(duì)。合成多視圖視頻數(shù)據(jù)集提供動(dòng)態(tài)視頻對(duì)，但不允許訓(xùn)練時(shí)間控制。相比之下，Cam×Time 能夠?qū)z像機(jī)運(yùn)動(dòng)和時(shí)間動(dòng)態(tài)進(jìn)行細(xì)粒度操作，從而實(shí)現(xiàn)子彈時(shí)間效果、運(yùn)動(dòng)穩(wěn)定和靈活的控制組合。本文將 Cam×Time 的一部分指定為測試集，旨在將其用作可控視頻生成的基準(zhǔn)。本文將發(fā)布它以支持未來對(duì)細(xì)粒度時(shí)空建模的研究。

精確的攝像機(jī)條件化

本文的目標(biāo)是實(shí)現(xiàn)目標(biāo)視頻中的完整攝像機(jī)軌跡控制。相比之下，先前的 Novel View Synthesis 方法假設(shè)源視頻和目標(biāo)視頻的第一幀是相同的，并且目標(biāo)攝像機(jī)軌跡是相對(duì)于它定義的。這源于兩個(gè)限制。首先，現(xiàn)有方法忽略了源視頻軌跡，導(dǎo)致使用目標(biāo)軌跡計(jì)算的源特征不佳，以保持一致性：

其次，它在數(shù)據(jù)集上進(jìn)行訓(xùn)練，其中源視頻和目標(biāo)視頻的第一幀總是相同的。后一個(gè)限制在本文的訓(xùn)練數(shù)據(jù)集設(shè)計(jì)中得到了解決。為了克服前者，本文設(shè)計(jì)了一種源感知攝像機(jī)條件化。本文使用預(yù)訓(xùn)練的姿態(tài)估計(jì)器估計(jì)源視頻和目標(biāo)視頻的攝像機(jī)姿態(tài)，并將它們聯(lián)合注入擴(kuò)散模型以提供明確的幾何上下文。因此，等式 (2) 擴(kuò)展為：

其中表示 DiT 模型的輸入，它是目標(biāo)和源令牌沿幀維度的連接。這種公式化為模型提供了源和目標(biāo)攝像機(jī)上下文，從而實(shí)現(xiàn)了空間一致的生成和對(duì)攝像機(jī)軌跡的精確控制。

支持更長的視頻片段

最后，為了展示本文攝像機(jī)和時(shí)間控制的全部潛力，本文采用了一種簡單的自回歸視頻生成策略，生成每個(gè)新片段，以先前生成的片段和源視頻為條件，以生成更長的視頻。

為了在推理過程中實(shí)現(xiàn)此功能，本文需要擴(kuò)展本文的訓(xùn)練場景以支持以兩個(gè)視頻為條件，其中一個(gè)作為，另一個(gè)作為。源視頻直接取自多視圖數(shù)據(jù)集或本文的合成數(shù)據(jù)集，如前所述。的構(gòu)建方式與類似——使用時(shí)間扭曲增強(qiáng)或從本文合成數(shù)據(jù)集的密集時(shí)空網(wǎng)格中采樣。當(dāng)應(yīng)用時(shí)間扭曲時(shí)，和可能來自代表相同時(shí)間間隔的相同或不同的多視圖序列。為了保持完全的控制靈活性，本文不強(qiáng)制和之間有任何其他明確的關(guān)聯(lián)，除了指定相對(duì)于選定源視頻幀的攝像機(jī)參數(shù)。

請(qǐng)注意，不約束源視頻和目標(biāo)視頻共享相同的起始幀（如前文所述）對(duì)于在更長序列中實(shí)現(xiàn)靈活的攝像機(jī)控制至關(guān)重要。例如，這種設(shè)計(jì)可以實(shí)現(xiàn)擴(kuò)展的子彈時(shí)間效果：本文可以首先圍繞選定點(diǎn)生成高達(dá) 45° 的旋轉(zhuǎn)（），然后從 45° 繼續(xù)到 90°（）。以兩個(gè)連續(xù)的源片段為條件允許模型利用新生成視點(diǎn)的信息。在子彈時(shí)間示例中，以先前生成的視頻為條件允許模型整合所有新合成視點(diǎn)的信息，而不是僅僅依賴于源視頻中相應(yīng)時(shí)刻的視點(diǎn)。

實(shí)驗(yàn)與最先進(jìn)基線的比較時(shí)間控制評(píng)估

首先，本文評(píng)估了模型的時(shí)間重排能力。為了排除攝像機(jī)控制引起的誤差，本文在固定攝像機(jī)姿態(tài)下對(duì) SpaceTimePilot 進(jìn)行條件化，僅改變時(shí)間控制信號(hào)。實(shí)驗(yàn)在未公開的 Cam×Time 測試集上進(jìn)行，該測試集包含 50 個(gè)場景，這些場景以密集的全網(wǎng)格軌跡渲染，可以重新計(jì)時(shí)為任意時(shí)間序列。對(duì)于每個(gè)測試用例，本文使用一個(gè)移動(dòng)攝像機(jī)的源視頻，但將目標(biāo)攝像機(jī)軌跡設(shè)置為第一幀姿態(tài)。然后，本文應(yīng)用一系列時(shí)間控制信號(hào)，包括反向、子彈時(shí)間、之字形、慢動(dòng)作和正常播放，以合成相應(yīng)的重定時(shí)輸出。由于本文擁有所有時(shí)間配置的地面真實(shí)幀，因此本文報(bào)告了感知損失：PSNR、SSIM 和 LPIPS。

本文考慮了兩個(gè)基線：（1）ReCamM+preshuffled：原始 ReCamMaster 結(jié)合輸入重新排序；（2）ReCamM+jointdata：遵循 [41, 43]，本文使用額外的靜態(tài)場景數(shù)據(jù)集，如 [18, 53] 來訓(xùn)練 ReCamMaster，這些數(shù)據(jù)集僅提供單一的時(shí)間模式。

雖然幀混洗在簡單場景中可能成功，但它無法解耦攝像機(jī)和時(shí)間控制。如下表 2 所示，這種方法表現(xiàn)出最弱的時(shí)間可控性。盡管結(jié)合靜態(tài)場景數(shù)據(jù)集提高了性能，尤其是在子彈時(shí)間類別中，但依賴單一時(shí)間控制模式仍然不足以實(shí)現(xiàn)魯棒的時(shí)間一致性。相比之下，SpaceTimePilot 在所有時(shí)間配置中始終優(yōu)于所有基線。

視覺質(zhì)量評(píng)估

接下來，本文使用 VBench評(píng)估了本文 1800 個(gè)生成視頻的感知真實(shí)感。本文報(bào)告了所有標(biāo)準(zhǔn)視覺質(zhì)量指標(biāo)，以提供對(duì)生成保真度的全面評(píng)估。如下表 3 所示，本文模型實(shí)現(xiàn)了與基線相當(dāng)?shù)囊曈X質(zhì)量。

攝像機(jī)控制評(píng)估

最后，本文評(píng)估了前文中詳述的攝像機(jī)控制機(jī)制的有效性。與上述依賴合成地面真實(shí)視頻的時(shí)間重排評(píng)估不同，本文構(gòu)建了一個(gè)由 OpenVideoHD組成的真實(shí)世界 90 視頻評(píng)估集，涵蓋了各種動(dòng)態(tài)人類和物體運(yùn)動(dòng)。每種方法在 20 種攝像機(jī)軌跡下進(jìn)行評(píng)估：10 種從與源視頻相同的初始姿態(tài)開始，10 種從不同的初始姿態(tài)開始，總共生成 1800 個(gè)視頻。本文應(yīng)用 SpatialTracker-v2從生成的視頻中恢復(fù)攝像機(jī)姿態(tài)，并將其與相應(yīng)的輸入攝像機(jī)姿態(tài)進(jìn)行比較。為了確保一致的比例，本文對(duì)齊了前兩個(gè)攝像機(jī)位置的幅度。軌跡精度使用 RotErr 和 TransErr 根據(jù) [8] 進(jìn)行量化，采用兩種協(xié)議：（1）評(píng)估相對(duì)于第一幀定義的原始軌跡（相對(duì)協(xié)議，RelRot，RelTrans），以及（2）在與第一幀的估計(jì)姿態(tài)對(duì)齊后進(jìn)行評(píng)估（絕對(duì)協(xié)議，AbsRot，AbsTrans）。具體來說，本文通過乘以由 DUSt3R估計(jì)的生成幀和源第一幀之間的相對(duì)姿態(tài)來變換恢復(fù)的原始軌跡。本文還將此 DUSt3R 姿態(tài)與目標(biāo)軌跡的初始姿態(tài)進(jìn)行比較，并報(bào)告 RotErr、RTA@15 和 RTA@30，因?yàn)槠揭品仁浅叨饶：摹?/p>

為了僅測量源攝像機(jī)條件化的影響，本文考慮了原始 ReCamMaster(ReCamM) 和兩種變體。由于 ReCamMaster 最初是在源視頻和目標(biāo)視頻的第一幀相同的數(shù)據(jù)集上訓(xùn)練的，因此模型總是復(fù)制第一幀，而不管輸入攝像機(jī)姿態(tài)如何。為了公平起見，本文使用更多數(shù)據(jù)增強(qiáng)功能重新訓(xùn)練 ReCamMaster，以包括不相同的起始幀，表示為 ReCamM+Aug。接下來，本文根據(jù)等式 3 額外使用源攝像機(jī) 對(duì)模型進(jìn)行條件化，表示為 ReCamM+Aug+。最后，本文還報(bào)告了 TrajectoryCrafter的結(jié)果。

在下表 4 中，本文觀察到絕對(duì)協(xié)議始終產(chǎn)生更高的誤差，因?yàn)檐壽E不僅必須匹配整體形狀（相對(duì)協(xié)議），而且還必須在位置和方向上正確對(duì)齊。有趣的是，ReCamM+Aug 產(chǎn)生的誤差高于原始 ReCamM，而結(jié)合源攝像機(jī) 產(chǎn)生了最佳的整體性能。這表明，如果沒有明確參考，暴露于更多具有不同起始幀的增強(qiáng)視頻反而會(huì)混淆模型。新引入的源視頻軌跡條件信號(hào)在所有指標(biāo)上實(shí)現(xiàn)了顯著更好的攝像機(jī)控制精度、更可靠的第一幀對(duì)齊，以及比所有基線更忠實(shí)地遵循完整軌跡。

定性結(jié)果

除了定量評(píng)估，本文還通過視覺示例展示了 SpaceTimePilot 的優(yōu)勢。如下圖 6 所示，只有本文的方法正確合成攝像機(jī)運(yùn)動(dòng)（紅色框）和動(dòng)畫時(shí)間狀態(tài)（綠色框）。ReCamMaster 雖然能很好地處理攝像機(jī)控制，但無法修改時(shí)間狀態(tài)，例如實(shí)現(xiàn)反向播放。相比之下，TrajectoryCrafter 被反向幀混洗所迷惑，導(dǎo)致最后一個(gè)源幀的攝像機(jī)姿態(tài)（藍(lán)色框）錯(cuò)誤地出現(xiàn)在生成視頻的第一幀中。更多視覺結(jié)果可見下圖 5。

消融研究

為了驗(yàn)證所提出的時(shí)間嵌入模塊的有效性，如下表 5 所示，本文遵循上文中的時(shí)間控制評(píng)估設(shè)置，并將本文的 1D 卷積時(shí)間嵌入與上文中討論的幾種變體和替代方案進(jìn)行比較：（1）均勻采樣：將 81 幀嵌入均勻采樣到 21 幀序列，這等效于在潛在幀級(jí)別采用正弦嵌入；（2）1D-Conv：使用 1D 卷積層從壓縮到，并使用 ReCamMaster 和 SynCamMaster 數(shù)據(jù)集進(jìn)行訓(xùn)練。（3）1D-Conv+jointdata：第 2 行，但額外包含靜態(tài)場景數(shù)據(jù)集。（4）1D-Conv（本文）：第 2 行，但包含所提出的 Cam×Time。本文觀察到，通過將細(xì)粒度維嵌入壓縮到維空間來學(xué)習(xí)緊湊表示的 1D 卷積方法明顯優(yōu)于直接在粗略級(jí)別構(gòu)建正弦嵌入。結(jié)合靜態(tài)場景數(shù)據(jù)集僅帶來了有限的改進(jìn)，這可能是由于其有限的時(shí)間控制模式。相比之下，使用所提出的 Cam×Time 始終在所有三個(gè)指標(biāo)上帶來最大的收益，證實(shí)了本文新引入的數(shù)據(jù)集的有效性。此外，如下圖 7 所示，本文展示了使用均勻采樣和 MLP 代替 1D 卷積壓縮時(shí)間控制信號(hào)的子彈時(shí)間結(jié)果的視覺比較。均勻采樣產(chǎn)生了明顯的偽影，MLP 壓縮器導(dǎo)致攝像機(jī)運(yùn)動(dòng)突然，而 1D 卷積有效地鎖定了動(dòng)畫時(shí)間并實(shí)現(xiàn)了平滑的攝像機(jī)運(yùn)動(dòng)。

結(jié)論

SpaceTimePilot，這是第一個(gè)提供完全解耦空間和時(shí)間控制的視頻擴(kuò)散模型，能夠從單個(gè)單目視頻進(jìn)行 4D 時(shí)空探索。本文方法引入了一種新的“動(dòng)畫時(shí)間”表示，并結(jié)合了利用源姿態(tài)和目標(biāo)姿態(tài)的源感知攝像機(jī)控制機(jī)制。這得到了合成 Cam×Time 和時(shí)間扭曲訓(xùn)練方案的支持，這些方案提供了密集的時(shí)空監(jiān)督。這些組件允許精確的攝像機(jī)和時(shí)間操作、任意初始姿態(tài)以及靈活的多輪生成。在廣泛的實(shí)驗(yàn)中，SpaceTimePilot 始終超越最先進(jìn)的基線，顯著提高了攝像機(jī)控制精度，并可靠地執(zhí)行復(fù)雜的重新計(jì)時(shí)效果，例如反向播放、慢動(dòng)作和子彈時(shí)間。

參考文獻(xiàn)

[1] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

原文標(biāo)題 : 復(fù)刻“黑客帝國”子彈時(shí)間！SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運(yùn)鏡隨你掌控