123,123

口型匹配、身份保持全面SOTA！清華&可靈X-Dub：拋棄修復(fù)思維，用“編輯”實(shí)現(xiàn)精準(zhǔn)同步！

2026-01-04 16:03

作者：Xu He等

解讀：AI生成未來

亮點(diǎn)直擊

范式轉(zhuǎn)變：本文將視覺配音從一個(gè)病態(tài)的“掩碼修復(fù)”任務(wù)重新定義為一個(gè)條件良好的“視頻到視頻編輯”任務(wù)。

自引導(dǎo)框架(X-Dub) ：提出了一個(gè)自我引導(dǎo)框架，利用一個(gè)基于DiT的生成器來創(chuàng)建“理想的”成對(duì)訓(xùn)練數(shù)據(jù)（即除了嘴型不同外，其他視覺條件完全相同的視頻對(duì)），從而允許獨(dú)立的編輯器模型在完整的視覺上下文下學(xué)習(xí)魯棒的配音。

時(shí)間步自適應(yīng)學(xué)習(xí)：引入了一種多階段訓(xùn)練策略，將特定的擴(kuò)散噪聲水平與不同的學(xué)習(xí)目標(biāo)（全局結(jié)構(gòu)、嘴部運(yùn)動(dòng)、紋理細(xì)節(jié)）對(duì)齊。

新基準(zhǔn)測試：發(fā)布了ContextDubBench，這是一個(gè)包含真實(shí)世界復(fù)雜場景（如遮擋、動(dòng)態(tài)光照等）的綜合基準(zhǔn)，用于評(píng)估配音模型的魯棒性。

圖1：超越了mask-inpainting，X-Dub將視覺配音重新定義為豐富的上下文、全參照的視頻對(duì)視頻剪輯，即使在有遮擋和動(dòng)態(tài)光照的挑戰(zhàn)場景中，也能實(shí)現(xiàn)精準(zhǔn)的口型同步和忠實(shí)的身份保護(hù) 圖1：超越了mask-inpainting，X-Dub將視覺配音重新定義為豐富的上下文、全參照的視頻對(duì)視頻剪輯，即使在有遮擋和動(dòng)態(tài)光照的挑戰(zhàn)場景中，也能實(shí)現(xiàn)精準(zhǔn)的口型同步和忠實(shí)的身份保護(hù)

解決的問題

音頻驅(qū)動(dòng)的視覺配音面臨一個(gè)根本的數(shù)據(jù)瓶頸：

缺乏成對(duì)的訓(xùn)練數(shù)據(jù)，即受試者的嘴部運(yùn)動(dòng)不同，但所有其他視覺條件（姿勢、光照、表情）完全相同的視頻對(duì)。

此前的局限：現(xiàn)有方法通常通過遮擋下半張臉并使用修復(fù)（Inpainting）技術(shù)來規(guī)避這一問題。這剝離了關(guān)鍵的視覺上下文，迫使模型去“幻覺”出缺失的內(nèi)容（如遮擋物），并從可能未對(duì)齊的參考幀中提取身份信息。這導(dǎo)致了視覺偽影、身份漂移和同步性差的問題。

提出的方案

本文提出了 X-Dub，一個(gè)自我引導(dǎo)框架：

生成器（數(shù)據(jù)構(gòu)建者）：一個(gè)通過自重建訓(xùn)練的DiT模型，用于為每個(gè)真實(shí)訓(xùn)練視頻生成一個(gè)“伴侶視頻”。這個(gè)伴侶視頻具有改變后的嘴部運(yùn)動(dòng)（由不同的音頻驅(qū)動(dòng)），但保留了原始身份和場景，從而構(gòu)成了合成的“對(duì)齊視頻對(duì)”。

編輯器（富上下文配音者）：第二個(gè)DiT模型在這些視頻對(duì)上進(jìn)行訓(xùn)練。因?yàn)樗邮胀暾模ㄎ幢徽趽醯模┌閭H視頻作為輸入，所以它執(zhí)行的是“編輯”而非“修復(fù)”，能夠利用完整的視覺上下文進(jìn)行精確的嘴部修改和身份保持。

應(yīng)用的技術(shù)

擴(kuò)散Transformer (DiT)：作為生成器和編輯器的骨干網(wǎng)絡(luò)，采用流匹配（Flow Matching）進(jìn)行訓(xùn)練。

上下文條件化：編輯器將參考視頻和目標(biāo)視頻沿幀維度（Token序列）而非通道維度進(jìn)行拼接，允許通過3D自注意力機(jī)制進(jìn)行交互。

時(shí)間步自適應(yīng)多階段學(xué)習(xí)：

高噪聲階段：全參數(shù)微調(diào)，針對(duì)全局結(jié)構(gòu)和姿勢。

中噪聲階段：使用LoRA專家配合SyncNet損失，針對(duì)嘴部清晰度。

低噪聲階段：使用LoRA專家，針對(duì)高頻紋理和身份細(xì)節(jié)。

遮擋與光照增強(qiáng)：在數(shù)據(jù)構(gòu)建階段采用特定策略以確保模型的魯棒性。

達(dá)到的效果

SOTA性能：在HDTF數(shù)據(jù)集和新的ContextDubBench上，超越了現(xiàn)有方法（如Wav2Lip, MuseTalk, LatentSync等）。

卓越的魯棒性：在動(dòng)態(tài)光照、面部遮擋和大姿態(tài)變化等掩碼基方法容易失敗的場景中表現(xiàn)出色。

高保真度：與基線相比，實(shí)現(xiàn)了更好的身份保持（CSIM）和唇形同步準(zhǔn)確性（Sync-C）。

用戶偏好：人類評(píng)估者在真實(shí)感和同步性方面顯著更偏好X-Dub的結(jié)果。

方法論

圖 2：我們的自引導(dǎo)配音框架 X-Dub 概述。范例的核心是使用 DiT 生成器為每個(gè)視頻創(chuàng)建一個(gè)經(jīng)過口型修改的對(duì)應(yīng)視頻，與原始視頻（左）形成上下文豐富的對(duì)。然后，DiT 編輯人員直接從這些理想配對(duì)中學(xué)習(xí)無掩模、視頻到視頻的配音，利用完整的視覺上下文來確保準(zhǔn)確的口型同步和身份保留（中）。這種情境學(xué)習(xí)通過我們的時(shí)間步長自適應(yīng)多階段學(xué)習(xí)（右）進(jìn)一步完善，該學(xué)習(xí)將不同的擴(kuò)散階段與學(xué)習(xí)不同的信息（分別是全局結(jié)構(gòu)、嘴唇運(yùn)動(dòng)和紋理細(xì)節(jié)）結(jié)合起來。圖 2：我們的自引導(dǎo)配音框架 X-Dub 概述。范例的核心是使用 DiT 生成器為每個(gè)視頻創(chuàng)建一個(gè)經(jīng)過口型修改的對(duì)應(yīng)視頻，與原始視頻（左）形成上下文豐富的對(duì)。然后，DiT 編輯人員直接從這些理想配對(duì)中學(xué)習(xí)無掩模、視頻到視頻的配音，利用完整的視覺上下文來確保準(zhǔn)確的口型同步和身份保留（中）。這種情境學(xué)習(xí)通過我們的時(shí)間步長自適應(yīng)多階段學(xué)習(xí)（右）進(jìn)一步完善，該學(xué)習(xí)將不同的擴(kuò)散階段與學(xué)習(xí)不同的信息（分別是全局結(jié)構(gòu)、嘴唇運(yùn)動(dòng)和紋理細(xì)節(jié)）結(jié)合起來。

如圖2所示，本文建立了一個(gè)自引導(dǎo)配音框架，其中一個(gè)DiT模型首先生成具有不同嘴部運(yùn)動(dòng)的視覺對(duì)齊視頻對(duì)，然后從這些視頻對(duì)中學(xué)習(xí)配音任務(wù)，從而將配音從一個(gè)病態(tài)的修復(fù)問題重新構(gòu)建為一個(gè)條件良好的視頻到視頻編輯任務(wù)。

首先介紹基于DiT的生成器。它使用掩碼修復(fù)自重建目標(biāo)進(jìn)行訓(xùn)練，以合成嘴型變化的伴侶視頻，這些視頻純粹作為上下文輸入。為了確保這些合成伴侶充當(dāng)可靠的視覺條件，本文引入了原則性的構(gòu)建策略。這些策略優(yōu)先考慮身份保持和魯棒性，而非次要的嘴型準(zhǔn)確性和泛化能力，并采用嚴(yán)格的質(zhì)量過濾和增強(qiáng)措施來最小化偽影并最大化視覺對(duì)齊。

在這些精心策劃的視頻對(duì)之上，基于DiT的編輯器將無掩碼配音作為富上下文驅(qū)動(dòng)的編輯進(jìn)行學(xué)習(xí)，實(shí)現(xiàn)了精確的唇形同步、忠實(shí)的身份保留以及對(duì)姿勢和遮擋變化的魯棒性。最后，提出了一種時(shí)間步自適應(yīng)多階段學(xué)習(xí)方案。該方案將擴(kuò)散階段與互補(bǔ)的目標(biāo)（結(jié)構(gòu)、嘴唇和紋理）對(duì)齊，以促進(jìn)該編輯范式內(nèi)的穩(wěn)定訓(xùn)練收斂，并進(jìn)一步提高配音質(zhì)量。

DiT骨干網(wǎng)絡(luò)：骨干網(wǎng)絡(luò)遵循隱空間擴(kuò)散范式，使用3D VAE進(jìn)行視頻壓縮，使用DiT進(jìn)行序列建模。每個(gè)DiT塊結(jié)合了2D空間和3D時(shí)空自注意力，以及用于外部條件的交叉注意力。

生成器：上下文條件構(gòu)建者

樸素掩碼配音

基于DiT的生成器是在掩碼自重建方案下實(shí)現(xiàn)的，遵循先前的配音方法。給定目標(biāo)視頻和音頻，應(yīng)用面部掩碼，并在條件和參考幀下重建被掩蓋的區(qū)域。

雖然這種設(shè)置產(chǎn)生的配音輸出并不完美，但生成器的設(shè)計(jì)初衷并非直接解決配音問題，而僅僅是為了合成伴侶視頻作為編輯器的上下文輸入。通過在其他方面一致的幀內(nèi)改變嘴部運(yùn)動(dòng)，生成器將稀疏的修復(fù)上下文轉(zhuǎn)換為對(duì)齊的視頻對(duì)，這比靜態(tài)參考幀要強(qiáng)大得多。

圖 3：基于 DiT 的框架的調(diào)節(jié)機(jī)制。參考條件（用于編輯器的完整上下文視頻幀；用于生成器的單個(gè)參考幀）和目標(biāo)視頻連接成一個(gè)統(tǒng)一的序列以進(jìn)行 3D 自注意力。音頻通過交叉注意力注入

條件機(jī)制：如圖3所示，掩碼幀和目標(biāo)幀由VAE編碼為，參考幀編碼為。與加噪的在通道維度上拼接，進(jìn)行零填充以對(duì)齊通道�？鐜唇赢a(chǎn)生了統(tǒng)一的DiT輸入，這使得視頻和參考Token之間可以通過3D自注意力進(jìn)行交互。Whisper特征通過交叉注意力作為音頻條件注入。為了將生成擴(kuò)展到長視頻，使用了運(yùn)動(dòng)幀：每個(gè)片段都以基于前一片段的最后幾幀為條件。在訓(xùn)練期間，的前幀保持不加噪作為運(yùn)動(dòng)指導(dǎo)。條件Dropout（50%）用于處理初始片段中先驗(yàn)幀缺失的情況。

訓(xùn)練目標(biāo)：采用流匹配損失，并通過DWPose提取的面部和嘴唇掩碼進(jìn)行加權(quán)（表示逐元素乘法）：

以這種方式訓(xùn)練后，生成器通過用替代音頻替換原始音頻，為每個(gè)真實(shí)剪輯生成一個(gè)合成伴侶視頻，從而產(chǎn)生幀對(duì)齊但嘴型變化的視頻對(duì) 。在這里，僅作為編輯器的條件輸入。

原則性的配對(duì)構(gòu)建策略

普通的掩碼配音不可避免地會(huì)產(chǎn)生不完美的結(jié)果。因此，本文在生成器的數(shù)據(jù)構(gòu)建過程中設(shè)計(jì)了明確的權(quán)衡策略，以確保合成的伴侶視頻雖然不完美，但能作為可靠的上下文輸入。

確立了三個(gè)指導(dǎo)原則：

域內(nèi)質(zhì)量優(yōu)于泛化：關(guān)注訓(xùn)練分布內(nèi)的保真度。

變化下的視覺一致性：伴侶視頻必須保持身份，并在姿勢、遮擋和光照變化下保持魯棒。

嘴型變化優(yōu)于準(zhǔn)確性：中的嘴型應(yīng)與不同以避免泄漏，同時(shí)容忍適度的唇形同步不準(zhǔn)確。

據(jù)此，實(shí)施了若干策略。利用短時(shí)視覺平穩(wěn)性，生成器以25幀的短片段處理視頻，此時(shí)姿勢和場景相對(duì)穩(wěn)定。運(yùn)動(dòng)幀隨后將這些片段連接成完整的77幀視頻，用于后續(xù)的編輯器訓(xùn)練。替代音頻從與相同的說話人中采樣，以減少跨身份沖突。

為了增強(qiáng)魯棒性，結(jié)合了互補(bǔ)技術(shù)。通過標(biāo)注并將面部遮擋物排除在修復(fù)區(qū)域之外來處理遮擋。對(duì)于光照增強(qiáng)，對(duì) 和應(yīng)用相同的重光照處理，以構(gòu)建具有一致光照動(dòng)態(tài)的視頻對(duì)。使用地標(biāo)距離、身份相似度和整體視覺質(zhì)量評(píng)分進(jìn)行質(zhì)量過濾。此外，補(bǔ)充了3D渲染數(shù)據(jù)以獲得完美對(duì)齊的視頻對(duì)。

編輯器：上下文驅(qū)動(dòng)的視頻到視頻配音

給定精心策劃的視頻對(duì) ，訓(xùn)練一個(gè)基于DiT的編輯器進(jìn)行無掩碼配音。與生成器不同，編輯器直接處理配音任務(wù)：給定音頻和伴侶視頻，它學(xué)習(xí)生成作為目標(biāo)，從而將配音從稀疏的修復(fù)問題轉(zhuǎn)變?yōu)樯舷挛尿?qū)動(dòng)的編輯問題。在實(shí)踐中，得益于視頻對(duì)提供的豐富上下文輸入，編輯器在嘴型準(zhǔn)確性、身份保持和魯棒性方面均超越了生成器。

上下文條件機(jī)制：如圖3所示，配對(duì)的參考視頻和目標(biāo)視頻被編碼為潛變量。擴(kuò)散后的隨后與干凈的跨幀拼接，形成。對(duì)該序列進(jìn)行Patch化處理使得上下文可以通過3D自注意力進(jìn)行交互，在最小化改動(dòng)DiT骨干的同時(shí)充分利用其上下文建模能力。音頻特征和運(yùn)動(dòng)幀的集成方式與3.1節(jié)相同。

基于LoRA專家的時(shí)間步自適應(yīng)多階段學(xué)習(xí)

雖然嘴型變化的視頻對(duì)顯著簡化了配音任務(wù)，但編輯器的訓(xùn)練仍需平衡繼承全局結(jié)構(gòu)、編輯嘴部運(yùn)動(dòng)和保留細(xì)粒度身份細(xì)節(jié)這三個(gè)目標(biāo)。擴(kuò)散模型在時(shí)間步上表現(xiàn)出階段性的專業(yè)化。受此啟發(fā)，本文引入了一種時(shí)間步自適應(yīng)多階段方案，不同的噪聲區(qū)域針對(duì)互補(bǔ)的目標(biāo)。

階段劃分：遵循Esser等人的方法，移動(dòng)時(shí)間步采樣分布以集中在每個(gè)訓(xùn)練階段的不同噪聲水平上：

其中是對(duì)數(shù)正態(tài)分布，設(shè)定偏移強(qiáng)度。這產(chǎn)生了：

高噪聲步驟：用于全局結(jié)構(gòu)和運(yùn)動(dòng)（背景、姿勢、粗略身份）。

中噪聲步驟：用于嘴部運(yùn)動(dòng)。

低噪聲步驟：用于涉及身份細(xì)節(jié)的紋理細(xì)化。

高噪聲全參數(shù)訓(xùn)練：首先，編輯器在高噪聲分布下進(jìn)行全參數(shù)優(yōu)化訓(xùn)練。這促進(jìn)了收斂，并使得模型能夠從參考上下文中無縫遷移全局結(jié)構(gòu)，同時(shí)實(shí)現(xiàn)初步的唇形同步。目標(biāo)函數(shù)是相同的掩碼加權(quán)流匹配損失。

中低噪聲的LoRA專家微調(diào)：隨后為中噪聲和低噪聲階段附加輕量級(jí)的LoRA模塊。由于需要像素級(jí)約束，設(shè)計(jì)了一種單步去噪策略以避免計(jì)算開銷：

其中確保在高噪聲水平下的去噪穩(wěn)定性。

嘴唇專家（Lip Expert） 在中噪聲階段工作，由額外的唇形同步損失（使用SyncNet進(jìn)行視聽對(duì)齊）監(jiān)督。

紋理專家（Texture Expert） 在低噪聲階段工作，由重建損失（結(jié)合L1、CLIP和ArcFace身份損失）監(jiān)督以恢復(fù)高頻細(xì)節(jié)。為保障唇形同步質(zhì)量，在紋理微調(diào)階段我們以0.5的概率隨機(jī)禁用音頻交叉注意力機(jī)制，僅在靜音條件下計(jì)算紋理監(jiān)督信號(hào)。

在推理階段，各LoRA模塊在其最優(yōu)時(shí)間步范圍內(nèi)被激活：紋理專家作用于t∈[0, 0.3]區(qū)間，唇部專家作用于t∈[0.4, 0.8]區(qū)間，從而確保二者在各自最有效的生成階段發(fā)揮作用。

實(shí)驗(yàn)總結(jié)

本文在 HDTF（高清數(shù)據(jù)集）和新提出的 ContextDubBench 上評(píng)估了所提出的編輯器。對(duì)比了Wav2Lip, VideoReTalking, TalkLip, IP-LAP, Diff2Lip, MuseTalk 和 LatentSync 等最先進(jìn)的方法。

定量結(jié)果：

HDTF：編輯器實(shí)現(xiàn)了最低的 FID (7.03) 和 FVD，以及最高的 Sync-C (8.56) 和 CSIM (0.883)，大幅優(yōu)于之前的最佳方法（例如，F(xiàn)ID降低了12.6%，Sync-C提高了4.9%）。

ContextDubBench：在這個(gè)具有挑戰(zhàn)性的基準(zhǔn)上，優(yōu)勢更加明顯。該方法實(shí)現(xiàn)了 96.4% 的成功率（次優(yōu)方法僅約72%），并具有卓越的唇音一致性（Sync-C +16.0%）和身份保持能力（CSIM +6.1%）。

定性結(jié)果：

可視化結(jié)果顯示，X-Dub 能夠產(chǎn)生精確的唇形同步，即使在側(cè)面視圖或有遮擋（如手遮擋部分面部）的情況下也能保持身份，而基于掩碼的方法通常會(huì)在這些情況下失敗或產(chǎn)生偽影。

圖4：跨多種情景的定性比較。對(duì)口型錯(cuò)誤用yel-low標(biāo)記，視覺偽影用藍(lán)色標(biāo)記，靜音時(shí)嘴唇漏用紅色。“ERROR”表示運(yùn)行時(shí)因未找到3DMM或地標(biāo)而失敗，盡管已盡最大努力。我們的方法展現(xiàn)出強(qiáng)有力的牙齦，唇部準(zhǔn)確度和身份一致性都更佳圖4：跨多種情景的定性比較。對(duì)口型錯(cuò)誤用yel-low標(biāo)記，視覺偽影用藍(lán)色標(biāo)記，靜音時(shí)嘴唇漏用紅色。“ERROR”表示運(yùn)行時(shí)因未找到3DMM或地標(biāo)而失敗，盡管已盡最大努力。我們的方法展現(xiàn)出強(qiáng)有力的牙齦，唇部準(zhǔn)確度和身份一致性都更佳

消融研究：

條件化：使用Token拼接（跨幀）優(yōu)于通道拼接，后者會(huì)損害唇形同步。

多階段學(xué)習(xí)：移除嘴唇微調(diào)階段會(huì)降低 Sync-C 分?jǐn)?shù)；移除紋理階段會(huì)損害身份指標(biāo)。均勻的時(shí)間步采樣會(huì)導(dǎo)致發(fā)散或質(zhì)量低下。

用戶研究：在包含30名參與者的研究中，該方法在真實(shí)感、唇形同步和身份保持方面獲得了最高的平均意見得分（MOS）。

結(jié)論

本工作引入了一種新穎的自引導(dǎo)范式來解決視覺配音中的核心挑戰(zhàn)：缺乏成對(duì)的真實(shí)世界訓(xùn)練數(shù)據(jù)。我們認(rèn)為，視覺配音不應(yīng)依賴于掩碼修復(fù)，而應(yīng)被重構(gòu)為一個(gè)條件良好的視頻到視頻編輯任務(wù)。

基于這一范式，提出了 X-Dub，一個(gè)富上下文的配音框架。它利用一個(gè)DiT模型首先作為生成器，創(chuàng)建具有完整視覺上下文的理想訓(xùn)練對(duì)，然后作為編輯器從這些精心策劃的數(shù)據(jù)中學(xué)習(xí)。這一過程通過時(shí)間步自適應(yīng)多階段學(xué)習(xí)策略得到進(jìn)一步完善，該策略解耦了結(jié)構(gòu)、嘴唇和紋理的學(xué)習(xí)，從而提高了最終輸出的質(zhì)量。

在標(biāo)準(zhǔn)數(shù)據(jù)集和我們要新提出的高難度基準(zhǔn) ContextDubBench 上的廣泛實(shí)驗(yàn)表明，本文方法取得了SOTA結(jié)果。X-Dub 在復(fù)雜的野外場景中表現(xiàn)出卓越的魯棒性，顯著優(yōu)于先前的工作。相信這項(xiàng)工作不僅為視覺配音樹立了新標(biāo)準(zhǔn)，也為其他缺乏成對(duì)數(shù)據(jù)的條件視頻編輯任務(wù)提供了寶貴的見解。

參考文獻(xiàn)

[1] FROM INPAINTING TO EDITING: A SELF-BOOTSTRAPPING FRAMEWORK FOR CONTEXT-RICH VISUAL DUBBING

原文標(biāo)題 : 口型匹配、身份保持全面SOTA！清華&可靈X-Dub：拋棄修復(fù)思維，用“編輯”實(shí)現(xiàn)精準(zhǔn)同步！