訂閱
糾錯(cuò)
加入自媒體

口型匹配、身份保持全面SOTA!清華&可靈X-Dub:拋棄修復(fù)思維,用“編輯”實(shí)現(xiàn)精準(zhǔn)同步!

作者:Xu He等

解讀:AI生成未來

亮點(diǎn)直擊

范式轉(zhuǎn)變:本文將視覺配音從一個(gè)病態(tài)的“掩碼修復(fù)”任務(wù)重新定義為一個(gè)條件良好的“視頻到視頻編輯”任務(wù)。

自引導(dǎo)框架(X-Dub) :提出了一個(gè)自我引導(dǎo)框架,利用一個(gè)基于DiT的生成器來創(chuàng)建“理想的”成對(duì)訓(xùn)練數(shù)據(jù)(即除了嘴型不同外,其他視覺條件完全相同的視頻對(duì)),從而允許獨(dú)立的編輯器模型在完整的視覺上下文下學(xué)習(xí)魯棒的配音。

時(shí)間步自適應(yīng)學(xué)習(xí):引入了一種多階段訓(xùn)練策略,將特定的擴(kuò)散噪聲水平與不同的學(xué)習(xí)目標(biāo)(全局結(jié)構(gòu)、嘴部運(yùn)動(dòng)、紋理細(xì)節(jié))對(duì)齊。

新基準(zhǔn)測試:發(fā)布了ContextDubBench,這是一個(gè)包含真實(shí)世界復(fù)雜場景(如遮擋、動(dòng)態(tài)光照等)的綜合基準(zhǔn),用于評(píng)估配音模型的魯棒性。

圖1:超越了mask-inpainting,X-Dub將視覺配音重新定義為豐富的上下文、全參照的視頻對(duì)視頻剪輯,即使在有遮擋和動(dòng)態(tài)光照的挑戰(zhàn)場景中,也能實(shí)現(xiàn)精準(zhǔn)的口型同步和忠實(shí)的身份保護(hù)圖1:超越了mask-inpainting,X-Dub將視覺配音重新定義為豐富的上下文、全參照的視頻對(duì)視頻剪輯,即使在有遮擋和動(dòng)態(tài)光照的挑戰(zhàn)場景中,也能實(shí)現(xiàn)精準(zhǔn)的口型同步和忠實(shí)的身份保護(hù)

解決的問題

音頻驅(qū)動(dòng)的視覺配音面臨一個(gè)根本的數(shù)據(jù)瓶頸:

缺乏成對(duì)的訓(xùn)練數(shù)據(jù),即受試者的嘴部運(yùn)動(dòng)不同,但所有其他視覺條件(姿勢、光照、表情)完全相同的視頻對(duì)。

此前的局限:現(xiàn)有方法通常通過遮擋下半張臉并使用修復(fù)(Inpainting)技術(shù)來規(guī)避這一問題。這剝離了關(guān)鍵的視覺上下文,迫使模型去“幻覺”出缺失的內(nèi)容(如遮擋物),并從可能未對(duì)齊的參考幀中提取身份信息。這導(dǎo)致了視覺偽影、身份漂移和同步性差的問題。

提出的方案

本文提出了 X-Dub,一個(gè)自我引導(dǎo)框架:

生成器(數(shù)據(jù)構(gòu)建者):一個(gè)通過自重建訓(xùn)練的DiT模型,用于為每個(gè)真實(shí)訓(xùn)練視頻生成一個(gè)“伴侶視頻”。這個(gè)伴侶視頻具有改變后的嘴部運(yùn)動(dòng)(由不同的音頻驅(qū)動(dòng)),但保留了原始身份和場景,從而構(gòu)成了合成的“對(duì)齊視頻對(duì)”。

編輯器(富上下文配音者):第二個(gè)DiT模型在這些視頻對(duì)上進(jìn)行訓(xùn)練。因?yàn)樗邮胀暾模ㄎ幢徽趽醯模┌閭H視頻作為輸入,所以它執(zhí)行的是“編輯”而非“修復(fù)”,能夠利用完整的視覺上下文進(jìn)行精確的嘴部修改和身份保持。

應(yīng)用的技術(shù)

擴(kuò)散Transformer (DiT):作為生成器和編輯器的骨干網(wǎng)絡(luò),采用流匹配(Flow Matching)進(jìn)行訓(xùn)練。

上下文條件化:編輯器將參考視頻和目標(biāo)視頻沿幀維度(Token序列)而非通道維度進(jìn)行拼接,允許通過3D自注意力機(jī)制進(jìn)行交互。

時(shí)間步自適應(yīng)多階段學(xué)習(xí)

高噪聲階段:全參數(shù)微調(diào),針對(duì)全局結(jié)構(gòu)和姿勢。

中噪聲階段:使用LoRA專家配合SyncNet損失,針對(duì)嘴部清晰度。

低噪聲階段:使用LoRA專家,針對(duì)高頻紋理和身份細(xì)節(jié)。

遮擋與光照增強(qiáng):在數(shù)據(jù)構(gòu)建階段采用特定策略以確保模型的魯棒性。

達(dá)到的效果

SOTA性能:在HDTF數(shù)據(jù)集和新的ContextDubBench上,超越了現(xiàn)有方法(如Wav2Lip, MuseTalk, LatentSync等)。

卓越的魯棒性:在動(dòng)態(tài)光照、面部遮擋和大姿態(tài)變化等掩碼基方法容易失敗的場景中表現(xiàn)出色。

高保真度:與基線相比,實(shí)現(xiàn)了更好的身份保持(CSIM)和唇形同步準(zhǔn)確性(Sync-C)。

用戶偏好:人類評(píng)估者在真實(shí)感和同步性方面顯著更偏好X-Dub的結(jié)果。

方法論

圖 2:我們的自引導(dǎo)配音框架 X-Dub 概述。 范例的核心是使用 DiT 生成器為每個(gè)視頻創(chuàng)建一個(gè)經(jīng)過口型修改的對(duì)應(yīng)視頻,與原始視頻(左)形成上下文豐富的對(duì)。 然后,DiT 編輯人員直接從這些理想配對(duì)中學(xué)習(xí)無掩模、視頻到視頻的配音,利用完整的視覺上下文來確保準(zhǔn)確的口型同步和身份保留(中)。 這種情境學(xué)習(xí)通過我們的時(shí)間步長自適應(yīng)多階段學(xué)習(xí)(右)進(jìn)一步完善,該學(xué)習(xí)將不同的擴(kuò)散階段與學(xué)習(xí)不同的信息(分別是全局結(jié)構(gòu)、嘴唇運(yùn)動(dòng)和紋理細(xì)節(jié))結(jié)合起來。圖 2:我們的自引導(dǎo)配音框架 X-Dub 概述。 范例的核心是使用 DiT 生成器為每個(gè)視頻創(chuàng)建一個(gè)經(jīng)過口型修改的對(duì)應(yīng)視頻,與原始視頻(左)形成上下文豐富的對(duì)。 然后,DiT 編輯人員直接從這些理想配對(duì)中學(xué)習(xí)無掩模、視頻到視頻的配音,利用完整的視覺上下文來確保準(zhǔn)確的口型同步和身份保留(中)。 這種情境學(xué)習(xí)通過我們的時(shí)間步長自適應(yīng)多階段學(xué)習(xí)(右)進(jìn)一步完善,該學(xué)習(xí)將不同的擴(kuò)散階段與學(xué)習(xí)不同的信息(分別是全局結(jié)構(gòu)、嘴唇運(yùn)動(dòng)和紋理細(xì)節(jié))結(jié)合起來。

如圖2所示,本文建立了一個(gè)自引導(dǎo)配音框架,其中一個(gè)DiT模型首先生成具有不同嘴部運(yùn)動(dòng)的視覺對(duì)齊視頻對(duì),然后從這些視頻對(duì)中學(xué)習(xí)配音任務(wù),從而將配音從一個(gè)病態(tài)的修復(fù)問題重新構(gòu)建為一個(gè)條件良好的視頻到視頻編輯任務(wù)。

首先介紹基于DiT的生成器。它使用掩碼修復(fù)自重建目標(biāo)進(jìn)行訓(xùn)練,以合成嘴型變化的伴侶視頻,這些視頻純粹作為上下文輸入。為了確保這些合成伴侶充當(dāng)可靠的視覺條件,本文引入了原則性的構(gòu)建策略。這些策略優(yōu)先考慮身份保持和魯棒性,而非次要的嘴型準(zhǔn)確性和泛化能力,并采用嚴(yán)格的質(zhì)量過濾和增強(qiáng)措施來最小化偽影并最大化視覺對(duì)齊。

在這些精心策劃的視頻對(duì)之上,基于DiT的編輯器將無掩碼配音作為富上下文驅(qū)動(dòng)的編輯進(jìn)行學(xué)習(xí),實(shí)現(xiàn)了精確的唇形同步、忠實(shí)的身份保留以及對(duì)姿勢和遮擋變化的魯棒性。最后,提出了一種時(shí)間步自適應(yīng)多階段學(xué)習(xí)方案。該方案將擴(kuò)散階段與互補(bǔ)的目標(biāo)(結(jié)構(gòu)、嘴唇和紋理)對(duì)齊,以促進(jìn)該編輯范式內(nèi)的穩(wěn)定訓(xùn)練收斂,并進(jìn)一步提高配音質(zhì)量。

DiT骨干網(wǎng)絡(luò):骨干網(wǎng)絡(luò)遵循隱空間擴(kuò)散范式,使用3D VAE進(jìn)行視頻壓縮,使用DiT進(jìn)行序列建模。每個(gè)DiT塊結(jié)合了2D空間和3D時(shí)空自注意力,以及用于外部條件的交叉注意力。

生成器:上下文條件構(gòu)建者

樸素掩碼配音

基于DiT的生成器是在掩碼自重建方案下實(shí)現(xiàn)的,遵循先前的配音方法。給定目標(biāo)視頻  和音頻 ,應(yīng)用面部掩碼 ,并在條件  和參考幀  下重建被掩蓋的區(qū)域 。

雖然這種設(shè)置產(chǎn)生的配音輸出并不完美,但生成器的設(shè)計(jì)初衷并非直接解決配音問題,而僅僅是為了合成伴侶視頻作為編輯器的上下文輸入。通過在其他方面一致的幀內(nèi)改變嘴部運(yùn)動(dòng),生成器將稀疏的修復(fù)上下文轉(zhuǎn)換為對(duì)齊的視頻對(duì),這比靜態(tài)參考幀要強(qiáng)大得多。

圖 3:基于 DiT 的框架的調(diào)節(jié)機(jī)制。 參考條件(用于編輯器的完整上下文視頻幀;用于生成器的單個(gè)參考幀)和目標(biāo)視頻連接成一個(gè)統(tǒng)一的序列以進(jìn)行 3D 自注意力。 音頻通過交叉注意力注入圖 3:基于 DiT 的框架的調(diào)節(jié)機(jī)制。 參考條件(用于編輯器的完整上下文視頻幀;用于生成器的單個(gè)參考幀)和目標(biāo)視頻連接成一個(gè)統(tǒng)一的序列以進(jìn)行 3D 自注意力。 音頻通過交叉注意力注入

條件機(jī)制:如圖3所示,掩碼幀和目標(biāo)幀由VAE編碼為 ,參考幀編碼為 。 與加噪的  在通道維度上拼接, 進(jìn)行零填充以對(duì)齊通道?鐜唇赢a(chǎn)生了統(tǒng)一的DiT輸入 ,這使得視頻和參考Token之間可以通過3D自注意力進(jìn)行交互。Whisper特征通過交叉注意力作為音頻條件注入。為了將生成擴(kuò)展到長視頻,使用了運(yùn)動(dòng)幀:每個(gè)片段都以基于前一片段的最后幾幀為條件。在訓(xùn)練期間, 的前  幀保持不加噪作為運(yùn)動(dòng)指導(dǎo)。條件Dropout(50%)用于處理初始片段中先驗(yàn)幀缺失的情況。

訓(xùn)練目標(biāo):采用流匹配損失 ,并通過DWPose提取的面部和嘴唇掩碼  進(jìn)行加權(quán)(表示逐元素乘法):

以這種方式訓(xùn)練后,生成器通過用替代音頻  替換原始音頻 ,為每個(gè)真實(shí)剪輯  生成一個(gè)合成伴侶視頻 ,從而產(chǎn)生幀對(duì)齊但嘴型變化的視頻對(duì) 。在這里, 僅作為編輯器的條件輸入。

原則性的配對(duì)構(gòu)建策略

普通的掩碼配音不可避免地會(huì)產(chǎn)生不完美的結(jié)果。因此,本文在生成器的數(shù)據(jù)構(gòu)建過程中設(shè)計(jì)了明確的權(quán)衡策略,以確保合成的伴侶視頻雖然不完美,但能作為可靠的上下文輸入。

確立了三個(gè)指導(dǎo)原則:

域內(nèi)質(zhì)量優(yōu)于泛化:關(guān)注訓(xùn)練分布內(nèi)的保真度。

變化下的視覺一致性:伴侶視頻必須保持身份,并在姿勢、遮擋和光照變化下保持魯棒。

嘴型變化優(yōu)于準(zhǔn)確性: 中的嘴型應(yīng)與  不同以避免泄漏,同時(shí)容忍適度的唇形同步不準(zhǔn)確。

據(jù)此,實(shí)施了若干策略。利用短時(shí)視覺平穩(wěn)性,生成器以25幀的短片段處理視頻,此時(shí)姿勢和場景相對(duì)穩(wěn)定。運(yùn)動(dòng)幀隨后將這些片段連接成完整的77幀視頻,用于后續(xù)的編輯器訓(xùn)練。替代音頻  從與  相同的說話人中采樣,以減少跨身份沖突。

為了增強(qiáng)魯棒性,結(jié)合了互補(bǔ)技術(shù)。通過標(biāo)注并將面部遮擋物排除在修復(fù)區(qū)域之外來處理遮擋。對(duì)于光照增強(qiáng),對(duì)  和  應(yīng)用相同的重光照處理,以構(gòu)建具有一致光照動(dòng)態(tài)的視頻對(duì)。使用地標(biāo)距離、身份相似度和整體視覺質(zhì)量評(píng)分進(jìn)行質(zhì)量過濾。此外,補(bǔ)充了3D渲染數(shù)據(jù)以獲得完美對(duì)齊的視頻對(duì)。

編輯器:上下文驅(qū)動(dòng)的視頻到視頻配音

給定精心策劃的視頻對(duì) ,訓(xùn)練一個(gè)基于DiT的編輯器進(jìn)行無掩碼配音。與生成器不同,編輯器直接處理配音任務(wù):給定音頻  和伴侶視頻 ,它學(xué)習(xí)生成  作為目標(biāo),從而將配音從稀疏的修復(fù)問題轉(zhuǎn)變?yōu)樯舷挛尿?qū)動(dòng)的編輯問題。在實(shí)踐中,得益于視頻對(duì)提供的豐富上下文輸入,編輯器在嘴型準(zhǔn)確性、身份保持和魯棒性方面均超越了生成器。

上下文條件機(jī)制:如圖3所示,配對(duì)的參考視頻和目標(biāo)視頻被編碼為潛變量 。擴(kuò)散后的  隨后與干凈的  跨幀拼接,形成 。對(duì)該序列進(jìn)行Patch化處理使得上下文可以通過3D自注意力進(jìn)行交互,在最小化改動(dòng)DiT骨干的同時(shí)充分利用其上下文建模能力。音頻特征和運(yùn)動(dòng)幀的集成方式與3.1節(jié)相同。

基于LoRA專家的時(shí)間步自適應(yīng)多階段學(xué)習(xí)

雖然嘴型變化的視頻對(duì)顯著簡化了配音任務(wù),但編輯器的訓(xùn)練仍需平衡繼承全局結(jié)構(gòu)、編輯嘴部運(yùn)動(dòng)和保留細(xì)粒度身份細(xì)節(jié)這三個(gè)目標(biāo)。擴(kuò)散模型在時(shí)間步上表現(xiàn)出階段性的專業(yè)化。受此啟發(fā),本文引入了一種時(shí)間步自適應(yīng)多階段方案,不同的噪聲區(qū)域針對(duì)互補(bǔ)的目標(biāo)。

階段劃分:遵循Esser等人的方法,移動(dòng)時(shí)間步采樣分布以集中在每個(gè)訓(xùn)練階段的不同噪聲水平上:

其中  是對(duì)數(shù)正態(tài)分布, 設(shè)定偏移強(qiáng)度。這產(chǎn)生了:

高噪聲步驟:用于全局結(jié)構(gòu)和運(yùn)動(dòng)(背景、姿勢、粗略身份)。

中噪聲步驟:用于嘴部運(yùn)動(dòng)。

低噪聲步驟:用于涉及身份細(xì)節(jié)的紋理細(xì)化。

高噪聲全參數(shù)訓(xùn)練:首先,編輯器在高噪聲分布下進(jìn)行全參數(shù)優(yōu)化訓(xùn)練。這促進(jìn)了收斂,并使得模型能夠從參考上下文中無縫遷移全局結(jié)構(gòu),同時(shí)實(shí)現(xiàn)初步的唇形同步。目標(biāo)函數(shù)是相同的掩碼加權(quán)流匹配損失 。

中低噪聲的LoRA專家微調(diào):隨后為中噪聲和低噪聲階段附加輕量級(jí)的LoRA模塊。由于需要像素級(jí)約束,設(shè)計(jì)了一種單步去噪策略以避免計(jì)算開銷:

其中  確保在高噪聲水平下的去噪穩(wěn)定性。

嘴唇專家(Lip Expert) 在中噪聲階段工作,由額外的唇形同步損失 (使用SyncNet進(jìn)行視聽對(duì)齊)監(jiān)督。

紋理專家(Texture Expert) 在低噪聲階段工作,由重建損失 (結(jié)合L1、CLIP和ArcFace身份損失)監(jiān)督以恢復(fù)高頻細(xì)節(jié)。為保障唇形同步質(zhì)量,在紋理微調(diào)階段我們以0.5的概率隨機(jī)禁用音頻交叉注意力機(jī)制,僅在靜音條件下計(jì)算紋理監(jiān)督信號(hào)。

在推理階段,各LoRA模塊在其最優(yōu)時(shí)間步范圍內(nèi)被激活:紋理專家作用于t∈[0, 0.3]區(qū)間,唇部專家作用于t∈[0.4, 0.8]區(qū)間,從而確保二者在各自最有效的生成階段發(fā)揮作用。

實(shí)驗(yàn)總結(jié)

本文在 HDTF(高清數(shù)據(jù)集)和新提出的 ContextDubBench 上評(píng)估了所提出的編輯器。對(duì)比了Wav2Lip, VideoReTalking, TalkLip, IP-LAP, Diff2Lip, MuseTalk 和 LatentSync 等最先進(jìn)的方法。

定量結(jié)果

HDTF:編輯器實(shí)現(xiàn)了最低的 FID (7.03) 和 FVD,以及最高的 Sync-C (8.56) 和 CSIM (0.883),大幅優(yōu)于之前的最佳方法(例如,F(xiàn)ID降低了12.6%,Sync-C提高了4.9%)。

ContextDubBench:在這個(gè)具有挑戰(zhàn)性的基準(zhǔn)上,優(yōu)勢更加明顯。該方法實(shí)現(xiàn)了 96.4% 的成功率(次優(yōu)方法僅約72%),并具有卓越的唇音一致性(Sync-C +16.0%)和身份保持能力(CSIM +6.1%)。

定性結(jié)果

可視化結(jié)果顯示,X-Dub 能夠產(chǎn)生精確的唇形同步,即使在側(cè)面視圖或有遮擋(如手遮擋部分面部)的情況下也能保持身份,而基于掩碼的方法通常會(huì)在這些情況下失敗或產(chǎn)生偽影。

圖4:跨多種情景的定性比較。對(duì)口型錯(cuò)誤用yel-low標(biāo)記,視覺偽影用藍(lán)色標(biāo)記,靜音時(shí)嘴唇漏用紅色。“ERROR”表示運(yùn)行時(shí)因未找到3DMM或地標(biāo)而失敗,盡管已盡最大努力。我們的方法展現(xiàn)出強(qiáng)有力的牙齦,唇部準(zhǔn)確度和身份一致性都更佳圖4:跨多種情景的定性比較。對(duì)口型錯(cuò)誤用yel-low標(biāo)記,視覺偽影用藍(lán)色標(biāo)記,靜音時(shí)嘴唇漏用紅色。“ERROR”表示運(yùn)行時(shí)因未找到3DMM或地標(biāo)而失敗,盡管已盡最大努力。我們的方法展現(xiàn)出強(qiáng)有力的牙齦,唇部準(zhǔn)確度和身份一致性都更佳

消融研究

條件化:使用Token拼接(跨幀)優(yōu)于通道拼接,后者會(huì)損害唇形同步。

多階段學(xué)習(xí):移除嘴唇微調(diào)階段會(huì)降低 Sync-C 分?jǐn)?shù);移除紋理階段會(huì)損害身份指標(biāo)。均勻的時(shí)間步采樣會(huì)導(dǎo)致發(fā)散或質(zhì)量低下。

用戶研究:在包含30名參與者的研究中,該方法在真實(shí)感、唇形同步和身份保持方面獲得了最高的平均意見得分(MOS)。

結(jié)論

本工作引入了一種新穎的自引導(dǎo)范式來解決視覺配音中的核心挑戰(zhàn):缺乏成對(duì)的真實(shí)世界訓(xùn)練數(shù)據(jù)。我們認(rèn)為,視覺配音不應(yīng)依賴于掩碼修復(fù),而應(yīng)被重構(gòu)為一個(gè)條件良好的視頻到視頻編輯任務(wù)

基于這一范式,提出了 X-Dub,一個(gè)富上下文的配音框架。它利用一個(gè)DiT模型首先作為生成器,創(chuàng)建具有完整視覺上下文的理想訓(xùn)練對(duì),然后作為編輯器從這些精心策劃的數(shù)據(jù)中學(xué)習(xí)。這一過程通過時(shí)間步自適應(yīng)多階段學(xué)習(xí)策略得到進(jìn)一步完善,該策略解耦了結(jié)構(gòu)、嘴唇和紋理的學(xué)習(xí),從而提高了最終輸出的質(zhì)量。

在標(biāo)準(zhǔn)數(shù)據(jù)集和我們要新提出的高難度基準(zhǔn) ContextDubBench 上的廣泛實(shí)驗(yàn)表明,本文方法取得了SOTA結(jié)果。X-Dub 在復(fù)雜的野外場景中表現(xiàn)出卓越的魯棒性,顯著優(yōu)于先前的工作。相信這項(xiàng)工作不僅為視覺配音樹立了新標(biāo)準(zhǔn),也為其他缺乏成對(duì)數(shù)據(jù)的條件視頻編輯任務(wù)提供了寶貴的見解。

參考文獻(xiàn)

[1] FROM INPAINTING TO EDITING: A SELF-BOOTSTRAPPING FRAMEWORK FOR CONTEXT-RICH VISUAL DUBBING

       原文標(biāo)題 : 口型匹配、身份保持全面SOTA!清華&可靈X-Dub:拋棄修復(fù)思維,用“編輯”實(shí)現(xiàn)精準(zhǔn)同步!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)