訂閱
糾錯(cuò)
加入自媒體

視頻模型降維打擊?浙大&哈佛提出 IF-Edit:無(wú)需訓(xùn)練,用“生成視頻”的思路修圖!

作者:Zechuan Zhang等

解讀:AI生成未來(lái)

論文標(biāo)題: Are Image-to-Video Models Good Zero-Shot Image Editors?

機(jī)構(gòu): 浙江大學(xué)、哈佛大學(xué)

導(dǎo)語(yǔ): 現(xiàn)在的 AI 消除、換背景已經(jīng)很強(qiáng)了,但你試過(guò)讓 AI 把一張“完整的杯子”照片修成“被打碎的瞬間”嗎?或者把“生面團(tuán)”修成“烤好的餅干”? 傳統(tǒng)的生圖模型往往不懂這種物理過(guò)程和時(shí)間因果。 今天介紹的這項(xiàng)工作 IF-Edit,另辟蹊徑,直接調(diào)用視頻生成模型(如 Wan 2.2)來(lái)修圖,不需要任何微調(diào)訓(xùn)練,讓 AI 真正“理解”物理世界!

當(dāng)視頻模型“降維”做修圖

現(xiàn)在的文生圖模型(SD, Flux等)在做局部替換時(shí)表現(xiàn)出色,但在涉及非剛性形變(如物體破碎、融化)或時(shí)間推理(如“一小時(shí)后”、“煮熟后”)的任務(wù)時(shí),往往力不從心。

為什么?因?yàn)檫@些變化本質(zhì)上是一個(gè)動(dòng)態(tài)過(guò)程,而不僅僅是像素的替換。 來(lái)自浙江大學(xué)和哈佛大學(xué)的研究團(tuán)隊(duì)提出了 IF-Edit。他們的核心洞察是:大規(guī)模視頻擴(kuò)散模型(Video Diffusion Models)已經(jīng)具備了強(qiáng)大的“世界模擬”能力。 如果我們能利用這種對(duì)物理和時(shí)間的理解,是不是就能實(shí)現(xiàn)更逼真的圖像編輯?

看看這些效果,全是視頻模型“順手”修出來(lái)的:

IF-Edit 強(qiáng)在哪里?

與傳統(tǒng)的修圖方法(如 InstructPix2Pix, MagicBrush)相比,IF-Edit 在處理動(dòng)作、形變、因果推理方面展現(xiàn)出了碾壓級(jí)的優(yōu)勢(shì)。

它不需要訓(xùn)練(Tuning-Free),直接復(fù)用現(xiàn)有的 Image-to-Video 模型(本論文使用了開(kāi)源的 Wan 2.2)。

眼見(jiàn)為實(shí),對(duì)比一下: 當(dāng)指令是“把椅子鋸成兩半”時(shí),傳統(tǒng)模型只是在椅子上畫幾條線,而 IF-Edit 真的把椅子結(jié)構(gòu)“鋸”斷了; 當(dāng)指令是“鳥(niǎo)兒低頭”時(shí),IF-Edit 完美保持了鳥(niǎo)的身體結(jié)構(gòu),不僅是扭曲像素,而是模擬了動(dòng)作。

甚至,它能處理復(fù)雜的推理任務(wù)(Reasoning):

“一小時(shí)后的樣子”(比如手機(jī)充電電量增加)

“從高處掉落后的樣子”(比如玻璃杯碎裂)

“完全充氣后的樣子”(氣球變大)在 RISEBench 上的推理能力展示。IF-Edit 在時(shí)間、因果、空間推理上表現(xiàn)優(yōu)異,比如準(zhǔn)確畫出餅干烤熟后的膨脹感,或者雞蛋打碎后的物理狀態(tài)。

在 RISEBench 上的推理能力展示。IF-Edit 在時(shí)間、因果、空間推理上表現(xiàn)優(yōu)異,比如準(zhǔn)確畫出餅干烤熟后的膨脹感,或者雞蛋打碎后的物理狀態(tài)。

它是如何工作的?(核心原理)

直接用視頻模型修圖面臨三個(gè)大坑:

指令聽(tīng)不懂:視頻模型習(xí)慣了詳細(xì)的動(dòng)態(tài)描述,而修圖指令通常很短(如“打碎它”)。

算力太浪費(fèi):修圖只需要一張圖,生成幾十幀視頻太慢太貴。

畫面容易糊:視頻截圖往往帶有運(yùn)動(dòng)模糊,不如照片清晰。

IF-Edit 提出了三個(gè)巧妙的模塊來(lái)解決這些問(wèn)題:

“思維鏈”:CoT Prompt Enhancement 簡(jiǎn)單的指令“把紙拿走”對(duì)視頻模型來(lái)說(shuō)太抽象。IF-Edit 利用多模態(tài)大模型(VLM)將靜態(tài)指令轉(zhuǎn)化為基于時(shí)間演變的動(dòng)態(tài)描述。Before: "Remove the paper."After: "(a) 她松開(kāi)手,(b) 紙張飄落并移出畫面,(c) 手部保持空閑狀態(tài)..." 這樣視頻模型就能理解“動(dòng)作的過(guò)程”,從而生成正確的最終幀。

“剪枝”:Temporal Latent Dropout (TLD) 既然我們只需要最后一張圖,為什么要生成中間所有的幀? 研究發(fā)現(xiàn),視頻生成的早期階段確立了全局布局(Layout),而后期階段主要在細(xì)化紋理。 IF-Edit 采用了一種“時(shí)序 Dropout”策略:在去噪的早期確定好結(jié)構(gòu)后,直接丟棄中間幀的冗余計(jì)算,只保留關(guān)鍵幀進(jìn)行后續(xù)計(jì)算。 效果: 推理速度提升,顯存占用降低,且不影響最終質(zhì)量。

“銳化”:Self-Consistent Post-Refinement 視頻生成的單幀往往有運(yùn)動(dòng)模糊。 IF-Edit 不引入額外的超分模型,而是“回爐重造”: 1.自動(dòng)選出最清晰的一幀。 2.把它扔回同一個(gè)視頻模型,輸入指令“一個(gè)完美的靜止視頻(A perfectly still video...)”。 3.利用視頻模型自身的先驗(yàn)知識(shí),去除運(yùn)動(dòng)模糊,增強(qiáng)細(xì)節(jié)紋理。

實(shí)驗(yàn)結(jié)論與局限

在 TEdBench(非剛性編輯)和 RISEBench(推理編輯)基準(zhǔn)測(cè)試中,IF-Edit 均取得了 SOTA 或極具競(jìng)爭(zhēng)力的成績(jī),特別是在 CLIP-T 和 CLIP-I 指標(biāo)上表現(xiàn)優(yōu)異。

實(shí)驗(yàn)數(shù)據(jù)表明,IF-Edit 在保持原圖特征和響應(yīng)文本指令之間取得了極佳的平衡,尤其是在需要物理常識(shí)的場(chǎng)景下。

實(shí)驗(yàn)數(shù)據(jù)表明,IF-Edit 在保持原圖特征和響應(yīng)文本指令之間取得了極佳的平衡,尤其是在需要物理常識(shí)的場(chǎng)景下。

ByteMorph 如果說(shuō) TEdBench 是考形變,ByteMorph 就是考動(dòng)態(tài)物理規(guī)律。 這是近期提出的一個(gè)專注于指令驅(qū)動(dòng)動(dòng)作編輯(Instruction-Guided Motion Editing)的基準(zhǔn)。它涵蓋了 5 大類動(dòng)態(tài)場(chǎng)景:鏡頭推拉(Camera Zoom)、視角移動(dòng)(Camera Move)、物體運(yùn)動(dòng)(Object Motion)、人物動(dòng)作(Human Motion)以及復(fù)雜交互。 它要求模型不僅要修圖,還要像導(dǎo)演一樣理解“鏡頭怎么運(yùn)”、“關(guān)節(jié)怎么動(dòng)”。

正因?yàn)?IF-Edit 借用了視頻模型的“動(dòng)態(tài)大腦”,它在 ByteMorph 的各項(xiàng)指標(biāo)上(尤其是涉及物理運(yùn)動(dòng)的任務(wù))完勝了 InstructPix2Pix 和 MagicBrush 等傳統(tǒng)修圖模型。這證明了:想修好“動(dòng)作”,必須先懂“視頻”。

在ByteMorph測(cè)試中,IF-Edit 展現(xiàn)了對(duì)物理結(jié)構(gòu)的深層理解,如瑜伽動(dòng)作變化、火車移動(dòng)

在ByteMorph測(cè)試中,IF-Edit 展現(xiàn)了對(duì)物理結(jié)構(gòu)的深層理解,如瑜伽動(dòng)作變化、火車移動(dòng)

局限與啟示:視頻模型的“天性”之爭(zhēng) 實(shí)驗(yàn)顯示,IF-Edit 在局部屬性編輯(如簡(jiǎn)單換色、風(fēng)格遷移)上的精度有時(shí)不如傳統(tǒng)編輯模型 。這揭示了 Image-to-Video 模型的歸納偏置(Inductive Bias):它們更傾向于生成時(shí)空連貫的“整體演變”,而非死磕局部的“像素映射” 。

這種“偏科”并非不可改變。同期的 Video4Edit(百度)就證明,如果通過(guò)編輯數(shù)據(jù)對(duì)視頻模型進(jìn)行微調(diào)(Fine-tuning),就能強(qiáng)補(bǔ)這塊短板。把 IF-Edit(無(wú)需訓(xùn)練)和 Video4Edit(微調(diào)增強(qiáng))放在一起看,不僅驗(yàn)證了視頻模型在物理與結(jié)構(gòu)理解上的原生優(yōu)勢(shì),也說(shuō)明了它是一個(gè)上限極高的通用編輯底座。

總結(jié)

IF-Edit 給我們提供了一個(gè)全新的視角:圖像編輯不僅僅是 Image-to-Image 的翻譯,更可以是 Image-to-Video-to-Image 的世界模擬。

通過(guò)復(fù)用強(qiáng)大的視頻生成模型,我們無(wú)需收集昂貴的成對(duì)編輯數(shù)據(jù),就能實(shí)現(xiàn)懂物理、懂因果的 Zero-Shot 圖像編輯。隨著視頻模型(如 Sora, Wan, HunyuanVideo)的不斷進(jìn)化,這種“降維打擊”式的修圖方法或許會(huì)成為未來(lái)的主流。

參考文獻(xiàn)

[1] Are Image-to-Video Models Good Zero-Shot Image Editors?

       原文標(biāo)題 : 視頻模型降維打擊?浙大&哈佛提出 IF-Edit:無(wú)需訓(xùn)練,用“生成視頻”的思路修圖!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)