訂閱
糾錯
加入自媒體

顛覆性突破!何愷明團隊重磅工作「Drifting Models」革新生成范式:一步推理直接創(chuàng)紀錄

作者:Mingyang Deng等

解讀:AI生成未來

亮點直擊

全新的生成范式:提出了“漂移模型” (Drifting Models),這一范式不再依賴于推理時的迭代過程,而是將分布演化的過程轉(zhuǎn)移到了訓(xùn)練階段。

真正的單步生成:實現(xiàn)了無需蒸餾的單步 (One-step / 1-NFE) 高質(zhì)量生成,從根本上解決了擴散模型推理速度慢的問題。

SOTA 性能:在 ImageNet  上,單步生成的 FID 達到 1.54,優(yōu)于所有現(xiàn)有的單步生成方法,甚至媲美多步擴散模型。

通用的漂移場理論:引入了基于物理直覺的“漂移場”概念,通過最小化樣本漂移來驅(qū)動模型達到平衡狀態(tài)。

解決的問題

推理效率瓶頸:現(xiàn)有的擴散模型 (Diffusion) 和流匹配模型 (Flow Matching) 依賴于推理時的迭代去噪(如 20-100 步),導(dǎo)致生成速度慢、計算成本高。

單步生成質(zhì)量不足:雖然存在如 Consistency Models 等單步生成方法,但它們通常需要復(fù)雜的蒸餾過程,且生成質(zhì)量往往難以達到多步模型的水平。

訓(xùn)練與推理的不一致:傳統(tǒng)方法在推理時模擬動態(tài)演化,而本工作通過訓(xùn)練時的迭代優(yōu)化來實現(xiàn)分布的演化,使推理過程簡化為單次映射。

提出的方案

訓(xùn)練時演化:利用深度學(xué)習(xí)訓(xùn)練過程本身的迭代性質(zhì)(如 SGD 步驟),將每一次參數(shù)更新視為推前分布 (Pushforward Distribution) 的一次演化。

漂移場:定義了一個向量場 ,它描述了生成樣本應(yīng)該如何移動才能接近數(shù)據(jù)分布。該場由數(shù)據(jù)分布  的吸引力和當(dāng)前生成分布  的排斥力共同決定。

平衡訓(xùn)練目標:構(gòu)建了一個損失函數(shù),旨在最小化漂移場的模長。當(dāng)生成分布與數(shù)據(jù)分布匹配時 (),漂移場為零,模型達到平衡。

特征空間操作:為了獲得更好的訓(xùn)練信號,漂移場的計算在預(yù)訓(xùn)練的特征空間(如 Latent-MAE)中進行,而非直接在像素空間。

應(yīng)用的技術(shù)

推前分布:利用  建模生成過程。

核密度估計與均值漂移:使用核函數(shù) (Kernel) 來估計樣本間的相互作用力,模擬粒子在場中的運動。

對比學(xué)習(xí)思想:使用正樣本(真實數(shù)據(jù))和負樣本(生成數(shù)據(jù))來估計漂移場,類似于對比學(xué)習(xí)中的正負對。

Latent-MAE:為了支持像素空間和隱空間的生成,專門訓(xùn)練了一個在隱空間操作的 MAE 模型作為特征提取器。

達到的效果

ImageNet 256×256

Latent Space: FID 1.54 (1-NFE),優(yōu)于 SiT-XL/2 (2.06) 和 DiT-XL/2 (2.27)。

Pixel Space: FID 1.61 (1-NFE),大幅優(yōu)于 StyleGAN-XL (2.30) 和 ADM (4.59)。

機器人控制:在 Diffusion Policy 基準測試中,以 1-NFE 的推理實現(xiàn)了與 100-NFE 擴散策略相當(dāng)甚至更好的成功率。

無需CFG:最佳性能在 CFG scale = 1.0 時達成,無需額外的無分類器引導(dǎo)計算。

生成式建模通常被認為比判別式建模更具挑戰(zhàn)性。判別式建模通常專注于將單個樣本映射到其對應(yīng)的標簽,而生成式建模則關(guān)注從一個分布到另一個分布的映射。這可以表述為學(xué)習(xí)一個映射 ,使得先驗分布  的推前分布與數(shù)據(jù)分布相匹配,即 。從概念上講,生成式建模學(xué)習(xí)的是一個泛函(在此為 ),它將一個函數(shù)(在此為分布)映射到另一個函數(shù)。

這種“推前”行為可以在推理時通過迭代的方式實現(xiàn),例如在當(dāng)前流行的范式如擴散模型 (Diffusion) (Sohl-Dickstein et al., 2015) 和流匹配 (Flow Matching) (Lipman et al., 2022) 中。在生成時,這些模型將較嘈雜的樣本映射為稍微干凈一點的樣本,逐步將樣本分布向數(shù)據(jù)分布演化。這種建模哲學(xué)可以看作是將一個復(fù)雜的推前映射(即 )分解為一系列在推理時應(yīng)用的可行的變換。

在本文中,本文提出了漂移模型 (Drifting Models),這是一種生成式建模的新范式。漂移模型的特點是學(xué)習(xí)一個在訓(xùn)練期間演化的推前映射,從而消除了對迭代推理過程的需求。映射  由一個單次通行 (single-pass)、非迭代的網(wǎng)絡(luò)表示。由于深度學(xué)習(xí)優(yōu)化中的訓(xùn)練過程本質(zhì)上是迭代的,這可以自然地被視為通過更新  來演化推前分布 。見上圖 1。

為了驅(qū)動訓(xùn)練時推前分布的演化,本文引入了一個支配樣本移動的漂移場。該場依賴于生成的分布和數(shù)據(jù)分布。根據(jù)定義,當(dāng)兩個分布匹配時,該場變?yōu)榱,從而達到一個樣本不再漂移的平衡狀態(tài) (equilibrium)。

基于這一構(gòu)想,本文提出了一個簡單的訓(xùn)練目標,用于最小化生成樣本的漂移。這個目標誘導(dǎo)樣本移動,并通過迭代優(yōu)化(例如 SGD)演化底層的推前分布。進一步介紹了漂移場的設(shè)計、神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練算法。

漂移模型天然地執(zhí)行單步 (“1-NFE”) 生成,并取得了強大的實證性能。在 ImageNet  上,本文在標準的隱空間生成協(xié)議下獲得了 1.54 的 1-NFE FID,在單步方法中達到了新的最先進水平。即使與多步擴散/流模型相比,這一結(jié)果仍然具有競爭力。此外,在更具挑戰(zhàn)性的像素空間生成協(xié)議下(即沒有 latents),本文達到了 1.61 的 1-NFE FID,大大優(yōu)于之前的像素空間方法。這些結(jié)果表明,漂移模型為高質(zhì)量、高效的生成建模提供了一個有前途的新范式。

相關(guān)工作

擴散/流模型 (Diffusion-/Flow-based Models) 。擴散模型及其基于流的對應(yīng)物通過微分方程(SDEs 或 ODEs)制定噪聲到數(shù)據(jù)的映射。其推理時計算的核心是迭代更新,例如  的形式,如使用 Euler求解器。更新  依賴于神經(jīng)網(wǎng)絡(luò) ,因此生成涉及多步網(wǎng)絡(luò)評估。

越來越多的工作集中在減少擴散/流模型的步驟上;谡麴s的方法將預(yù)訓(xùn)練的多步模型蒸餾為單步模型。另一行研究旨在從頭開始訓(xùn)練單步擴散/流模型。為了實現(xiàn)這一目標,這些方法通過逼近誘導(dǎo)的軌跡將 SDE/ODE 動力學(xué)納入訓(xùn)練。相比之下,本工作提出了一個概念上不同的范式,并且不像擴散/流模型那樣依賴于 SDE/ODE 公式。

生成對抗網(wǎng)絡(luò) (GANs) 。GANs 是經(jīng)典的生成模型家族,通過區(qū)分生成樣本與真實數(shù)據(jù)來訓(xùn)練生成器。像 GANs 一樣,本文的方法涉及一個將噪聲映射到數(shù)據(jù)的單次通行網(wǎng)絡(luò) ,其“好壞”由損失函數(shù)評估;然而,與 GANs 不同,本文的方法不依賴于對抗性優(yōu)化。

變分自編碼器 (VAEs) 。VAEs優(yōu)化證據(jù)下界 (ELBO),其中包括重構(gòu)損失和 KL 散度項。經(jīng)典的 VAEs 在使用高斯先驗時是單步生成器。如今流行的 VAE 應(yīng)用通常訴諸于從其他方法學(xué)習(xí)到的先驗,例如擴散或自回歸模型,其中 VAE 有效地充當(dāng) tokenizer。

歸一化流。NFs學(xué)習(xí)從數(shù)據(jù)到噪聲的映射,并優(yōu)化樣本的對數(shù)似然。這些方法需要可逆的架構(gòu)和可計算的雅可比行列式。從概念上講,NFs 在推理時作為單步生成器運行,計算由網(wǎng)絡(luò)的逆執(zhí)行。

矩匹配 (Moment Matching) 。矩匹配方法尋求最小化生成分布和數(shù)據(jù)分布之間的最大均值差異 (MMD)。矩匹配最近已擴展到單步/少步擴散。與 MMD 相關(guān),本文的方法也利用了核函數(shù)和正/負樣本的概念。然而,本文的方法側(cè)重于在訓(xùn)練時顯式控制樣本漂移的漂移場。

對比學(xué)習(xí)。本工作的漂移場由來自數(shù)據(jù)分布的正樣本和來自生成分布的負樣本驅(qū)動。這在概念上與對比表示學(xué)習(xí)中的正負樣本有關(guān)。對比學(xué)習(xí)的思想也已擴展到生成模型,例如 GANs 或 Flow Matching。

用于生成的漂移模型

本文提出漂移模型,將生成式建模公式化為通過漂移場進行的推前分布的訓(xùn)練時演化。本模型天然地在推理時執(zhí)行單步生成。

訓(xùn)練時推前

考慮一個神經(jīng)網(wǎng)絡(luò) 。 的輸入是 (例如,任意維度的噪聲 ),輸出記為 。通常,輸入和輸出維度不必相等。

本文用  表示網(wǎng)絡(luò)輸出的分布,即 。在概率論中, 被稱為  在  下的推前分布,記為:

這里,“” 表示由  誘導(dǎo)的推前。直觀地說,這個符號意味著  將分布  轉(zhuǎn)換為另一個分布 。生成式建模的目標是找到  使得 。

由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練本質(zhì)上是迭代的(例如 SGD),訓(xùn)練過程產(chǎn)生了一系列模型 ,其中  表示訓(xùn)練迭代次數(shù)。這對應(yīng)于訓(xùn)練期間的一系列推前分布 ,其中對于每個 ,。訓(xùn)練過程逐步演化  以匹配 。

當(dāng)網(wǎng)絡(luò)  更新時,訓(xùn)練迭代  處的樣本隱式地“漂移”為:,其中  源于對  的參數(shù)更新。這意味著  的更新決定了  的“殘差”,本文將其稱為“漂移” (drift)。

用于訓(xùn)練的漂移場

接下來,本文定義一個漂移場來控制樣本  以及隨之而來的推前分布  的訓(xùn)練時演化。漂移場是一個給定  計算  的函數(shù)。形式上,記該場為 ,本文有:

這里,,漂移后記為 。下標  表示該場依賴于 (例如 )和當(dāng)前分布 。

理想情況下,當(dāng)  時,希望所有  停止漂移,即 ?紤]以下命題:

命題 3.1?紤]一個反對稱 (anti-symmetric) 的漂移場:

那么本文有:

證明是直接的。直觀地說,反對稱性意味著交換  和  只是翻轉(zhuǎn)了漂移的符號。這個命題意味著,如果推前分布  匹配數(shù)據(jù)分布 ,那么對于任何樣本,漂移為零,模型達到平衡。

注意到,逆命題(即 )對于任意選擇的  一般是不成立的。對于本文的核化公式,本文給出了  意味著  的充分條件。

訓(xùn)練目標 。平衡的性質(zhì)激發(fā)了訓(xùn)練目標的定義。設(shè)  為由  參數(shù)化的網(wǎng)絡(luò), 其中 。在  的平衡點,本文建立以下不動點關(guān)系:

這里, 表示能夠達到平衡的最優(yōu)參數(shù), 表示  的推前分布。

這個方程激發(fā)了訓(xùn)練期間的不動點迭代。在迭代 ,本文尋求滿足:

本文將此更新規(guī)則轉(zhuǎn)換為損失函數(shù):

這里,stop-gradient 操作提供了來自上一次迭代的凍結(jié)狀態(tài)。直觀地說,本文計算一個凍結(jié)的目標,并將網(wǎng)絡(luò)預(yù)測向其移動。

本文注意到損失函數(shù)  的值等于 ,即漂移場  的范數(shù)平方。通過 stop-gradient 公式,本文的求解器并不直接通過  反向傳播,因為  依賴于 ,而通過分布反向傳播是非常困難的。相反,本文的公式通過間接方式最小化該目標:它將  移向其漂移后的版本,即移向在該迭代中被凍結(jié)的 。

漂移場設(shè)計

場  依賴于兩個分布  和 。為了獲得可計算的公式,本文考慮以下形式:

其中  是描述三個樣本點之間相互作用的類核函數(shù)。 可以可選地依賴于  和 。本文的框架支持廣泛的函數(shù)類 ,只要當(dāng)  時 。

對于本文中的實例化,引入一種由吸引排斥驅(qū)動的  形式。受均值漂移方法 (Cheng, 1995) 的啟發(fā),本文定義以下場:

這里, 和  是歸一化因子:

直觀地說,公式 (8) 計算向量差  的加權(quán)平均值。權(quán)重由核  給出并由 (9) 歸一化。然后本文定義  為:

直觀地說,該場可以看作是被數(shù)據(jù)分布  吸引,并被樣本分布  排斥。如圖 2 所示。

圖 2. 漂移樣本的示意圖。生成的樣本 (黑色)根據(jù)向量  進行漂移。這里, 是正樣本(藍色)的均值漂移向量, 是負樣本(橙色)的均值漂移向量:見公式 (8)。 被  吸引并被  排斥。圖 2. 漂移樣本的示意圖。生成的樣本 (黑色)根據(jù)向量  進行漂移。這里, 是正樣本(藍色)的均值漂移向量, 是負樣本(橙色)的均值漂移向量:見公式 (8)。 被  吸引并被  排斥。

將公式 (8) 代入公式 (10),本文得到:

這里,向量差簡化為 ;權(quán)重由兩個核計算并聯(lián)合歸一化。這種形式是公式 (7) 的一種實例化。很容易看出  是反對稱的:。一般來說,本文的方法不需要將  分解為吸引和排斥;它只需要當(dāng)  時 。

核函數(shù) (Kernel) 。核  可以是衡量相似度的函數(shù)。在本文中,本文采用:

其中  是溫度, 是 -距離。本文將  視為歸一化的核,它吸收了公式 (11) 中的歸一化。

在實踐中,使用 softmax 操作來實現(xiàn) ,其中 logits 由  給出,softmax 是在  上進行的。這種 softmax 操作類似于對比學(xué)習(xí)中的 InfoNCE。在本文的實現(xiàn)中,本文進一步在批次內(nèi)的  集合上應(yīng)用額外的 softmax 歸一化,這在實踐中略微提高了性能。這種額外的歸一化不會改變所得  的反對稱性質(zhì)。

平衡與匹配分布。由于本文在公式 (6) 中的訓(xùn)練損失鼓勵最小化 ,本文希望  能導(dǎo)致 。雖然這種蘊含關(guān)系對于任意選擇的  并不成立,但本文通過經(jīng)驗觀察到,減小  的值與生成質(zhì)量的提高相關(guān)。在附錄 C.1 中,本文提供了一個可識別性啟發(fā)式論證:對于本文的核化構(gòu)造,零漂移條件對  施加了大量雙線性約束,在溫和的非退化假設(shè)下,這強制  和  (近似)匹配。

隨機訓(xùn)練 (Stochastic Training) 。在隨機訓(xùn)練(例如小批量優(yōu)化)中,本文通過用經(jīng)驗均值近似公式 (11) 中的期望來估計 。對于每個訓(xùn)練步,本文抽取  個噪聲樣本  并計算一批 。生成的樣本也作為同一批次中的負樣本,即 。另一方面,本文采樣  個數(shù)據(jù)點 。漂移場  是在這批正負樣本中計算的。算法 1 提供了這樣一個訓(xùn)練步的偽代碼,其中 compute V 在 A.1 節(jié)中給出。

在特征空間中漂移

到目前為止,本文已在原始數(shù)據(jù)空間中直接定義了目標 (6)。本文公式可以擴展到任何特征空間。設(shè)  表示特征提取器(例如圖像編碼器),它在真實或生成的樣本上操作。本文將特征空間中的損失 (6) 重寫為:

這里, 是生成器的輸出(例如圖像)。 在特征空間中定義:在實踐中,這意味著  和  作為正/負樣本。值得注意的是,特征編碼是一個訓(xùn)練時的操作,不在推理時使用。

這可以進一步擴展到多個特征,例如在多個尺度和位置:

這里, 表示來自編碼器  的第  個尺度和/或位置的特征向量。使用 ResNet 風(fēng)格的圖像編碼器,本文在多個尺度和位置計算漂移損失,這為訓(xùn)練提供了更豐富的梯度信息。

特征提取器在高維數(shù)據(jù)生成中起著重要作用。由于本文的方法基于核  來表征樣本相似度,因此希望語義相似的樣本在特征空間中保持接近。這一目標與自監(jiān)督學(xué)習(xí)一致。本文使用預(yù)訓(xùn)練的自監(jiān)督模型作為特征提取器。

與感知損失的關(guān)系 (Relation to Perceptual Loss) 。本文的特征空間損失與感知損失 (Zhang et al., 2018) 相關(guān)但在概念上是不同的。感知損失最小化:,也就是說,回歸目標是  并且需要將  與其目標配對。相比之下,本文在 (13) 中的回歸目標是 ,其中漂移是在特征空間中的,且不需要配對。原則上,本文的特征空間損失旨在匹配推前分布  和 。

與潛在生成的關(guān)系 (Relation to Latent Generation) 。本文的特征空間損失與隱空間中的生成器概念(例如 Latent Diffusion 是正交的。在本文的情況下,當(dāng)使用  時,生成器  仍然可以在 tokenizer 的像素空間或隱空間產(chǎn)生輸出。如果生成器  在隱空間且特征提取器  在像素空間,tokenizer 解碼器將在從  提取特征之前應(yīng)用。

無分類器引導(dǎo)

無分類器引導(dǎo) (CFG)通過在類條件分布和無條件分布之間進行外推來提高生成質(zhì)量。本文的方法自然地支持一種相關(guān)形式的引導(dǎo)。

在本文的模型中,給定類標簽  作為條件,底層的目標分布現(xiàn)在變?yōu)?nbsp;,我們可以從中抽取正樣本:。為了實現(xiàn)引導(dǎo),本文從生成樣本或不同類別的真實樣本中抽取負樣本。 形式上,負樣本分布現(xiàn)在為:

這里, 是混合率, 表示無條件數(shù)據(jù)分布(腳注 2:這應(yīng)該是排除類別  的數(shù)據(jù)分布。為簡單起見,本文使用無條件數(shù)據(jù)分布)。

學(xué)習(xí)的目標是找到 。將其代入 (15),本文得到:

其中 。這意味著  是要逼近條件和無條件數(shù)據(jù)分布的線性組合。這遵循了原始 CFG 的精神。

在實踐中,公式 (15) 意味著除了生成的數(shù)據(jù)外,本文還從  中的數(shù)據(jù)采樣額外的負樣本。分布  對應(yīng)于類條件網(wǎng)絡(luò) ,類似于通常的做法 。本文注意到,在本文的方法中,CFG 是設(shè)計上的訓(xùn)練時行為:單步 (1-NFE) 屬性在推理時得以保留。

圖像生成的實現(xiàn)

本文描述了 ImageNet在分辨率  上的圖像生成實現(xiàn)。

Tokenizer。默認情況下,本文在隱空間執(zhí)行生成。本文采用標準的 SD-VAE tokenizer,它產(chǎn)生一個  的隱空間,在其中進行生成。

架構(gòu) (Architecture) 。本文的生成器 () 具有類似 DiT (Peebles & Xie, 2023) 的架構(gòu)。其輸入是  維的高斯噪聲 ,輸出是相同維度的生成潛在 。本文使用大小為 2 的 patch,即像 DiT/2。本文的模型使用 adaLN-zero來處理類條件或其他額外的條件。

CFG 條件 (CFG conditioning) 。本文并采用 CFG 條件。在訓(xùn)練時,隨機采樣一個 CFG scale (公式 16)。根據(jù)  準備負樣本(公式 15),網(wǎng)絡(luò)以此值為條件。在推理時, 可以自由指定和變化而無需重新訓(xùn)練。

批處理 (Batching) 。算法 1 中的偽代碼描述了一批  個生成的樣本。在實踐中,當(dāng)涉及類標簽時,本文采樣一批  個類標簽。對于每個標簽,本文獨立執(zhí)行算法 1。因此,有效的批量大小是 ,它由  個負樣本和  個正樣本組成。

本文根據(jù)生成的樣本  的數(shù)量定義一個“訓(xùn)練 epoch”。特別是,每次迭代生成  個樣本,對于大小為  的數(shù)據(jù)集,一個 epoch 對應(yīng)于  次迭代。

特征提取器 (Feature Extractor) 。本文的模型在特征空間中訓(xùn)練漂移損失。特征提取器  是一個圖像編碼器。本文主要考慮 ResNet 風(fēng)格

例如使用自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的編碼器,如 MoCo和 SimCLR。當(dāng)這些預(yù)訓(xùn)練模型在像素空間操作時,本文應(yīng)用 VAE 解碼器將生成器的隱空間輸出映射回像素空間以進行特征提取。梯度通過特征編碼器和 VAE 解碼器反向傳播。本文還研究了在隱空間預(yù)訓(xùn)練的 MAE 。

對于所有 ResNet 風(fēng)格的模型,特征從多個階段(即多尺度特征圖)提取。漂移損失 (13) 在每個尺度上計算,然后組合。

像素空間生成 。雖然本文的實驗主要集中在隱空間生成,但本文的模型支持像素空間生成。在這種情況下, 和  都是 。本文使用 16 的 patch 大。 DiT/16)。特征提取器  直接在像素空間上操作。

實驗

小實驗

生成分布的演化。圖 3 可視化了一個 2D 案例,其中  在訓(xùn)練時向雙峰分布  演化,在三種初始化下。在這個示例中,本文的方法近似了目標分布,沒有表現(xiàn)出模式坍縮。即使  初始化為坍縮的單模式狀態(tài)(底部),這也成立。這為本文的方法為何對模式坍縮具有魯棒性提供了直觀解釋:如果  坍縮到一個模式上, 的其他模式將吸引樣本,允許它們繼續(xù)移動并推動  繼續(xù)演化。

樣本的演化。圖 4 展示了在兩個 2D 案例上的訓(xùn)練過程。訓(xùn)練了一個小型 MLP 生成器。隨著生成分布收斂到目標,損失(其值等于 )減小。這與本文的動機一致,即減小漂移并推向平衡將近似產(chǎn)生 。

ImageNet 實驗

在 ImageNet  上評估本文的模型。消融研究使用 SD-VAE 隱空間上的 B/2 模型,訓(xùn)練 100 個 epoch。漂移損失是在由 latent-MAE 編碼器計算的特征空間中。本文報告 50K 生成圖像的 FID。本文分析結(jié)果如下。

反對稱性 (Anti-symmetry) 。本文對平衡的推導(dǎo)要求漂移場是反對稱的;見公式 (3)。在表 1 中,本文進行了一項破壞性研究,有意破壞這種反對稱性。反對稱情況(本文消融的默認設(shè)置)效果良好,而其他情況則遭受災(zāi)難性失敗。直觀地說,對于樣本 ,當(dāng)  和  匹配時,本文希望來自  的吸引力被來自  的排斥力抵消。這種平衡在破壞性案例中無法實現(xiàn)。

正負樣本的分配 。本文方法采樣正樣本和負樣本來估計 (見算法 1)。在表 2 中,本文在固定的 epoch 和固定的批量大小  下,研究了  和  的影響。

表 2 顯示,使用更大的  和  是有益的。更大的樣本量預(yù)計能提高估計  的準確性,從而提升生成質(zhì)量。這一觀察結(jié)果與對比學(xué)習(xí)中的結(jié)果一致,即更大的樣本集能改善表示學(xué)習(xí)。

用于漂移的特征空間 (Feature Space for Drifting) 。本文的模型在一個特征空間中計算漂移損失。表 3 比較了特征編碼器。使用來自 SimCLR和 MoCo v2的公開預(yù)訓(xùn)練編碼器,本文的方法獲得了不錯的結(jié)果。

這些標準編碼器在像素域操作,這需要在訓(xùn)練時運行 VAE 解碼器。為了規(guī)避這一點,本文直接在隱空間上預(yù)訓(xùn)練了一個帶有 MAE 目標的 ResNet 風(fēng)格模型。這個“latent-MAE”產(chǎn)生的特征空間表現(xiàn)強勁(表 3)。增加 MAE 編碼器的寬度和預(yù)訓(xùn)練 epoch 數(shù)都能提高生成質(zhì)量;使用分類器對其進行微調(diào) (‘cls ft’) 將結(jié)果進一步提升至 3.36 FID。

表 3 的比較表明,特征編碼器的質(zhì)量起著重要作用。本文假設(shè)這是因為本文的方法依賴于一個核函數(shù) (見公式 12)來衡量樣本相似度。在特征空間中距離更近的樣本通常會產(chǎn)生更強的漂移,提供更豐富的訓(xùn)練信號。這一目標與自監(jiān)督學(xué)習(xí)的動機是一致的。一個強大的特征編碼器減少了幾乎“平坦”的核(即  消失,因為所有樣本都相距甚遠)的出現(xiàn)。

另一方面,如果沒有特征編碼器,我們無法使該方法在 ImageNet 上工作。在這種情況下,即使存在潛在 VAE,核函數(shù)也可能無法有效地描述相似性。我們將對這一局限性的進一步研究留待未來工作。

系統(tǒng)級比較 (System-level Comparisons) 。除了消融設(shè)置外,本文訓(xùn)練了更強的變體并在表 4 中進行了總結(jié)。在表 5 中與之前的方法進行了比較。

本文的方法通過原生的 1-NFE 生成達到了 1.54 FID。它優(yōu)于所有之前的 1-NFE 方法,這些方法主要基于逼近擴散/流的軌跡。值得注意的是,本文的 Base 大小模型可以與之前的 XL 大小模型相媲美。本文的最佳模型(FID 1.54)使用 CFG scale 為 1.0,這對應(yīng)于擴散模型中的“無 CFG”。本文的 CFG 公式展示了一種ID 和 IS權(quán)衡,類似于標準的 CFG。此外,圖 11-15 展示了與 improved MeanFlow (iMF)的并排比較,后者是最近的最先進單步生成方法。

像素空間生成 (Pixel-space Generation) 。本文的方法可以自然地在沒有潛在 VAE 的情況下工作,即生成器  直接產(chǎn)生  的圖像。特征編碼器應(yīng)用于生成的圖像以計算漂移損失。本文采用與潛在變體類似的配置;實現(xiàn)細節(jié)見附錄 A。

表 6 比較了不同的像素空間生成器。本文的單步、像素空間方法達到了 1.61 FID,優(yōu)于或媲美之前的多步方法。與其他單步像素空間方法 (GANs) 相比,本文的方法僅使用 87G FLOPs 就達到了 1.61 FID;相比之下,StyleGAN-XL 使用 1574G FLOPs 產(chǎn)生 2.30 FID。

機器人控制實驗

除了圖像生成,本文還進一步評估了本文方法在機器人控制上的表現(xiàn)。本文的實驗設(shè)計和協(xié)議遵循 Diffusion Policy 。Diffusion Policy 的核心是一個多步、基于擴散的生成器;本文將其替換為本文的單步 Drifting Model。本文直接在控制的原始表示上計算漂移損失,不使用特征空間。結(jié)果如下表 7 所示。本文的 1-NFE 模型匹配或超過了使用 100 NFE 的最先進的 Diffusion Policy。這一比較表明,漂移模型可以作為不同領(lǐng)域中一種有前途的生成模型。

討論與結(jié)論

本文介紹了漂移模型(Drifting Models),這是一種生成式建模的新范式。核心思想是建模訓(xùn)練過程中推前分布的演化。這使得本文能夠關(guān)注更新規(guī)則,即 ,在迭代訓(xùn)練過程中。這與擴散/流模型形成對比,后者在推理時執(zhí)行迭代更新。本文的方法自然地執(zhí)行單步推理。

鑒于本文的方法論本質(zhì)上是不同的,許多懸而未決的問題仍然存在。例如,雖然本文展示了 ,但在理論上逆命題并不普遍成立。雖然本文設(shè)計的  在實證上表現(xiàn)良好,但尚不清楚在什么條件下  導(dǎo)致 。

從實踐角度來看,雖然本文展示了漂移建模的有效實例化,但本文的許多設(shè)計決策可能仍是次優(yōu)的。例如,漂移場及其核的設(shè)計、特征編碼器和生成器架構(gòu)仍有待未來探索。

從更廣泛的角度來看,本文的工作將迭代的神經(jīng)網(wǎng)絡(luò)訓(xùn)練重構(gòu)為一種分布演化機制,這與作為擴散/流模型基礎(chǔ)的微分方程形成對比。本文希望這一視角能激發(fā)未來工作中對該機制的其他實現(xiàn)的探索。

參考文獻

[1] Generative Modeling via Drifting

       原文標題 : 顛覆性突破!何愷明團隊重磅工作「Drifting Models」革新生成范式:一步推理直接創(chuàng)紀錄

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號