123,123

顛覆性突破！何愷明團隊重磅工作「Drifting Models」革新生成范式：一步推理直接創(chuàng)紀錄

2026-02-10 16:19

AI生成未來

關(guān)注

作者：Mingyang Deng等

解讀：AI生成未來

亮點直擊

全新的生成范式：提出了“漂移模型” (Drifting Models)，這一范式不再依賴于推理時的迭代過程，而是將分布演化的過程轉(zhuǎn)移到了訓(xùn)練階段。

真正的單步生成：實現(xiàn)了無需蒸餾的單步 (One-step / 1-NFE) 高質(zhì)量生成，從根本上解決了擴散模型推理速度慢的問題。

SOTA 性能：在 ImageNet 上，單步生成的 FID 達到 1.54，優(yōu)于所有現(xiàn)有的單步生成方法，甚至媲美多步擴散模型。

通用的漂移場理論：引入了基于物理直覺的“漂移場”概念，通過最小化樣本漂移來驅(qū)動模型達到平衡狀態(tài)。

解決的問題

推理效率瓶頸：現(xiàn)有的擴散模型 (Diffusion) 和流匹配模型 (Flow Matching) 依賴于推理時的迭代去噪（如 20-100 步），導(dǎo)致生成速度慢、計算成本高。

單步生成質(zhì)量不足：雖然存在如 Consistency Models 等單步生成方法，但它們通常需要復(fù)雜的蒸餾過程，且生成質(zhì)量往往難以達到多步模型的水平。

訓(xùn)練與推理的不一致：傳統(tǒng)方法在推理時模擬動態(tài)演化，而本工作通過訓(xùn)練時的迭代優(yōu)化來實現(xiàn)分布的演化，使推理過程簡化為單次映射。

提出的方案

訓(xùn)練時演化：利用深度學(xué)習(xí)訓(xùn)練過程本身的迭代性質(zhì)（如 SGD 步驟），將每一次參數(shù)更新視為推前分布 (Pushforward Distribution) 的一次演化。

漂移場：定義了一個向量場，它描述了生成樣本應(yīng)該如何移動才能接近數(shù)據(jù)分布。該場由數(shù)據(jù)分布的吸引力和當(dāng)前生成分布的排斥力共同決定。

平衡訓(xùn)練目標：構(gòu)建了一個損失函數(shù)，旨在最小化漂移場的模長。當(dāng)生成分布與數(shù)據(jù)分布匹配時 ()，漂移場為零，模型達到平衡。

特征空間操作：為了獲得更好的訓(xùn)練信號，漂移場的計算在預(yù)訓(xùn)練的特征空間（如 Latent-MAE）中進行，而非直接在像素空間。

應(yīng)用的技術(shù)

推前分布：利用建模生成過程。

核密度估計與均值漂移：使用核函數(shù) (Kernel) 來估計樣本間的相互作用力，模擬粒子在場中的運動。

對比學(xué)習(xí)思想：使用正樣本（真實數(shù)據(jù)）和負樣本（生成數(shù)據(jù)）來估計漂移場，類似于對比學(xué)習(xí)中的正負對。

Latent-MAE：為了支持像素空間和隱空間的生成，專門訓(xùn)練了一個在隱空間操作的 MAE 模型作為特征提取器。

達到的效果

ImageNet 256×256：

Latent Space: FID 1.54 (1-NFE)，優(yōu)于 SiT-XL/2 (2.06) 和 DiT-XL/2 (2.27)。

Pixel Space: FID 1.61 (1-NFE)，大幅優(yōu)于 StyleGAN-XL (2.30) 和 ADM (4.59)。

機器人控制：在 Diffusion Policy 基準測試中，以 1-NFE 的推理實現(xiàn)了與 100-NFE 擴散策略相當(dāng)甚至更好的成功率。

無需CFG：最佳性能在 CFG scale = 1.0 時達成，無需額外的無分類器引導(dǎo)計算。

生成式建模通常被認為比判別式建模更具挑戰(zhàn)性。判別式建模通常專注于將單個樣本映射到其對應(yīng)的標簽，而生成式建模則關(guān)注從一個分布到另一個分布的映射。這可以表述為學(xué)習(xí)一個映射，使得先驗分布的推前分布與數(shù)據(jù)分布相匹配，即。從概念上講，生成式建模學(xué)習(xí)的是一個泛函（在此為），它將一個函數(shù)（在此為分布）映射到另一個函數(shù)。

這種“推前”行為可以在推理時通過迭代的方式實現(xiàn)，例如在當(dāng)前流行的范式如擴散模型 (Diffusion) (Sohl-Dickstein et al., 2015) 和流匹配 (Flow Matching) (Lipman et al., 2022) 中。在生成時，這些模型將較嘈雜的樣本映射為稍微干凈一點的樣本，逐步將樣本分布向數(shù)據(jù)分布演化。這種建模哲學(xué)可以看作是將一個復(fù)雜的推前映射（即）分解為一系列在推理時應(yīng)用的可行的變換。

在本文中，本文提出了漂移模型 (Drifting Models)，這是一種生成式建模的新范式。漂移模型的特點是學(xué)習(xí)一個在訓(xùn)練期間演化的推前映射，從而消除了對迭代推理過程的需求。映射由一個單次通行 (single-pass)、非迭代的網(wǎng)絡(luò)表示。由于深度學(xué)習(xí)優(yōu)化中的訓(xùn)練過程本質(zhì)上是迭代的，這可以自然地被視為通過更新來演化推前分布。見上圖 1。

為了驅(qū)動訓(xùn)練時推前分布的演化，本文引入了一個支配樣本移動的漂移場。該場依賴于生成的分布和數(shù)據(jù)分布。根據(jù)定義，當(dāng)兩個分布匹配時，該場變?yōu)榱�，從而達到一個樣本不再漂移的平衡狀態(tài) (equilibrium)。

基于這一構(gòu)想，本文提出了一個簡單的訓(xùn)練目標，用于最小化生成樣本的漂移。這個目標誘導(dǎo)樣本移動，并通過迭代優(yōu)化（例如 SGD）演化底層的推前分布。進一步介紹了漂移場的設(shè)計、神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練算法。

漂移模型天然地執(zhí)行單步 (“1-NFE”) 生成，并取得了強大的實證性能。在 ImageNet 上，本文在標準的隱空間生成協(xié)議下獲得了 1.54 的 1-NFE FID，在單步方法中達到了新的最先進水平。即使與多步擴散/流模型相比，這一結(jié)果仍然具有競爭力。此外，在更具挑戰(zhàn)性的像素空間生成協(xié)議下（即沒有 latents），本文達到了 1.61 的 1-NFE FID，大大優(yōu)于之前的像素空間方法。這些結(jié)果表明，漂移模型為高質(zhì)量、高效的生成建模提供了一個有前途的新范式。

相關(guān)工作

擴散/流模型 (Diffusion-/Flow-based Models) 。擴散模型及其基于流的對應(yīng)物通過微分方程（SDEs 或 ODEs）制定噪聲到數(shù)據(jù)的映射。其推理時計算的核心是迭代更新，例如的形式，如使用 Euler求解器。更新依賴于神經(jīng)網(wǎng)絡(luò) ，因此生成涉及多步網(wǎng)絡(luò)評估。

越來越多的工作集中在減少擴散/流模型的步驟上�；谡麴s的方法將預(yù)訓(xùn)練的多步模型蒸餾為單步模型。另一行研究旨在從頭開始訓(xùn)練單步擴散/流模型。為了實現(xiàn)這一目標，這些方法通過逼近誘導(dǎo)的軌跡將 SDE/ODE 動力學(xué)納入訓(xùn)練。相比之下，本工作提出了一個概念上不同的范式，并且不像擴散/流模型那樣依賴于 SDE/ODE 公式。

生成對抗網(wǎng)絡(luò) (GANs) 。GANs 是經(jīng)典的生成模型家族，通過區(qū)分生成樣本與真實數(shù)據(jù)來訓(xùn)練生成器。像 GANs 一樣，本文的方法涉及一個將噪聲映射到數(shù)據(jù)的單次通行網(wǎng)絡(luò) ，其“好壞”由損失函數(shù)評估；然而，與 GANs 不同，本文的方法不依賴于對抗性優(yōu)化。

變分自編碼器 (VAEs) 。VAEs優(yōu)化證據(jù)下界 (ELBO)，其中包括重構(gòu)損失和 KL 散度項。經(jīng)典的 VAEs 在使用高斯先驗時是單步生成器。如今流行的 VAE 應(yīng)用通常訴諸于從其他方法學(xué)習(xí)到的先驗，例如擴散或自回歸模型，其中 VAE 有效地充當(dāng) tokenizer。

歸一化流。NFs學(xué)習(xí)從數(shù)據(jù)到噪聲的映射，并優(yōu)化樣本的對數(shù)似然。這些方法需要可逆的架構(gòu)和可計算的雅可比行列式。從概念上講，NFs 在推理時作為單步生成器運行，計算由網(wǎng)絡(luò)的逆執(zhí)行。

矩匹配 (Moment Matching) 。矩匹配方法尋求最小化生成分布和數(shù)據(jù)分布之間的最大均值差異 (MMD)。矩匹配最近已擴展到單步/少步擴散。與 MMD 相關(guān)，本文的方法也利用了核函數(shù)和正/負樣本的概念。然而，本文的方法側(cè)重于在訓(xùn)練時顯式控制樣本漂移的漂移場。

對比學(xué)習(xí)。本工作的漂移場由來自數(shù)據(jù)分布的正樣本和來自生成分布的負樣本驅(qū)動。這在概念上與對比表示學(xué)習(xí)中的正負樣本有關(guān)。對比學(xué)習(xí)的思想也已擴展到生成模型，例如 GANs 或 Flow Matching。

用于生成的漂移模型

本文提出漂移模型，將生成式建模公式化為通過漂移場進行的推前分布的訓(xùn)練時演化。本模型天然地在推理時執(zhí)行單步生成。

訓(xùn)練時推前

考慮一個神經(jīng)網(wǎng)絡(luò) 。的輸入是（例如，任意維度的噪聲），輸出記為。通常，輸入和輸出維度不必相等。

本文用表示網(wǎng)絡(luò)輸出的分布，即。在概率論中，被稱為在下的推前分布，記為：

這里，“” 表示由誘導(dǎo)的推前。直觀地說，這個符號意味著將分布轉(zhuǎn)換為另一個分布。生成式建模的目標是找到使得。

由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練本質(zhì)上是迭代的（例如 SGD），訓(xùn)練過程產(chǎn)生了一系列模型，其中表示訓(xùn)練迭代次數(shù)。這對應(yīng)于訓(xùn)練期間的一系列推前分布，其中對于每個，。訓(xùn)練過程逐步演化以匹配。

當(dāng)網(wǎng)絡(luò) 更新時，訓(xùn)練迭代處的樣本隱式地“漂移”為：，其中源于對的參數(shù)更新。這意味著的更新決定了的“殘差”，本文將其稱為“漂移” (drift)。

用于訓(xùn)練的漂移場

接下來，本文定義一個漂移場來控制樣本以及隨之而來的推前分布的訓(xùn)練時演化。漂移場是一個給定計算的函數(shù)。形式上，記該場為，本文有：

這里，，漂移后記為。下標表示該場依賴于（例如）和當(dāng)前分布。

理想情況下，當(dāng) 時，希望所有停止漂移，即 �？紤]以下命題：

命題 3.1�？紤]一個反對稱 (anti-symmetric) 的漂移場：

那么本文有：

證明是直接的。直觀地說，反對稱性意味著交換和只是翻轉(zhuǎn)了漂移的符號。這個命題意味著，如果推前分布匹配數(shù)據(jù)分布，那么對于任何樣本，漂移為零，模型達到平衡。

注意到，逆命題（即）對于任意選擇的一般是不成立的。對于本文的核化公式，本文給出了意味著的充分條件。

訓(xùn)練目標 。平衡的性質(zhì)激發(fā)了訓(xùn)練目標的定義。設(shè) 為由參數(shù)化的網(wǎng)絡(luò)，其中。在的平衡點，本文建立以下不動點關(guān)系：

這里，表示能夠達到平衡的最優(yōu)參數(shù)，表示的推前分布。

這個方程激發(fā)了訓(xùn)練期間的不動點迭代。在迭代，本文尋求滿足：

本文將此更新規(guī)則轉(zhuǎn)換為損失函數(shù)：

這里，stop-gradient 操作提供了來自上一次迭代的凍結(jié)狀態(tài)。直觀地說，本文計算一個凍結(jié)的目標，并將網(wǎng)絡(luò)預(yù)測向其移動。

本文注意到損失函數(shù) 的值等于，即漂移場的范數(shù)平方。通過 stop-gradient 公式，本文的求解器并不直接通過反向傳播，因為依賴于，而通過分布反向傳播是非常困難的。相反，本文的公式通過間接方式最小化該目標：它將移向其漂移后的版本，即移向在該迭代中被凍結(jié)的。

漂移場設(shè)計

場依賴于兩個分布和。為了獲得可計算的公式，本文考慮以下形式：

其中是描述三個樣本點之間相互作用的類核函數(shù)。可以可選地依賴于和。本文的框架支持廣泛的函數(shù)類，只要當(dāng) 時。

對于本文中的實例化，引入一種由吸引和排斥驅(qū)動的形式。受均值漂移方法 (Cheng, 1995) 的啟發(fā)，本文定義以下場：

這里，和是歸一化因子：

直觀地說，公式 (8) 計算向量差的加權(quán)平均值。權(quán)重由核給出并由 (9) 歸一化。然后本文定義為：

直觀地說，該場可以看作是被數(shù)據(jù)分布吸引，并被樣本分布排斥。如圖 2 所示。

圖 2. 漂移樣本的示意圖。生成的樣本（黑色）根據(jù)向量進行漂移。這里，是正樣本（藍色）的均值漂移向量，是負樣本（橙色）的均值漂移向量：見公式 (8)。被吸引并被排斥。圖 2. 漂移樣本的示意圖。生成的樣本（黑色）根據(jù)向量進行漂移。這里，是正樣本（藍色）的均值漂移向量，是負樣本（橙色）的均值漂移向量：見公式 (8)。被吸引并被排斥。

將公式 (8) 代入公式 (10)，本文得到：

這里，向量差簡化為；權(quán)重由兩個核計算并聯(lián)合歸一化。這種形式是公式 (7) 的一種實例化。很容易看出是反對稱的：。一般來說，本文的方法不需要將分解為吸引和排斥；它只需要當(dāng) 時。

核函數(shù) (Kernel) 。核可以是衡量相似度的函數(shù)。在本文中，本文采用：

其中是溫度，是 -距離。本文將視為歸一化的核，它吸收了公式 (11) 中的歸一化。

在實踐中，使用 softmax 操作來實現(xiàn) ，其中 logits 由給出，softmax 是在上進行的。這種 softmax 操作類似于對比學(xué)習(xí)中的 InfoNCE。在本文的實現(xiàn)中，本文進一步在批次內(nèi)的集合上應(yīng)用額外的 softmax 歸一化，這在實踐中略微提高了性能。這種額外的歸一化不會改變所得的反對稱性質(zhì)。

平衡與匹配分布。由于本文在公式 (6) 中的訓(xùn)練損失鼓勵最小化，本文希望能導(dǎo)致。雖然這種蘊含關(guān)系對于任意選擇的并不成立，但本文通過經(jīng)驗觀察到，減小的值與生成質(zhì)量的提高相關(guān)。在附錄 C.1 中，本文提供了一個可識別性啟發(fā)式論證：對于本文的核化構(gòu)造，零漂移條件對施加了大量雙線性約束，在溫和的非退化假設(shè)下，這強制和（近似）匹配。

隨機訓(xùn)練 (Stochastic Training) 。在隨機訓(xùn)練（例如小批量優(yōu)化）中，本文通過用經(jīng)驗均值近似公式 (11) 中的期望來估計。對于每個訓(xùn)練步，本文抽取個噪聲樣本并計算一批。生成的樣本也作為同一批次中的負樣本，即。另一方面，本文采樣個數(shù)據(jù)點。漂移場是在這批正負樣本中計算的。算法 1 提供了這樣一個訓(xùn)練步的偽代碼，其中 compute V 在 A.1 節(jié)中給出。

在特征空間中漂移

到目前為止，本文已在原始數(shù)據(jù)空間中直接定義了目標 (6)。本文公式可以擴展到任何特征空間。設(shè) 表示特征提取器（例如圖像編碼器），它在真實或生成的樣本上操作。本文將特征空間中的損失 (6) 重寫為：

這里，是生成器的輸出（例如圖像）。在特征空間中定義：在實踐中，這意味著和作為正/負樣本。值得注意的是，特征編碼是一個訓(xùn)練時的操作，不在推理時使用。

這可以進一步擴展到多個特征，例如在多個尺度和位置：

這里，表示來自編碼器的第個尺度和/或位置的特征向量。使用 ResNet 風(fēng)格的圖像編碼器，本文在多個尺度和位置計算漂移損失，這為訓(xùn)練提供了更豐富的梯度信息。

特征提取器在高維數(shù)據(jù)生成中起著重要作用。由于本文的方法基于核來表征樣本相似度，因此希望語義相似的樣本在特征空間中保持接近。這一目標與自監(jiān)督學(xué)習(xí)一致。本文使用預(yù)訓(xùn)練的自監(jiān)督模型作為特征提取器。

與感知損失的關(guān)系 (Relation to Perceptual Loss) 。本文的特征空間損失與感知損失 (Zhang et al., 2018) 相關(guān)但在概念上是不同的。感知損失最小化：，也就是說，回歸目標是并且需要將與其目標配對。相比之下，本文在 (13) 中的回歸目標是，其中漂移是在特征空間中的，且不需要配對。原則上，本文的特征空間損失旨在匹配推前分布和。

與潛在生成的關(guān)系 (Relation to Latent Generation) 。本文的特征空間損失與隱空間中的生成器概念（例如 Latent Diffusion 是正交的。在本文的情況下，當(dāng)使用時，生成器仍然可以在 tokenizer 的像素空間或隱空間產(chǎn)生輸出。如果生成器在隱空間且特征提取器在像素空間，tokenizer 解碼器將在從提取特征之前應(yīng)用。

無分類器引導(dǎo)

無分類器引導(dǎo) (CFG)通過在類條件分布和無條件分布之間進行外推來提高生成質(zhì)量。本文的方法自然地支持一種相關(guān)形式的引導(dǎo)。

在本文的模型中，給定類標簽作為條件，底層的目標分布現(xiàn)在變?yōu)?nbsp;，我們可以從中抽取正樣本：。為了實現(xiàn)引導(dǎo)，本文從生成樣本或不同類別的真實樣本中抽取負樣本。形式上，負樣本分布現(xiàn)在為：

這里，是混合率，表示無條件數(shù)據(jù)分布（腳注 2：這應(yīng)該是排除類別的數(shù)據(jù)分布。為簡單起見，本文使用無條件數(shù)據(jù)分布）。

學(xué)習(xí)的目標是找到。將其代入 (15)，本文得到：

其中。這意味著是要逼近條件和無條件數(shù)據(jù)分布的線性組合。這遵循了原始 CFG 的精神。

在實踐中，公式 (15) 意味著除了生成的數(shù)據(jù)外，本文還從中的數(shù)據(jù)采樣額外的負樣本。分布對應(yīng)于類條件網(wǎng)絡(luò) ，類似于通常的做法。本文注意到，在本文的方法中，CFG 是設(shè)計上的訓(xùn)練時行為：單步 (1-NFE) 屬性在推理時得以保留。

圖像生成的實現(xiàn)

本文描述了 ImageNet在分辨率上的圖像生成實現(xiàn)。

Tokenizer。默認情況下，本文在隱空間執(zhí)行生成。本文采用標準的 SD-VAE tokenizer，它產(chǎn)生一個的隱空間，在其中進行生成。

架構(gòu) (Architecture) 。本文的生成器 () 具有類似 DiT (Peebles & Xie, 2023) 的架構(gòu)。其輸入是維的高斯噪聲，輸出是相同維度的生成潛在。本文使用大小為 2 的 patch，即像 DiT/2。本文的模型使用 adaLN-zero來處理類條件或其他額外的條件。

CFG 條件 (CFG conditioning) 。本文并采用 CFG 條件。在訓(xùn)練時，隨機采樣一個 CFG scale （公式 16）。根據(jù) 準備負樣本（公式 15），網(wǎng)絡(luò)以此值為條件。在推理時，可以自由指定和變化而無需重新訓(xùn)練。

批處理 (Batching) 。算法 1 中的偽代碼描述了一批個生成的樣本。在實踐中，當(dāng)涉及類標簽時，本文采樣一批個類標簽。對于每個標簽，本文獨立執(zhí)行算法 1。因此，有效的批量大小是，它由個負樣本和個正樣本組成。

本文根據(jù)生成的樣本的數(shù)量定義一個“訓(xùn)練 epoch”。特別是，每次迭代生成個樣本，對于大小為的數(shù)據(jù)集，一個 epoch 對應(yīng)于次迭代。

特征提取器 (Feature Extractor) 。本文的模型在特征空間中訓(xùn)練漂移損失。特征提取器是一個圖像編碼器。本文主要考慮 ResNet 風(fēng)格

例如使用自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的編碼器，如 MoCo和 SimCLR。當(dāng)這些預(yù)訓(xùn)練模型在像素空間操作時，本文應(yīng)用 VAE 解碼器將生成器的隱空間輸出映射回像素空間以進行特征提取。梯度通過特征編碼器和 VAE 解碼器反向傳播。本文還研究了在隱空間預(yù)訓(xùn)練的 MAE 。

對于所有 ResNet 風(fēng)格的模型，特征從多個階段（即多尺度特征圖）提取。漂移損失 (13) 在每個尺度上計算，然后組合。

像素空間生成 。雖然本文的實驗主要集中在隱空間生成，但本文的模型支持像素空間生成。在這種情況下，和都是。本文使用 16 的 patch 大�。ḿ� DiT/16）。特征提取器直接在像素空間上操作。

實驗

小實驗

生成分布的演化。圖 3 可視化了一個 2D 案例，其中在訓(xùn)練時向雙峰分布演化，在三種初始化下。在這個示例中，本文的方法近似了目標分布，沒有表現(xiàn)出模式坍縮。即使初始化為坍縮的單模式狀態(tài)（底部），這也成立。這為本文的方法為何對模式坍縮具有魯棒性提供了直觀解釋：如果坍縮到一個模式上，的其他模式將吸引樣本，允許它們繼續(xù)移動并推動繼續(xù)演化。

樣本的演化。圖 4 展示了在兩個 2D 案例上的訓(xùn)練過程。訓(xùn)練了一個小型 MLP 生成器。隨著生成分布收斂到目標，損失（其值等于）減小。這與本文的動機一致，即減小漂移并推向平衡將近似產(chǎn)生。

ImageNet 實驗

在 ImageNet 上評估本文的模型。消融研究使用 SD-VAE 隱空間上的 B/2 模型，訓(xùn)練 100 個 epoch。漂移損失是在由 latent-MAE 編碼器計算的特征空間中。本文報告 50K 生成圖像的 FID。本文分析結(jié)果如下。

反對稱性 (Anti-symmetry) 。本文對平衡的推導(dǎo)要求漂移場是反對稱的；見公式 (3)。在表 1 中，本文進行了一項破壞性研究，有意破壞這種反對稱性。反對稱情況（本文消融的默認設(shè)置）效果良好，而其他情況則遭受災(zāi)難性失敗。直觀地說，對于樣本，當(dāng) 和匹配時，本文希望來自的吸引力被來自的排斥力抵消。這種平衡在破壞性案例中無法實現(xiàn)。

正負樣本的分配 。本文方法采樣正樣本和負樣本來估計（見算法 1）。在表 2 中，本文在固定的 epoch 和固定的批量大小下，研究了和的影響。

表 2 顯示，使用更大的和是有益的。更大的樣本量預(yù)計能提高估計的準確性，從而提升生成質(zhì)量。這一觀察結(jié)果與對比學(xué)習(xí)中的結(jié)果一致，即更大的樣本集能改善表示學(xué)習(xí)。

用于漂移的特征空間 (Feature Space for Drifting) 。本文的模型在一個特征空間中計算漂移損失。表 3 比較了特征編碼器。使用來自 SimCLR和 MoCo v2的公開預(yù)訓(xùn)練編碼器，本文的方法獲得了不錯的結(jié)果。

這些標準編碼器在像素域操作，這需要在訓(xùn)練時運行 VAE 解碼器。為了規(guī)避這一點，本文直接在隱空間上預(yù)訓(xùn)練了一個帶有 MAE 目標的 ResNet 風(fēng)格模型。這個“latent-MAE”產(chǎn)生的特征空間表現(xiàn)強勁（表 3）。增加 MAE 編碼器的寬度和預(yù)訓(xùn)練 epoch 數(shù)都能提高生成質(zhì)量；使用分類器對其進行微調(diào) (‘cls ft’) 將結(jié)果進一步提升至 3.36 FID。

表 3 的比較表明，特征編碼器的質(zhì)量起著重要作用。本文假設(shè)這是因為本文的方法依賴于一個核函數(shù) （見公式 12）來衡量樣本相似度。在特征空間中距離更近的樣本通常會產(chǎn)生更強的漂移，提供更豐富的訓(xùn)練信號。這一目標與自監(jiān)督學(xué)習(xí)的動機是一致的。一個強大的特征編碼器減少了幾乎“平坦”的核（即消失，因為所有樣本都相距甚遠）的出現(xiàn)。

另一方面，如果沒有特征編碼器，我們無法使該方法在 ImageNet 上工作。在這種情況下，即使存在潛在 VAE，核函數(shù)也可能無法有效地描述相似性。我們將對這一局限性的進一步研究留待未來工作。

系統(tǒng)級比較 (System-level Comparisons) 。除了消融設(shè)置外，本文訓(xùn)練了更強的變體并在表 4 中進行了總結(jié)。在表 5 中與之前的方法進行了比較。

本文的方法通過原生的 1-NFE 生成達到了 1.54 FID。它優(yōu)于所有之前的 1-NFE 方法，這些方法主要基于逼近擴散/流的軌跡。值得注意的是，本文的 Base 大小模型可以與之前的 XL 大小模型相媲美。本文的最佳模型（FID 1.54）使用 CFG scale 為 1.0，這對應(yīng)于擴散模型中的“無 CFG”。本文的 CFG 公式展示了一種ID 和 IS權(quán)衡，類似于標準的 CFG。此外，圖 11-15 展示了與 improved MeanFlow (iMF)的并排比較，后者是最近的最先進單步生成方法。

像素空間生成 (Pixel-space Generation) 。本文的方法可以自然地在沒有潛在 VAE 的情況下工作，即生成器直接產(chǎn)生的圖像。特征編碼器應(yīng)用于生成的圖像以計算漂移損失。本文采用與潛在變體類似的配置；實現(xiàn)細節(jié)見附錄 A。

表 6 比較了不同的像素空間生成器。本文的單步、像素空間方法達到了 1.61 FID，優(yōu)于或媲美之前的多步方法。與其他單步像素空間方法 (GANs) 相比，本文的方法僅使用 87G FLOPs 就達到了 1.61 FID；相比之下，StyleGAN-XL 使用 1574G FLOPs 產(chǎn)生 2.30 FID。

機器人控制實驗

除了圖像生成，本文還進一步評估了本文方法在機器人控制上的表現(xiàn)。本文的實驗設(shè)計和協(xié)議遵循 Diffusion Policy 。Diffusion Policy 的核心是一個多步、基于擴散的生成器；本文將其替換為本文的單步 Drifting Model。本文直接在控制的原始表示上計算漂移損失，不使用特征空間。結(jié)果如下表 7 所示。本文的 1-NFE 模型匹配或超過了使用 100 NFE 的最先進的 Diffusion Policy。這一比較表明，漂移模型可以作為不同領(lǐng)域中一種有前途的生成模型。

討論與結(jié)論

本文介紹了漂移模型（Drifting Models），這是一種生成式建模的新范式。核心思想是建模訓(xùn)練過程中推前分布的演化。這使得本文能夠關(guān)注更新規(guī)則，即，在迭代訓(xùn)練過程中。這與擴散/流模型形成對比，后者在推理時執(zhí)行迭代更新。本文的方法自然地執(zhí)行單步推理。

鑒于本文的方法論本質(zhì)上是不同的，許多懸而未決的問題仍然存在。例如，雖然本文展示了，但在理論上逆命題并不普遍成立。雖然本文設(shè)計的在實證上表現(xiàn)良好，但尚不清楚在什么條件下導(dǎo)致。

從實踐角度來看，雖然本文展示了漂移建模的有效實例化，但本文的許多設(shè)計決策可能仍是次優(yōu)的。例如，漂移場及其核的設(shè)計、特征編碼器和生成器架構(gòu)仍有待未來探索。

從更廣泛的角度來看，本文的工作將迭代的神經(jīng)網(wǎng)絡(luò)訓(xùn)練重構(gòu)為一種分布演化機制，這與作為擴散/流模型基礎(chǔ)的微分方程形成對比。本文希望這一視角能激發(fā)未來工作中對該機制的其他實現(xiàn)的探索。

參考文獻

[1] Generative Modeling via Drifting

原文標題 : 顛覆性突破！何愷明團隊重磅工作「Drifting Models」革新生成范式：一步推理直接創(chuàng)紀錄