123,123

擴散模型對齊迎來“最強解”！HyperAlign屠榜評測：超網絡動態(tài)適配，畫質、語義雙巔峰

2026-01-27 16:14

AI生成未來

關注

作者：Xin Xie等

解讀：AI生成未來

亮點直擊

HyperAlign，一種通過超網絡自適應調整去噪操作的框架，能夠高效且有效地實現擴散模型的測試時對齊，確保生成的圖像更好地反映用戶意圖的文本語義與視覺吸引力。

設計了不同的自適應權重生成策略，以實現高效靈活的對齊。除了以獎勵分數作為訓練目標外，我們還引入了偏好正則化項以防止獎勵欺詐問題。

在多種生成模型（例如SD V1.5和FLUX）上評估了所提方法的性能。HyperAlign在不同指標上顯著優(yōu)于各基線模型及其他先進的微調和測試時縮放方法，證明了其有效性與優(yōu)越性。

總結速覽

解決的問題

擴散模型生成結果與人類偏好和意圖不一致：生成的圖像存在美學質量差、語義與提示詞不符等問題。

現有對齊方法的局限性：

微調方法：存在獎勵過優(yōu)化問題，導致多樣性喪失。

測試時縮放方法：計算開銷大，且容易獎勵欠優(yōu)化，對齊效果不足。

提出的方案

提出 HyperAlign 框架，通過訓練一個超網絡實現高效且有效的測試時對齊：

核心思路：不直接修改隱狀態(tài)，而是通過超網絡動態(tài)生成低秩適配權重（LoRA），調制擴散模型的生成算子，從而自適應調整去噪軌跡。

變體設計：根據超網絡的應用頻率設計了三種策略（逐步驟生成、起始點生成、分段生成），以平衡性能與效率。

優(yōu)化目標：使用獎勵分數作為訓練目標，并結合偏好數據進行正則化，以減少獎勵黑客問題。

應用的技術

超網絡架構：輸入包括隱變量、時間步和提示詞，輸出動態(tài)調制參數（LoRA權重）。

低秩適配（LoRA）：降低參數量，避免生成全模型權重的高成本。

獎勵條件對齊：基于獎勵分數優(yōu)化生成軌跡，并結合偏好數據正則化。

多范式適配：在擴散模型（如Stable Diffusion）和整流流（如FLUX）等多種生成范式中實現。

達到的效果

性能顯著提升：在增強語義一致性和視覺吸引力方面，顯著優(yōu)于現有微調和測試時縮放基線方法。

高效對齊：通過動態(tài)權重生成，避免了傳統測試時方法的高計算開銷，實現了更高效的實時調整。

平衡多樣性與對齊：通過正則化緩解獎勵過優(yōu)化，保持生成多樣性的同時更好地對齊人類偏好。

廣泛適用性：成功應用于多種先進生成模型，驗證了框架的通用性和擴展性。

擴散模型對齊

基于分數的生成模型預備知識

擴散模型通過學習逆轉一個應用于干凈數據的漸進加噪過程，從而捕捉數據分布。給定數據分布，擴散模型的前向過程在特定條件下遵循隨機微分方程 (SDE)，用高斯噪聲逐步擾動干凈樣本直至變成高斯噪聲：

其中，是標準維納過程，和分別表示漂移系數和擴散系數。

通過從開始反向運行上述過程，可以得到一個通過逆向 SDE 進行的數據生成過程：

其中表示時刻時的邊緣分布。分數函數可以通過訓練模型來估計：

其中是權重函數，，是高斯轉移密度，且。近似后的定義了一個學習到的分布。

基于分數的模型統一了擴散模型和流匹配模型的公式，其中的樣本軌跡通過隨機或常微分方程（SDE 或 ODE）生成。為了清晰簡潔，在不失一般性的前提下，下文的陳述將主要聚焦于擴散模型。在這一統一公式下，本文的分析和方法可以自然地推廣到擴散模型和流匹配模型。

基于獎勵的擴散模型對齊

條件擴散模型與分數函數。 本文考慮條件擴散模型，其學習分布，其中表示條件變量。該模型的訓練目標是通過逆擴散過程生成樣本，即在條件的控制下對采樣噪聲進行去噪。在圖像生成中，是輸入提示詞，指示用戶對生成內容的指令。為了更好地進行討論，本文采用方差保持（variance-preserving）設置下的離散分數基模型，其采樣公式為：

其中，，，且是線性增加的噪聲調度器。這一迭代去噪過程在潛空間中形成了一條軌跡，逐漸將噪聲轉化為反映輸入提示詞的干凈樣本。

基于獎勵的擴散模型對齊。 盡管現有的文生圖（T2I）模型展示了強大的生成能力，但結果往往達不到用戶預期，表現為視覺吸引力差以及與輸入提示詞的語義不一致。這種局限性產生的原因在于分數函數是從大規(guī)模未篩選的數據集中學習的，這些數據集偏離了人類偏好的分布。為了彌補這一差距，引入了擴散模型對齊，以增強生成圖像與人類用戶偏好之間的一致性。

依靠人類偏好數據，可以獲得一個捕捉人類偏好（例如美學偏好）的獎勵模型。通過與條件相聯系，獎勵模型可以表述為，可以假設它部分捕捉了和之間的一致性以及視覺美學偏好。它可以從偏好數據中顯式學習，也可以直接利用數據進行隱式建模。給定一個已學習的和一個獎勵模型，擴散模型對齊可以表述為求解一個新的分布：

其中是 KL 正則化系數，用于控制獎勵最大化與基礎模型一致性之間的平衡。流行為基于訓練的對齊方法通過強化學習（RL）和直接反向傳播來優(yōu)化目標獎勵。雖然有效，但這些方法通常會帶來巨大的計算開銷和過度優(yōu)化的風險，導致生成多樣性下降。相比之下，測試時（test-time）擴展方法通過使用引導來修改時間狀態(tài)以實現對齊目標。由于生成分布表現為采樣過程中的軌跡，測試時對齊可以被視為引導該軌跡，以更好地匹配所需的條件分布。

方法

本工作旨在訓練一個超網絡（Hypernetwork），以實現擴散模型高效且有效的測試時對齊（Test-time Alignment），該方法被稱為 HyperAlign。

HyperAlig的任務特定測試時間對齊

基于擴散引導的測試時對齊

測試時擴散對齊方法通過調整生成軌跡來更好地滿足對齊目標。現有的測試時計算策略大致可分為基于噪聲采樣的方法和基于梯度的擴散引導方法。

噪聲采樣方法試圖根據獎勵反饋識別有利的噪聲候選者。然而，在巨大的高維噪聲空間中進行探索計算成本高昂且難以收斂，導致效率低下且結果欠優(yōu)化。

基于梯度的擴散引導直接從特定目標計算梯度，并利用它們通過修改時間狀態(tài)來引導去噪軌跡。

為了通過直接注入來自獎勵的引導來有效地對齊擴散模型，本工作旨在訓練一個超網絡，該網絡在每個去噪步驟生成特定于提示（prompt-specific）和感知狀態(tài)（state-aware）的調整。這種設計通過將昂貴的測試時優(yōu)化分攤到微調期間緊湊且可學習的建模過程中，從而保持了計算效率。

在介紹本方法之前，首先分析利用生成梯度引導去噪軌跡的擴散引導方法。基于貝葉斯規(guī)則，可以推導出的近似表達式，其中第一項對應于無條件分數（unconditional score），不需要額外優(yōu)化。因此，本工作專注于第二項，即把獎勵梯度注入去噪過程：

其中獎勵函數實際上是通過解碼器應用于解碼后的圖像域。為了討論的簡潔性，此處省略了解碼器符號。通過將上式代入擴散更新公式，可以觀察到基于引導的方法通過將感知獎勵的擴散動態(tài)注入到中來實現對齊，這本質上改變了從到的過渡路徑。

用于測試時對齊的超網絡

梯度引導方法通過使用源自獎勵的分數直接修改時間狀態(tài)來執(zhí)行測試時對齊，從而調整去噪軌跡。然而，從獎勵模型向生成器反向傳播梯度會帶來巨大的計算開銷，降低推理速度，并且與生成器的訓練過程是脫節(jié)的。

為了緩解這些問題，同時保留特定任務建模的優(yōu)勢，本工作訓練了一個超網絡，該網絡根據任務、輸入和當前的生成狀態(tài)有效地引導生成軌跡。其測試時對齊能力是在訓練期間通過將基于獎勵的引導注入超網絡來學習的。與微調對齊方法使用一組固定參數適應所有用戶意圖組合不同，本方法是特定于提示且感知狀態(tài)的，在每個去噪步驟動態(tài)生成自適應調制參數以對齊生成軌跡。

超網絡作為動態(tài) LoRA 預測器本工作的目標是學習一個超網絡，該網絡以和為輸入，并輸出針對生成過程每一步的調整。一種樸素的方法是學習一個對齊分數來替代公式 (6)，但這需要類似于原始生成分數的公式，因此復雜度很高。相反，本工作將超網絡設計為直接調整對應于原始生成模型中網絡參數的分數，具體通過為生成一個輕量級的低秩適配器（Low-Rank Adapter, LoRA）來實現。

如下圖 3 所示，超網絡架構主要分為兩個組件：感知編碼器（Perception Encoder）和Transformer 解碼器（Transformer Decoder）。

輸入處理：具體而言，輸入的時間潛變量、時間步和提示詞首先被傳入感知編碼器，該編碼器由生成模型預訓練 U-Net 的下采樣塊組成。預訓練的 U-Net 攜帶豐富的擴散先驗，使其成為捕捉跨不同輸入組合語義表示的天然編碼器。

特征解碼與生成：編碼后的特征隨后通過一個線性層投影并傳遞給 Transformer 解碼器。在這里，使用零初始化的 token 生成查詢（Query, Q），并使用編碼特征生成鍵（Key, K）和值（Value, V）。Transformer 解碼器通過交叉注意力機制整合時間信息和語義信息。

LoRA 輸出：隨后的線性層將解碼后的特征映射為 LoRA 權重：

其中表示超網絡的參數。在時間維度上，將生成的 LoRA 權重整合到原始模型參數中，產生一個特定于輸入和步驟的分數函數（此處濫用符號表示整合），從而修改底層的去噪軌跡。

高效的 HyperAlign (Efficient HyperAlign)默認情況下，公式 (7) 中的超網絡設計可以從初始步驟開始自適應地應用于所有生成步驟（稱為 HyperAlign-S）。為了平衡推理效率，本工作進一步開發(fā)了兩種變體：

HyperAlign-I：訓練為僅在起始點預測一次 LoRA 權重，即，并將其用于所有步驟。

分段變體 (HyperAlign-P) ：該變體在幾個關鍵時間步產生新權重，同一分段內的所有時間步共享相同的 LoRA 權重。如下圖 4 所示，本工作計算一步預測潛變量的相對距離，較小的值表明相鄰潛變量彼此相似。觀察結果支持將相似的潛變量狀態(tài)歸為一段并共享相同的 LoRA 權重，這與不同去噪階段的擴散行為一致。本工作計算曲率率以識別出對軌跡有更大影響的個關鍵點。超網絡被訓練為僅在這些關鍵步驟重新生成 LoRA 權重，以便以比 HyperAlign-S 更少的計算量自適應地調制擴散過程，從而在效率和性能之間取得平衡。

HyperAlign 訓練

為了優(yōu)化超網絡，可以使用獎勵分數作為訓練目標。通過最大化獎勵信號，鼓勵模型生成具有更高條件似然的中間預測，從而將潛變量軌跡與真實的條件分布對齊：

獎勵優(yōu)化的正則化雖然最大化獎勵目標驅動模型產生高獎勵、條件對齊的潛變量狀態(tài)，但也暴露出兩個關鍵挑戰(zhàn)：

由于早期去噪階段一步預測的模糊性導致獎勵信號不準確；過度優(yōu)化的風險，即激進的獎勵最大化導致“獎勵破解”（reward hacking）或視覺保真度下降。

為了緩解這些問題，本工作引入了一個正則化損失來約束對齊過程并保持生成質量：

其中表示超參數，從偏好數據中采樣，且。這鼓勵學習到的去噪條件分數與偏好數據中的分數相匹配，從而規(guī)范化獎勵破解問題。

超網絡優(yōu)化的最終學習目標如下：

本方法不僅限于擴散模型，如前所述，HyperAlign 同樣兼容流匹配模型（Flow-Matching Models，例如實驗中的 FLUX）。

實驗結果

實驗設置

模型與數據：使用 SD V1.5 和 FLUX 作為基礎模型。HPSv2 用作獎勵模型。正則化損失使用的偏好數據來自 Pick-a-Pic 和 HPD。

數據集與指標：評估數據集包括 Pick-a-Pic、GenEval、HPD 和 Partiprompt。使用 PickScore、ImageReward (IR)、HPSv2、CLIP、GenEval Scorer 和 Aesthetic Predictor 等六種 AI 反饋模型評估圖像質量、提示詞對齊度和視覺美感。

與現有方法的比較

本工作將 HyperAlign 與微調方法（如 DPO, KTO, GRPO）和測試時縮放方法（如 BoN, -greedy, FreeDoM, DyMO）進行了比較。

定量分析（如下表 1 和表 2 所示）：

在 FLUX 和 SD V1.5 基礎模型上，HyperAlign 在多個指標（Pick, IR, CLIP, HPS）上均優(yōu)于現有的微調和測試時縮放基線。

HyperAlign 有效地實現了對齊，特別是 HyperAlign-S（每步調整）表現最佳，而 HyperAlign-I（僅初始步）和 HyperAlign-P（分段步）在保持競爭力的同時提供了更快的推理速度。

相比之下，測試時方法往往存在優(yōu)化不足的問題，而微調方法則因缺乏輸入適應性導致結果次優(yōu)。

定性評估（如下圖 5 和圖 6 所示）：

視覺比較顯示，HyperAlign 生成的圖像布局連貫、語義豐富且視覺美感優(yōu)越。測試時對齊方法生成的圖像效果不穩(wěn)定，有明顯偽影；微調方法雖得分高但往往過度優(yōu)化，產生顏色過飽和或畸變。

推理效率：

HyperAlign 生成單張圖像僅需數秒（SD V1.5 上約 3-5秒，FLUX 上約 16-20秒），與基礎模型相當。相比之下，測試時縮放方法（如 -greedy）因梯度計算或重復采樣，耗時巨大（需數百秒）。HyperAlign 生成和加載自適應權重的額外時間成本幾乎可以忽略不計。

用戶研究（如下圖 7 所示）：

在針對 FLUX 模型的用戶研究中，100名參與者對三個維度（總體偏好、視覺吸引力、提示詞對齊）進行投票。HyperAlign-S 在所有維度上均獲得了最高的用戶認可率，顯著優(yōu)于 DyMO、SRPO 和 MixGRPO 等方法。

消融研究

正則化數據的影響：使用 HPD 替代 Pick-a-Pic 作為正則化數據，或結合 PickScore 作為獎勵，HyperAlign 依然表現強勁，證明了方法的魯棒性（如下表 3 所示）。

損失函數的作用：僅使用偏好數據微調收益微薄；僅使用獎勵優(yōu)化會導致過度優(yōu)化（如顏色過飽和）。結合獎勵損失和正則化損失能在提升指標的同時保持視覺自然度（如下圖 13 所示）。

額外分析

GenEval 基準測試：HyperAlign 在對象合成、屬性綁定等細粒度指標上表現優(yōu)異（如下表 4 和表 5 所示）。

LoRA 權重動態(tài)：分析顯示，隨著去噪過程進行，生成的 LoRA 權重與初始權重的余弦相似度降低，變化率增加，表明不同時間步起到了不同的功能作用（如下圖 8 所示）。

多樣性：PCA 分析表明，HyperAlign 為不同提示詞生成了獨特的 LoRA 權重，特別是在生成初期（如下圖 9 所示）。

總結

HyperAlign，一個基于超網絡的高效生成模型測試時對齊框架。HyperAlign通過在去噪步驟中動態(tài)生成低秩調制權重，實現了基于獎勵信號的軌跡級對齊。其變體在計算效率與對齊精度之間提供了靈活的權衡機制。在擴散模型和整流流骨干網絡上的大量實驗表明，與現有微調及測試時對齊方法相比，HyperAlign在語義一致性和美學質量方面均表現出優(yōu)越性能。未來，將在開發(fā)更輕量化超網絡設計的同時，持續(xù)增強動態(tài)適應能力，從而進一步提升系統的效率與可擴展性。

參考文獻

[1] HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models

原文標題 : 擴散模型對齊迎來“最強解”！HyperAlign屠榜評測：超網絡動態(tài)適配，畫質、語義雙巔峰