生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題-人工智慧-PHP中文網

扩散模型在图像生成方面的色彩表现中发挥了作用，推动了生成式模型的新纪元。如Stable Diffusion、DALLE、Imagen、SORA等大模型如雨后春笋般涌现，进一步丰富了生成式AI的应用背景。然而，当前的扩散模型在理论上并非完美，鲜有研究关注到采样样本时段端点处未定义的奇点问题。此外，奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。

为了解决这一难题，微信视觉团队与中山大学合作，联手探究了扩散模型中的奇点问题，并提出了一个即插即用的方法，有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题，显著提升了现有扩散模型的生成能力。这一研究成果已在CVPR 2024 会议上发表。

扩散模型在多模态内容生成任务中取得了显著的成功，包括图像、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设，即扩散过程的逆过程也符合高斯特性。然而，这一假设并没有得到充分证明。特别是在端点处，即 t=0 或 t=1，会出现奇点问题，限制了现有方法对奇点处采样的研究。

此外，奇点问题也会影响扩散模型的生成能力，导致模型出现平均灰度问题，即难以生成亮度强或者弱的图像，如图下所示。这在一定程度上也限制了当前扩散模型的应用范围。

为了解决扩散模型在时间端点处的奇点问题，微信视觉团队与中山大学合作，从理论和实践两个方面展开了深入探究。首先，该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界，为后续研究提供了理论基础。基于这一理论保障，团队对奇点处的采样进行了研究，并得出了两个重要的结论：1）t=1 处的奇点可以通过求取极限转化为可去奇点，2）t=0 处的奇点是扩散模型的固有特性，不需要规避。基于这些结论，该团队提出了一个即插即用的方法：SingDiffusion，用于解决扩散模型在初始时刻采样的问题。

通过大量的实验验证明，仅需训练一次，SingDiffusion 模块即可无缝应用到现有的扩散模型中，显著地解决了平均灰度值的问题。在不使用无分类器指引技术的情况下，SingDiffusion 能够显著提升当前方法的生成质量，特别是在应用于 Stable Diffusion 1.5（SD-1.5）后，其生成的图像质量更是提升了 33%。

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

论文地址：https://arxiv.org/pdf/2403.08381.pdf

项目地址：https://pangzecheung.github.io/SingDiffusion/

论文题目：Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

逆过程的高斯特性

为了研究扩散模型的奇点问题，需要验证全过程包含奇点处的逆过程满足高斯特性。首先定义生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題为扩散模型的训练样本，训练样本的分布可以表示为：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

其中 δ 表示狄拉克函数。根据 [1] 中连续时间扩散模型的定义，对于任意两个时刻 0≤s,t≤1，正向过程可以表示为：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

其中生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題，，#，隨著時間單調的從1 變化到0。考慮到剛剛定義的訓練樣本分佈，的單一時刻邊際機率密度可以表示為：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

由此，可以透過貝葉斯公式計算逆過程的條件分佈：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

然而，得到的分佈是混合高斯分佈，難以用網路進行擬合。因此，主流的擴散模型通常假設這一分佈可以由單一高斯分佈擬合：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

#其中，生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題為了驗證這個假設，研究在Proposition 1 中估計了此擬合的誤差。

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

然而，研究發現當t=1 時，隨著s 趨近1，生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題也將趨近於1，誤差無法忽略。因此，Proposition 1 並不能證明 t=1 時的逆高斯特性。為了解決這個問題，研究給出了新的命題：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

#根據Proposition 2，當t=1 時，隨著s 趨近1，生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題將趨近於0。由此，研究證明了包含奇點時刻的逆過程全過程都符合高斯特性。

奇點時刻的取樣

有了逆過程高斯特性的保證，研究基於逆向取樣公式對奇點時刻的取樣展開了研究。

首先考慮 t=1 時刻的奇點問題。當t=1 時，生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題 =0，下面的採樣公式將出現分母除0 的情況：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

研究團隊發現，透過計算極限，此奇點可以轉換為可去奇點：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

然而，這一極限無法在測試過程中進行計算。為此，該研究提出可以在 t=1 時刻擬合生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題，使用 “x - 預測”，來解決的初始奇點處的取樣問題。

接著考慮t=0 時刻，高斯分佈擬合的逆過程將變成方差為0 的高斯分佈，即狄拉克函數：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

其中生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題。這樣的奇異性會使得取樣過程收斂到正確的資料上。因此，t=0 處的奇點是擴散模型良好的性質，並不需要規避。

此外，研究還在附錄中探討了 DDIM，SDE，ODE 中的奇點問題。

即插即用的SingDiffusion 模組

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

#奇點處的取樣會影響擴散模型生成影像的品質。例如，在輸入高或低亮度的提示時，現有方法往往只能產生平均灰階的影像，這稱為平均灰階問題。這個問題源自於現有方法忽略了 t=0 時奇點處的取樣，而是在 1-ϵ 時刻使用標準高斯分佈作為初始分佈進行取樣。然而，如上圖所示，標準高斯分佈與實際的 1-ϵ 時刻的資料分佈存在較大的差距。

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

在這樣的差距下，根據Proposition 3，現有方法等同於在t=1 時朝著一個均值為0 的圖像進行生成，即平均灰階影像。因此，現有方法難以產生亮度極強或極弱的影像。為了解決這個問題，該研究提出了一個即插即用的 SingDiffusion 方法，透過擬合標準高斯分佈與實際資料分佈之間的轉換來彌補這一差距。

SingDiffuion 的演算法如下圖所示：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

# 根據上一節的結論，該研究在t=1 時刻使用了「x - 預測」方法來解決奇點處的取樣問題。對於圖文資料對生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題，該方法訓練了一個 Unet#來擬合。損失函數表示為：

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

模型收斂後，就可以依照下面的DDIM 取樣公式並使用新得到的模組生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題取樣。

生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題

DDIM 的取樣公式確保了產生的生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題符合1-ε 時刻的資料分佈，從而解決了平均灰度問題。在這步驟之後，就可以使用預先訓練的模型執行後續的取樣步驟，直到產生。值得注意的是，由於該方法僅參與第一步的採樣，與後續的採樣過程無關，因此 SingDiffusion 可以應用在絕大多數現有的擴散模型中。另外，為了避免無分類器指導操作導致的資料溢出問題，該方法還使用了以下的歸一化操作：