只要一張圖就能「還原」繪畫過程，這篇論文比爆火的Paints-UNDO實現得更早-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

作者介紹：

作者介紹：

只要一張圖就能「還原」繪畫過程，這篇論文比爆火的Paints-UNDO實現得更早作者介紹：

>宋仁：新加坡大學主要研究方向研究所。包括影像和視訊生成， AI 安全性。黃施捷：新加坡國立大學碩士二年級學生，目前在 Tiamat AI 擔任演算法工程師實習生，主要研究方向是視覺生成。目前正在尋找 2025 fall 博士入學機會。

最近，lvmin 帶來了最新車型 Paints-UNDO。這款 AI 生成工具可以根據圖片還原整個繪畫過程，整個 AIGC 社群都為之震撼。

只要一張圖就能「還原」繪畫過程，這篇論文比爆火的Paints-UNDO實現得更早

早在 1 個月前，NUS，SJTU，Tiamat 等機構聯合已經發布了一篇做類似任務的工作 ProcessPainter: Learn Painting Process from Sequence Data。 Paints-UNDO 技術報告尚未公佈，讓我們一起來看看 ProcessPainter 是如何實現的吧！

論文標題：ProcessPainter: Learn Painting Process from Sequence Data

論文連結：https//// /arxiv.org/pdf/2406.06062

代碼連結：https://github.com/nicolaus-huang/ProcessPainter

只要一張圖就能「還原」繪畫過程，這篇論文比爆火的Paints-UNDO實現得更早

翻開任何一本繪畫教學書籍，都能看到依照步驟畫畫的指導。然而，在生成式 AI 時代，透過去噪過程完成圖像生成和人類畫家繪畫過程完全不同，AI 畫畫的過程無法直接用於繪畫教學。只要一張圖就能「還原」繪畫過程，這篇論文比爆火的Paints-UNDO實現得更早

為了解決這個問題，ProcessPainter 透過在合成資料和人類畫師繪畫影片上訓練時序模型，首次實現了讓擴散模型生成繪畫過程。此外，不同題材、畫師的繪畫過程差異巨大，風格迥異。然而，目前很少有研究將繪畫過程作為研究對象。論文作者在預訓練的 Motion Model 基礎上，透過在特定畫師的少量繪畫序列上訓練 Motion LoRA，學習畫師的繪畫技巧。深入解讀 ProcessPainter 的核心技術

1. 時序注意力機制（Temporal Attention）

用時序注意力學習產生繪畫過程是 ProcessPainter 的核心創新。繪畫序列產生的關鍵是，整個序列是同一張圖從抽像到具體的變化過程，前後幀在內容和構圖上是一致且相關的。為了實現這一目標，作者為 Unet 引入了來自 AnimateDiff 的時序注意模組。此模組位於每一層擴散層之後，透過幀間自註意機制來吸收不同幀的訊息，確保整個序列的平滑過渡和連續性。

實驗證明，該訓練策略可以在幀之間保持一致的繪畫效果。繪畫過程產生和影片生成任務不同之處在於，繪畫過程前後變化更加劇烈，首幀是完成度很低的色塊或線稿，而尾幀是完整的畫作，這對模型訓練帶來挑戰。為此，論文作者先在大量合成資料集上預先訓練時序模組，讓模型學習各種各種SBR（Stroke-based rendering) 方法的逐步繪畫過程，再用數十個藝術家的繪畫過程資料訓練Painting LoRA模型。

2. 藝術品複製網路（Artwork Replication Network）

繪畫實踐中🎜>繪畫中，我們更希望知道一幅作品是如何畫出來的，以及如何從半成品繪畫繼續細化以達到期待的成品效果。這就引申出了兩個任務：繪畫過程重建和補全。鑑於這兩個任務都有圖像的輸入，論文作者提出了藝術品複製網絡（Artwork Replication Network）。

此網路設計能夠處理任意影格的影像輸入，並靈活控制繪畫過程的生成。與先前的可控性生成方法類似，論文作者引入一個 ControlNet 的變體，來控制生成結果中的特定幀與參考圖一致。

3. 合成資料集與訓練策略

由於真實繪畫過程資料較難獲取，數量不足以支援大規模訓練。為此，論文作者建構了用於預訓練的合成資料集。

具體採用了三種合成資料方法：

1. 採用Learn to Paint 來產生半透明貝賽爾曲線筆觸的繪畫序列；

2. 透過自訂筆觸，以Neural style painting 產生油畫風格和中國畫風格的繪畫序列。

3. 上述SBR（Stroke base painting）方法是從粗到細的擬合一張目標圖像，意味著允許對於已經繪畫的部分進行覆蓋和修改，然而很多繪畫種類，如中國畫和雕刻，由於材料的限制，無法大幅修改已經完成的部分，繪畫過程是分區域完成的。為此，論文作者採用 SAM（segment anything) 和顯著性檢測方法，從空白畫布逐個子區域添加內容，先繪製顯著性物體，然後逐步向背景擴散，從而合成繪畫過程影片。

在訓練階段，論文作者首先在合成資料集上預先訓練了 Motion Model，然後凍結了 Motion Model 的參數並訓練了 Artwork Replication Network。在微調繪畫 LoRA 模型時，第一步只使用最終畫面來微調空間注意力 LoRA，以防止半成品繪畫訓練集損害模型的生成品質。

此後，論文作者凍結了空間注意力 LoRA 的參數，並使用完整的繪畫序列微調時間注意力 LoRA。在推理階段，當從文字產生繪畫序列時，ProcessPainter 不使用藝術品複製網路。在繪畫過程重建和補全任務中，ProcessPainter 使用藝術品複製網路接收特定幀的參考輸入。為了確保生成的繪畫序列中的幀盡可能與輸入影像匹配，ProcessPainter 採用了 DDIM 反演技術來獲取參考影像的初始噪聲，並在 UNet 中替換特定幀的初始噪聲。

ProcessPainter 效果展示

只要一張圖就能「還原」繪畫過程，這篇論文比爆火的Paints-UNDO實現得更早