不如GAN! Google、DeepMind等發文:擴散模型直接從訓練集「抄」
去年,影像生成模型大火,在一場大眾藝術狂歡後,接踵而來的還有版權問題。
類似DALL-E 2, Imagen和Stable Diffusion等深度學習模型的訓練都是在上億的資料上進行訓練的,根本無法擺脫訓練集的影響,但是否某些生成的圖像就完全來自於訓練集? 如果生成影像與原圖十分類似的話,其版權又歸誰所有?
最近來自Google、Deepmind、蘇黎世聯邦理工學院等多所知名大學和企業的研究人員們聯合發表了一篇論文,他們發現擴散模型確實可以記住訓練集的樣本,並在生成過程中進行複現。
論文連結:https://arxiv.org/abs/2301.13188
在這項工作中,研究人員展示了擴散模型如何在其訓練資料中記憶單一影像,並在生成時將其重新復現出來。
文中提出一個產生和過濾(generate-and-filter)的pipeline,從最先進的模型中提取了一千多個訓練實例,涵蓋範圍包含人物的照片、商標的公司標誌等等。並且還在不同的環境中訓練了數百個擴散模型,以分析不同的建模和資料決定如何影響隱私。
總的來說,實驗結果顯示,擴散模型對訓練集的隱私保護比之前的生成模型(如GANs)要差得多。
記了,但記得不多
去噪擴散模型(denoising diffusion model)是近期興起的新型生成式神經網絡,透過迭代去噪的過程從訓練分佈中生成圖像,比之前常用的GAN或VAE模型生成效果更好,並且更容易擴展模型和控制圖像生成,所以也迅速成為了各種高分辨率圖像生成的主流方法。
尤其是OpenAI發布DALL-E 2之後,擴散模型迅速火爆了整個AI生成領域。
生成式擴散模型的吸引力源於其合成表面上與訓練集中的任何東西都不同的新圖像的能力,事實上,過去的大規模訓練工作「沒有發現過擬合的問題」,而隱私敏感領域(privacy sensitive domain)的研究人員甚至提出,擴散模型可以透過合成影像來「保護真實影像的隱私」。
不過這些工作都依賴於一個假設:即擴散模型不會記憶並再次產生訓練資料,否則就會違反隱私保證,並引起諸多關於模型泛化和數位偽造(digital forgery)的問題。
但事實果真如此嗎?
要想判斷產生的影像是否來自於訓練集,首先需要定義什麼是「記憶」(memorization)。
先前的相關工作主要集中在文字語言模型上,如果模型能夠逐字從訓練集中恢復一個逐字記錄的序列,那麼這個序列就被稱為「提取」和「記憶」了;但因為這項工作是基於高解析度的圖像,所以逐字逐句匹配的記憶定義並不適合。
以下是研究者定義的一個基於影像相似性測量的記憶。
如果一個產生的圖像x,並且與訓練集中多個樣本之間的距離(distance)小於給定閾值,那麼該樣本就被視為從訓練集中得到的,即Eidetic Memorization.
#然後,文中設計了一個兩階段的資料抽取攻擊(data extraction attack)方法:
##1 . 產生大量圖像
第一步雖然很簡單,但計算成本很高:使用選定的prompt作為輸入,以黑盒子的方式產生圖像。
研究人員為每個文字提示產生500張候選圖像以增加發現記憶的幾率。
2. 進行Membership Inference
把那些疑似是根據訓練集記憶生成的圖像標記出來。
研究人員設計的成員推理攻擊策略基於以下想法:對於兩個不同的隨機初始種子,擴散模型產生的兩張圖像相似機率會很大,並且有可能在距離測量下被認為是根據記憶產生的。
抽取結果為了評估攻擊效果,研究人員從訓練資料集中選擇了35萬個重複率最高的例子,並為每個提示產生500張候選圖像(總共生成了1.75億張圖像)。
首先對所有這些生成的圖像進行排序,透過在團(clique)中的圖像之間的平均距離來識別那些可能透過記憶訓練資料生成的圖像。
然後把這些生成的圖像與訓練圖像進行比較,將每張圖像標註為“extracted”和“not extracted”,最終發現了94張疑似從訓練集中抽取的圖像。
透過視覺分析,將排名top 1000的圖片手動標註為「memorized」或「not memorized」,其中發現還有13張圖片是透過複製訓練樣本產生的。
從P-R曲線來看,這種攻擊方式是非常精確的:在1.75億張產生的影像中,可以辨識出50張被記住的圖像,而假陽性率為0;並且所有根據記憶生成的圖像都可以被提取出來,精確度高於50%
為了更好地理解記憶是如何以及為什麼會發生的,研究人員還在CIFAR10上訓練了數百個較小擴散模型,以分析模型精確度、超參數、增強和重複資料刪除對隱私的影響。
與擴散模型不同的是,GANs並沒有明確地被訓練來記憶和重建其訓練資料集。
GANs由兩個相互競爭的神經網路組成:一個生成器和一個判別器。生成器同樣接收隨機雜訊作為輸入,但與擴散模型不同的是,它必須在一次前向傳遞中將這種雜訊轉換成有效影像。在
訓練GAN的過程中,判別器需要預測影像是否來自於生成器,而生成器需要提升自己以欺騙判別器。
因此,二者的不同之處在於,GAN的生成器只使用關於訓練資料的間接資訊進行訓練(即使用來自判別器的梯度),並沒有直接接收訓練資料作為輸入。
不同的預訓練產生模型中抽取的100萬個無條件產生的訓練影像,然後按FID排序的GAN模型(越低越好)放在上面,把擴散模型放在下面。
結果顯示,擴散模型比GAN模型記憶得更多,更好的生成模型(較低的FID)往往能記住更多的數據,也就是說,擴散模型是最不隱私的圖像模型形式,其洩漏的訓練資料是GANs的兩倍以上。
並且從上面的結果還可以發現,現有的隱私增強技術並不能提供一個可接受的隱私-效能權衡,想提高生成質量,就需要記住更多訓練集中的數據。
總的來說,這篇論文強調了日益強大的生成模型和資料隱私之間的矛盾,並提出了關於擴散模型如何運作以及如何負責任地部署它們的問題。
版權問題
從技術上來講,重建(reconstruction)正是擴散模型的優勢;但從版權上來說,重建就是軟肋。
由於擴散模型產生的圖像與訓練資料之間的過於相似,藝術家們對自己的版權問題進行了各種爭論。
例如禁止AI使用自己的作品進行訓練,發布的作品添加大量水印等等;並且Stable Diffusion也已經宣布,它計劃下一步只使用包含已授權內容的訓練數據集,並提供了一個藝術家退出機制。
在NLP領域同樣面臨這個問題,有網友表示自1993年以來已經發布了數百萬字的文本,而包括ChatGPT-3等所有AI都是在「被偷走的內容」上訓練的,使用基於AI的生成模式都是不道德的。
雖然天下文章一大抄,但對一般人來說,抄襲只是一種可有可無的捷徑;而對創造者來說,被抄襲的內容卻是他們的心血。
在未來,擴散模型還會有優勢嗎?
以上是不如GAN! Google、DeepMind等發文:擴散模型直接從訓練集「抄」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
