啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始-人工智慧-PHP中文網

高機率" >高機率

興奮的斑點" >興奮的斑點

產生問題" >產生問題

首頁

科技週邊

人工智慧

啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始

王林

Apr 12, 2023 pm 11:58 PM

人工智慧藝術

讓 OpenAI 創建的圖像生成系統 DALL·E 2 繪製一幅「金魚在海灘上啜飲可口可樂」的圖畫，它會吐出超現實的圖像。該程式在訓練期間會遇到海灘、金魚和可口可樂的圖像，但它不太可能看到三者同時出現的圖像。然而，DALL·E 2 可以將這些概念組合成可能讓達利感到自豪的東西。

DALL·E 2 是一種生成模型——一種嘗試使用訓練資料來產生在品質和多樣性方面可與資料相媲美的新事物的系統。這是機器學習中最困難的問題之一，到達這一點是一段艱難的旅程。

第一個重要的圖像生成模型使用了一種稱為神經網路的人工智慧方法——一種由多層計算單元組成的程序，稱為人工神經元。但即使他們的圖像品質變得更好，模型也被證明不可靠且難以訓練。同時，一個強大的生成模型——由一位對物理學充滿熱情的博士後研究員創建——處於休眠狀態，直到兩名研究生取得技術突破，使這隻野獸復活。

DALL·E 2 就是這樣一頭野獸。使 DALL·E 2 的圖像以及其競爭對手 Stable Diffusion 和 Imagen 的圖像成為可能的關鍵洞察力來自物理學世界。支撐它們的系統被稱為擴散模型，在很大程度上受到非平衡熱力學的啟發，非平衡熱力學支配著流體和氣體擴散等現象。「有很多技術最初是由物理學家發明的，現在在機器學習中非常重要，」OpenAI 的機器學習研究員 Yang Song 說。

這些模型的力量震撼了產業和使用者。「對於生成模型來說，這是一個激動人心的時刻，」加州理工學院電腦科學家、英偉達機器學習研究高級主管 Anima Anandkumar 說。

她說，雖然擴散模型創建的逼真圖像有時會延續社會和文化偏見，但「我們已經證明，生成模型對下游任務很有用，[這些]提高了預測人工智慧模型的公平性。」

高機率

為了理解如何為圖像創建數據，讓我們從僅由兩個相鄰灰階像素組成的簡單影像開始。我們可以根據每個像素的陰影（從 0 為全黑到 255 為全白）用兩個值來完整描述此影像。您可以使用這兩個值將影像繪製為二維空間中的一個點。

如果我們將多個影像繪製為點，則可能會出現聚類－某些影像及其對應的像素值比其他影像更頻繁地出現。現在想像平面上方有一個曲面，曲面的高度對應於簇的密度。該曲面繪製出機率分佈。你最有可能在曲面最高部分下方找到單一數據點，在表面的最低部分下方很少找到數據點。

啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始

DALL·E 2 製作了這些「金魚在海灘上啜飲可口可樂」的圖像。這個由 OpenAI 創建的程式可能從未遇到過類似的圖像，但仍然可以自行生成它們。

現在你可以使用此機率分佈來產生新圖片。你需要做的就是隨機產生新的資料點，同時遵守更頻繁地產生更多可能資料的限制——這個過程稱為「取樣」分佈。每個新點都是一個新圖像。

同樣的分析適用於更逼真的灰階照片，例如每張一百萬像素。只是現在，繪製每個圖像需要的不是兩個軸，而是一百萬個。此類影像的機率分佈將是一些複雜的百萬加一維曲面。如果你對該分佈進行取樣，你將產生一百萬個像素值。將這些像素印在一張紙上，圖像很可能看起來像是原始資料集中的照片。

產生建模的挑戰是為構成訓練資料的某些影像集學習這種複雜的機率分佈。該分佈之所以有用，部分原因是它捕獲了有關數據的廣泛信息，部分原因是研究人員可以結合不同類型數據（例如文本和圖像）的概率分佈來構成超現實的輸出，例如金魚在海灘上啜飲可口可樂。「你可以混合和匹配不同的概念……以創建訓練資料中從未見過的全新場景，」Anandkumar 說。

2014 年，一種稱為生成對抗網路 (GAN) 的模型成為第一個生成逼真圖像的模型。 “太激動了，”Anandkumar 說。但是 GAN 很難訓練：它們可能無法學習完整的機率分佈，並且可能只能從分佈的子集生成圖像。例如，在各種動物圖像上訓練的 GAN 可能只會產生狗的圖片。

機器學習需要一個更強大的模型。 Jascha Sohl-Dickstein 的工作受到物理學的啟發，他將提供一個答案。

啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始

Jascha Sohl-Dickstein。

興奮的斑點

在GAN 發明前後，Sohl-Dickstein 是史丹佛大學的博士後，研究生成模型，對非平衡熱力學也有興趣。物理學的這個分支研究不處於熱平衡狀態的系統──那些在內部以及與環境交換物質和能量的系統。

一個說明性的例子是一滴藍色墨水透過一個水容器擴散。起初，它在一個地方形成一個黑色的斑點。此時，如果你想計算在容器的某個小體積中找到墨水分子的機率，你需要一個機率分佈來清晰地模擬墨水開始擴散之前的初始狀態。但這種分佈很複雜，因此很難從中抽樣。

然而，最終，墨水擴散到整個水中，使水變成淡藍色。這可以用簡單的數學表達式描述的更簡單、更均勻的分子機率分佈。非平衡熱力學描述了擴散過程中每一步的機率分佈。至關重要的是，每一步都是可逆的——通過足夠小的步驟，你可以從一個簡單的分佈回到一個複雜的分佈。

啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始

Jascha Sohl-Dickstein 基於擴散原理創建了一種新的生成建模方法。 ——Asako Miyakawa

Sohl-Dickstein 使用擴散原理開發了產生建模演算法。這個想法很簡單：演算法首先將訓練資料集中的複雜影像轉化為簡單的雜訊——類似於從一滴墨水變成漫射淡藍色的水——然後教導系統如何反轉這個過程，將雜訊轉化為圖像。

這是它的工作原理。首先，演算法從訓練集中獲取圖像。和以前一樣，假設百萬像素中的每一個都有一些值，我們可以將影像繪製為百萬維空間中的一個點。該演算法在每個時間步向每個像素添加一些噪聲，相當於墨水在一個小時間步後的擴散。隨著這個過程的繼續，像素值與它們在原始影像中的值的關係越來越小，像素看起來更像是一個簡單的雜訊分佈。（演算法還在每個時間步將每個像素值向原點微移一點點，即所有這些軸上的零值。這種微移可以防止像素值變得太大以至於計算機無法輕鬆處理。）

對資料集中的所有影像執行此操作，百萬維空間中點的初始複雜分佈（無法輕易描述和取樣）變成圍繞原點的簡單、常態分佈的點。

Sohl-Dickstein 說：「轉換序列非常緩慢地將你的資料分佈變成一個大噪音球。」這個「正向過程」為你提供了一個可以輕鬆取樣的分佈。

接下來是機器學習部分：為神經網路提供從正向傳遞中獲得的雜訊影像，並訓練它預測更早一步出現的雜訊較小的影像。一開始它會出錯，所以你調整網路的參數，讓它做得更好。最終，神經網路可以可靠地將代表簡單分佈樣本的雜訊影像一直轉換為代表複雜分佈樣本的影像。

經過訓練的網路是一個成熟的生成模型。現在你甚至不需要原始影像來進行正向傳遞：你有簡單分佈的完整數學描述，所以你可以直接從中取樣。神經網路可以將這個樣本——本質上只是靜態的——變成類似於訓練資料集中影像的最終影像。

Sohl-Dickstein 回憶起他的擴散模型的第一個輸出。「你會瞇著眼睛說，[我認為那個彩色斑點看起來像一輛卡車，]」他說。「我花了很多個月的時間盯著不同的像素模式，試圖看到我喜歡的結構，[這比我以前得到的更有條理。] 我非常興奮。」

展望未來

Sohl-Dickstein 在2015 年發表了他的擴散模型演算法，但仍遠遠落後於GAN 的能力。雖然擴散模型可以對整個分佈進行取樣，並且永遠不會只吐出影像的子集，但影像看起來更糟，而且過程太慢了。「我認為當時這並不令人興奮，」Sohl-Dickstein 說。

啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始

#論文網址：https://doi.org/10.48550/arXiv.1503.03585

#需要兩名既不了解Sohl-Dickstein 也不了解對方的學生，才能將最初工作中的點點滴滴與DALL·E 2 等現代擴散模型聯繫起來。第一個是 Song，當時他是史丹佛大學的博士生。 2019 年，他和他的導師發表了一種建立生成模型的新方法，該方法不估計資料（高維度表面）的機率分佈。相反，它估計了分佈的梯度（將其視為高維表面的斜率）。

啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始

Yang Song 幫助提出了一種透過訓練網路有效解讀嘈雜圖像來產生圖像的新技術。

Song 發現，如果他先用增加的雜訊等級擾動訓練資料集中的每張影像，然後讓他的神經網路使用分佈梯度預測原始影像，從而有效地對其進行去噪，他的技術效果最好。一旦經過訓練，他的神經網路就可以從簡單的分佈中抽取雜訊影像，並逐步將其轉換回代表訓練資料集的影像。影像品質很好，但他的機器學習模型取樣速度非常慢。而且他在不了解 Sohl-Dickstein 的工作的情況下做到了這一點。「我根本不知道擴散模型，」Song 說。「在我們2019 年的論文發表後，我收到了Jascha 發來的電子郵件。他向我指出，[我們的模型] 有著非常緊密的聯繫。」

#################################################################2020年，第二名學生看到了這些聯繫，並意識到Song 的工作可以改進Sohl-Dickstein 的擴散模型。 Jonathan Ho 最近在加州大學柏克萊分校完成了生成建模的博士研究，但他仍在繼續研究。「我認為這是機器學習中數學上最美麗的分支學科，」他說。 ############Ho 利用 Song 的一些想法和神經網路領域的其他進展重新設計和更新了 Sohl-Dickstein 的擴散模型。「我知道為了引起社區的注意，我需要讓模型產生漂亮的樣本，」他說。「我確信這是我當時能做的最重要的事。」######

他的直覺是正確的。 Ho 和他的同事在 2020 年的一篇題為「去噪擴散機率模型」的論文中宣布了這種新的和改進的擴散模型。它很快就成為一個里程碑，以至於研究人員現在將其簡稱為 DDPM。根據一項影像品質基準——將生成影像的分佈與訓練影像的分佈進行比較—這些模型匹配或超過了所有競爭生成模型，包括 GAN。沒多久，大公司就注意到了這一點。現在，DALL·E 2、Stable Diffusion、Imagen 和其他商業模型都使用了 DDPM 的一些變體。

Jonathan Ho 和他的同事結合了Sohl-Dickstein 和Song 的方法，使現代擴散模型成為可能，例如DALL· E 2。

現代擴散模型還有一個關鍵要素：大型語言模型 (LLM)，例如 GPT-3。這些是基於互聯網文字訓練的生成模型，用於學習單字而不是圖像的機率分佈。 2021 年，Ho（現在是一家隱形公司的研究科學家）和他在Google Research 的同事Tim Salimans 以及其他地方的其他團隊展示瞭如何將來自LLM 和圖像生成擴散模型的信息結合起來使用文本（例如， “金魚在海灘上啜飲可口可樂」）來指導擴散過程，從而引導圖像生成。這種「引導擴散」過程是文字到圖像模型成功的背後原因，例如 DALL·E 2。

「它們遠遠超出了我最瘋狂的期望，」Ho 說。「我不會假裝我看到了這一切。」

產生問題

儘管這些模型非常成功，DALL·E 2 及其同類產品的圖像仍遠非完美。大型語言模型可以在它們生成的文本中反映文化和社會偏見，例如種族主義和性別歧視。那是因為他們接受了從網路上摘錄的文本的訓練，而這些文本通常包含種族主義和性別歧視的語言。在此類文本上學習機率分佈的 LLM 充滿了相同的偏見。擴散模型也在從互聯網上獲取的未經整理的圖像上進行訓練，這些圖像可能包含類似的有偏見的數據。難怪將法學碩士與當今的傳播模型相結合有時會產生反映社會弊病的圖像。

Anandkumar 有親身經歷。當她嘗試使用基於擴散模型的應用程式生成自己的風格化頭像時，她感到震驚。「這麼多 [許多] 圖像都被高度性感化了，」她說，「而它呈現給男性的東西卻並非如此。」她並不孤單。

可以透過整理和過濾資料（考慮到資料集的龐大性，這是一項極其困難的任務）或透過檢查這些模型的輸入提示和輸出來減少這些偏差。「當然，沒有什麼能取代仔細和廣泛的安全測試」一個模型，Ho 說。「這對該領域來說是一個重要的挑戰。」

儘管存在這些顧慮，Anandkumar 仍然相信生成建模的力量。「我真的很喜歡 Richard Feynman 的名言：[我無法創造的東西，我不理解，] 」她說。加深的理解使她的團隊能夠開發生成模型，例如，產生用於預測任務的代表性不足的類別的合成訓練數據，例如用於面部識別的較深膚色，有助於提高公平性。生成模型還可以讓我們深入了解我們的大腦如何處理嘈雜的輸入，或者它們如何喚起心理意象並考慮未來的行動。建構更複雜的模型可以賦予人工智慧類似的能力。

Anandkumar 說：「我認為，我們才剛開始探索生成式人工智慧的可能性。」

以上是啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7859

Java教學

1649

CakePHP 教程

1403

Laravel 教程

1300

PHP教程

1242

Related knowledge

位元組跳動剪映推出 SVIP 超級會員：連續包年 499 元，提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息，剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體，依託於抖音平台且基本面向該平台用戶製作短影片內容，並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級，推出全新SVIP，包含多種AI黑科技，例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面，剪映SVIP月費79元，年費599元（本站註：折合每月49.9元），連續包月則為59元每月，連續包年為499元每年（折合每月41.6元）。此外，剪映官方也表示，為提升用戶體驗，向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強AI編碼助手 Jun 10, 2024 am 11:08 AM

透過將檢索增強生成和語意記憶納入AI編碼助手，提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG，作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助，但由於依賴對軟體語言和編寫軟體最常見模式的整體理解，因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題，但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議，以便將程式碼接受到應

七個很酷的GenAI & LLM技術性面試問題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內容，請造訪：51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫，這些問題需要跳脫常規思維。大語言模型（LLM）在數據科學、生成式人工智慧（GenAI）和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能，並在許多產業中推動了效率和創新性的提升，成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛，它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據，LLM能夠產生文本

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語言模型（LLM）是在龐大的文字資料庫上訓練的，在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中，然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時，模型實際上停止學習。對模型進行對齊或進行指令調優，讓模型學習如何充分利用這些知識，以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的，儘管模型可以透過RAG存取外部內容，但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的，模型會遇到額外的實際知識並將其整合

你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支，它賦予電腦從數據中學習的能力，並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用，從影像辨識和自然語言處理到推薦系統和詐欺偵測，它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論，其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學（Symbolism），又稱符號主義，強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程，透過現有的

為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答（QA）資料集在推動自然語言處理（NLP）研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型，也可以有效評估大語言模型（LLM）的能力，尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集，涵蓋了醫學、化學、生物等領域，但這些數據集仍有一些不足之處。其一，資料形式較為單一，大多數為多項選擇題（multiple-choicequestions），它們易於進行評估，但限制了模型的答案選擇範圍，無法充分測試模型的科學問題解答能力。相比之下，開放式問答

SOTA性能，廈大多模態蛋白質-配體親和力預測AI方法，首次結合分子表面訊息 Jul 17, 2024 pm 06:37 PM

編輯|KX在藥物研發領域，準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而，目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此，來自廈門大學的研究人員提出了一種新穎的多模態特徵提取（MFE）框架，該框架首次結合了蛋白質表面、3D結構和序列的信息，並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明，該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外，消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

SK 海力士 8 月 6 日將展示 AI 相關新品：12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息，SK海力士今天（8月1日）發布博文，宣布將出席8月6日至8日，在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024，展示諸多新一代產品。未來記憶體和儲存高峰會（FutureMemoryandStorage）簡介前身是主要面向NAND供應商的快閃記憶體高峰會（FlashMemorySummit），在人工智慧技術日益受到關注的背景下，今年重新命名為未來記憶體和儲存高峰會（FutureMemoryandStorage），以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在

See all articles

啟發現代人工智慧藝術的物理原理，探索生成式人工智慧的可能性才剛開始

高機率

興奮的斑點

展望未來

產生問題

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題