生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs
為任務選擇正確的GenAI模型需要了解每個模型使用的技術及其特定能力,以下請了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。
以前,大多數人工智慧模型都專注於更好地處理、分析和解釋資料。直到最近,在所謂的生成神經網路模型方面的突破帶來了一系列用於創建各種內容的新工具,從照片和繪畫到詩歌、程式碼、電影劇本和電影。
頂級 AI 生成模型概述
#在2010年代中期,研究人員發現了產生人工智慧模型的新前景。當時,他們開發了變分自編碼器(VAEs)、生成對抗網路(GAN)和擴散模型(Diffusion)。 2017年問世的轉換器(Transformers)是一種突破性的神經網絡,能夠大規模分析大型資料集,以自動創建大型語言模型(LLM)。到了2020年,研究人員引入了神經輻射場(NeRF)技術,這種技術可以從三維圖像生成二維內容
這些生成模型的快速發展是一項正在進行的工作,因為研究人員的調整通常會帶來巨大的進步,並且顯著的進展並沒有減緩。懷特教授在加州大學柏克萊分校表示:「模型架構不斷變化,將繼續開發新的模型架構。」
每個模型都有其特殊的能力,目前,擴散模型(Diffusion)在影像和視訊合成領域表現異常出色,轉換器模型(Transformers)在文字領域表現良好,GAN 擅長以合理的合成樣本擴充小資料集。但是選擇最佳模型始終取決於特定的用例。
所有的模型都不相同,人工智慧研究人員和ML(機器學習)工程師必須為適當的用例和所需的性能選擇合適的一個,並考慮模型在計算、記憶體和資本方面可能的限制。
特別是轉換器模型對產生模型的最新進展和激動產生了推動作用。 UST數位轉型顧問公司的首席人工智慧架構師Adnan Masood表示:「人工智慧模型的最新突破來自於對大量資料進行預先訓練,並使用自我監督學習來訓練沒有明確標籤的模型。」
例如,OpenAI的生成式預訓練轉換器系列模型是該類別中最大、最強大的模型之一。其中,GPT-3模型就包含了175億個參數
頂級生成式AI 模型的主要應用
Masood解釋說,頂級生成AI模型使用各種不同的技術和方法來產生全新的數據。這些模型的主要功能和用途包括:
- VAE使用編碼器-解碼器架構來產生新數據,通常用於圖像和視訊生成,例如生成用於隱私保護的合成人臉。
- GAN 使用生成器和鑑別器來產生新數據,通常用於視訊遊戲開發中以創建逼真的遊戲角色。
- Diffusion添加然後消除雜訊以產生具有高細節水平的高品質影像,從而創建近乎逼真的自然場景影像。
- Transformer可以有效地並行處理順序數據,以進行機器翻譯、文字摘要和圖像建立。
- NeRF提供了一種使用神經表示的3D場景重建的新方法。
下面讓我們更詳細地介紹每種方法。
VAE
VAE是在2014年開發的,其目的是利用神經網路更有效地對資料進行編碼
Sisense的AI負責人Yael Lev表示,人工智慧分析平台VAE學會了更有效地表達訊息。 VAE由兩部分組成:一個編碼器(encoder)將資料壓縮,另一個解碼器(decoder)將資料恢復到原始形式。它們非常適合從較小的信息中生成新的實例,修復嘈雜的圖像或數據,檢測數據中的異常內容並填充缺失的信息
然而,根據UST的Masood所說,變分自編碼器(VAE)也傾向於產生模糊或低品質的影像。另外一個問題是,用於捕獲資料結構的低維潛在空間錯綜複雜且具有挑戰性。這些缺點可能會限制VAE在需要高品質影像或對潛在空間有清晰理解的應用中的有效性。 VAE的下一次迭代可能會專注於提高生成資料的品質、加快訓練速度並探索其在序列資料方面的適用性
##GANs
GANs是在2014年開發出來的,它被用來產生逼真的臉部和印刷數字。 GAN將產生真實內容的神經網路與偵測虛假內容的神經網路對立起來。普華永道全球人工智慧負責人Anand Rao表示:「逐步地,這兩個網路融合在一起,產生了與原始資料無法區分的生成影像。」
GAN通常用於影像生成、影像編輯、超解析度、資料增強、風格傳輸、音樂生成和深度偽造創建。 GAN的一個問題是,它們可能會遭受模式崩潰,其中生成器產生有限和重複的輸出,使它們難以訓練。 Masood說,下一代GAN將專注於提高訓練過程的穩定性和融合性,將其適用性擴展到其他領域,並開發更有效的評估指標。 GAN也很難優化和穩定,並且對生成的樣本沒有明確的控制。
Diffusion
#擴散模型由史丹佛大學的一組研究人員於2015年開發,用於模擬和反轉熵和雜訊。擴散技術提供了一種模擬現象的方法,例如鹽等物質如何擴散到液體中,然後逆轉它,此相同模型還有助於從空白圖像生成新內容。
擴散模型是當前影像生成的首選,它們是流行的影像生成服務的基本模型,例如Dall-E 2,Stable Diffusion,Midjourney和Imagen。它們也用於管道中生成語音、視訊和 3D 內容。此外,擴散技術還可用於資料插補,其中預測和產生缺失資料
許多應用將擴散模型與LLM配對,用於文字到圖像或文字到視訊生成。例如,Stable Diffusion 2 使用對比語言-影像預訓練模型作為文字編碼器,它還添加了用於深度和升級的模型。
Masood預測,對穩定擴散等模型的進一步改進可能側重於改進負面提示,增強以特定藝術家風格生成圖像的能力,並改善名人圖像。
Transformers
轉換器模型是由Google Brain的團隊在2017年開發的,旨在改善語言翻譯。這些模型非常適合以不同的順序處理訊息,並且能夠並行處理數據,同時還能利用未標記的數據來擴展到大型模型
重寫後的內容:這些技術可應用於文字摘要、聊天機器人、推薦引擎、語言翻譯、知識庫、個人化推薦(透過偏好模型)、情緒分析和命名實體識別,用於識別人物、地點和事物。此外,它們還可以用於語音識別,如OpenAI的耳語技術,以及視訊和圖像中的物件偵測、圖像字幕、文字分類和對話生成等領域
儘管Transformers具有多功能性,但它們確實存在局限性。它們的訓練成本可能很高,並且需要大型資料集。由此產生的模型也相當大,這使得識別偏差或不準確結果的來源變得具有挑戰性。馬蘇德說:「它們的複雜性也使得解釋其內部運作變得困難,阻礙了它們的可解釋性和透明度。
##Transformer模型架構
NeRF 於2020 年開發,用於將光場的3D 表示捕獲到神經網路中,第一次實施非常緩慢,需要幾天時間才能捕捉第一個3D影像。
# 然而,在2022年,英偉達公司的研究人員發現了一種在大約30秒內產生新模型的方法。這些模型可以以幾兆位元組為單位表示3D對象,並具有相當的質量,而其他技術可能需要佔用千兆位元組。這些模型有望為捕捉和生成元宇宙中的3D物件帶來更有效的技術。英偉達的研究總監亞歷山大·凱勒(Alexander Keller)表示,NeRFs對於3D圖形的重要性最終可能與數位相機對現代攝影的重要性一樣重要 Masood表示,NeRF在機器人、城市測繪、自主導航和虛擬實境應用方面顯示出巨大的潛力。然而,NERF的運算成本仍然很高,將多個NERF組合成更大的場景也具有挑戰性,而今天NeRF唯一可行的用例是將影像轉換為3D物件或場景。儘管有這些限制,Masood預測NeRF將在基本影像處理任務中找到新的角色,例如去噪,去模糊,上取樣,壓縮和影像編輯 重要的是要注意,這些模型正在進行中,研究人員正在尋求改進單一模型以及將它們與其他模型和處理技術結合的方法。 Lev預測,生成模型將變得更加通用,應用程式將擴展到傳統領域之外,用戶還可以更有效地指導AI模型,並了解它們如何更好地工作。 在多模態模型上也有工作正在進行中,這些模型使用檢索方法來呼叫針對特定任務最佳化的模型庫。他還希望生成模型能夠開發其他功能,例如進行API調用和使用外部工具,例如,根據公司的呼叫中心知識微調的LLM將提供問題的答案並執行故障排除,例如重置客戶調製解調器或在問題解決時發送電子郵件。 實際上,未來可能會有更有效率的東西取代今天流行的模型架構。懷特表示:「當新架構出現時,Diffusion和Transformer模型可能不再有用。」我們從Diffusion的引入中看到了這一點,因為它們對自然語言應用的方法並不利於長短期記憶演算法和遞歸神經網絡(RNN) 有人預測,生成AI生態系統將演變為三層模型。基礎層是一系列基於文字、圖像、語音和程式碼的基礎模型,這些模型會攝取大量數據,並基於大型深度學習模型構建,同時結合了人類的判斷。接下來,特定於行業和功能的領域模型將改善醫療保健、法律或其他類型的資料處理。在頂層,公司將使用專有數據和主題專業知識來建立專有模型。這三個層將顛覆團隊發展模式的方式,並迎來模式即服務的新時代 根據Sisense的Lev的說法,在模型之間進行選擇時的首要考慮因素包括以下內容: 您要解決的問題。 選擇已知適用於您的特定任務的模型。例如,將轉換器用於語言任務,將 NeRF 用於 3D 場景。 資料的數量和品質。 Diffusion需要大量良好的數據才能正常工作,而VAE則在數據較少的情況下工作得更好。 結果的品質。 GAN 更適合清晰和詳細的影像,而 VAE 更適合更平滑的結果。 訓練模型的難易度。 GAN可能很難訓練,而VAE和Diffusion更容易。 計算資源需求。 NeRF和Diffusion都需要大量的電腦能力才能正常運作。 需要控制和理解。 如果您想更好地控制結果或更好地了解模型的工作原理,VAE 可能比 GAN 更好。 GenAI生態系統進行時
##如何選擇生成式 AI 模式:首要注意事項
以上是生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在
