OpenAI發布新的一致性模型,GAN速度達到18FPS,能夠即時產生高品質影像。
ChatGPT、Midjourney的火爆,讓其背後技術擴散模型成為「生成式AI」革命的基礎。
甚至,還受到業內研究者極力追捧,其風頭遠遠蓋過曾經逆襲天下的GAN。
就在擴散模型最能打的時候,竟有網友突然高調宣布:
Diffusion models時代終結! Consistency models加冕為王!
這究竟是怎麼回事? ? ?
原來,OpenAI曾在3月發布了一篇重磅、且含金量十足的論文「Consistency Models」,並在今天在GitHub上公開了模型權重。
論文網址:https://arxiv.org/abs/2303.01469
#專案網址:https://github.com/openai/consistency_models
「一致性模型」在訓練速度上顛覆了擴散模型,能夠‘一步生成’,比擴散模型更快一個數量級完成簡單任務,而且用到的計算量還要少10-2000倍。
那麼,這到底有多快呢?
有網友表示,相當於在大約3.5秒內產生64張解析度為256x256的影像,也就是每秒18張!
而且,最新模型最主要優勢之一,就是不需要「對抗訓練」就能實現高品質樣本。
這篇研究由圖靈三巨頭之一Hinton學生,AlexNet的主要推動者Ilya Sutskever親筆撰寫,還有研發DALL-E 2的華人學者Mark Chen、Prafulla Dhariwal,研究內容有多硬派可想而知。
甚至還有網友稱,「一致性模型」才是未來的研究方向,相信我們未來一定會嘲笑擴散模型。
所以,擴散模型也要不存在了?
更快,更強,無需對抗
目前,這篇論文還是未定稿版本,研究還在繼續。
2021年,OpenAI執行長Sam Altman曾撰寫了一篇博客,討論摩爾定律應該如何應用於所有領域。
Altman前段時間又在推特上公開談到了人工智慧正在實現「蛙跳」。他表示,「新版摩爾定律可能很快就會出現,宇宙中的智慧數量每18個月翻一番。」
對於其他人來說,Altman的樂觀可能看起來毫無根據。
但OpenAI的首席科學家Ilya Sutskever帶領團隊做出的最新研究,恰恰為Altman的主張提供了強有力的支撐。
都說2022年是AIGC元年,是因為許多模型的泉湧背後都是基於擴散模型。
擴散模型的大紅大紫逐漸取代了GAN,並成為當前業界最有效的影像生成模型,就例如DALL.E 2、GoogleImagen都是擴散模型。
然而,最新提出的「一致性模型」已被證明可以在更短的時間內,輸出與擴散模型相同品質的內容。
這是因為,這種「一致性模型」採用了類似GAN的單步驟產生的過程。
相較之下,擴散模型採用了一種反覆取樣的過程,逐步消除影像中的雜訊。
這種方法雖然令人印象深刻,但需要依賴執行一百到數千步驟的步驟才能取得良好的結果,不僅操作成本高,而且速度慢。
擴散模型的持續迭代生成過程,比「一致性模型」消耗的計算量要多10-2000倍,甚至減慢了訓練過程中的推理速度。
「一致性模型」強大之處在於,必要時能夠在樣本品質和計算資源兩者間進行權衡。
此外,這個模型還能夠執行零樣本的資料編輯任務,例如影像修補,著色或筆觸引導的影像編輯。
使用在LSUN Bedroom 256^256上透過蒸餾訓練的一致性模型進行零樣本影像編輯
「一致性模型」還能在使用數學方程式時將資料轉換成噪聲,並確保結果輸出對於相似資料點是一致的,從而實現它們之間的平滑過渡。
這類方程式稱為「機率流常微分方程」(Probability Flow ODE)。
這項研究將這類模型命名為“一致性”,因為它們在輸入資料和輸出資料之間保持了這種自洽性。
這些模型既可以在蒸餾模式(distillation mode)下訓練,也可以在分離模式(isolation mode)下訓練。
在蒸餾模式中,模型能夠從預先訓練的擴散模型中提取數據,使其能夠在單一步驟中執行。
在分離模式下,模型完全不依賴擴散模型,從而使其成為完全獨立的模型。
值得注意的是,這兩種訓練方法都會將「對抗訓練」從中刪除。
不得不承認,對抗訓練確實會產生更強大的神經網絡,但其過程是較為迂迴。即它引入一組被錯誤分類的對抗性樣本,然後用正確的標籤重新訓練目標神經網路。
因此,對抗訓練這種方式也會導致深度學習模型預測的準確性略有下降,甚至它可能在機器人應用中帶來意想不到的副作用。
實驗結果表明,用於訓練「一致性模型」的蒸餾技術優於用於擴散模型的。
「一致性模型」在 CIFAR10影像集和 ImageNet 64x64資料集上,分別獲得了3.55和6.20的最新和最先進的FID分數。
這簡直就是實作了,擴散模型的質量GAN的速度,雙重完美。
2月份,Sutskever曾發布了一則推文暗示,
許多人認為偉大的AI進步必須包含一個新的「想法」。但事實並非如此:許多AI的最偉大進步都是以這樣的形式出現的,嗯,原來這個熟悉的不起眼的想法,如果做得好,會變得令人難以置信。
最新研究正好證明了這一點,基於舊概念的微調可以改變一切。
作者介紹
身為OpenAI的共同創辦人兼首席科學家,Ilya Sutskever無須贅述,看看這張「頂級扛把子」大合照就夠了。
(圖片最右)
# Yang Song(宋颮)
論文一作宋颯,是OpenAI的研究科學家。
此前,他在清華大學獲得數學和物理學學士學位,並在史丹佛大學獲得了電腦科學碩士和博士學位。此外,他也曾在Google大腦、Uber ATG和微軟研究院做過實習。
作為機器學習的研究人員,他專注於開發可擴展的方法來建模、分析和產生複雜的高維度資料。他的興趣橫跨多個領域,包括生成建模、表徵學習、機率推理、人工智慧安全和AI for science。
Mark Chen
#Mark Chen是OpenAI多模態和前沿研究部門的負責人,同時也是美國電腦奧林匹克隊的教練。
此前,他在麻省理工學院獲得了數學與電腦科學學士學位,並曾在幾家自營交易公司(包括Jane Street Capital)擔任量化交易員。
加入OpenAI後,他帶領團隊開發了DALL-E 2,並將視覺引入GPT-4。此外,他還領導了Codex的開發,參與了GPT-3項目,並創建了Image GPT。
Prafulla Dhariwal
Prafulla Dhariwal是OpenAI的研究科學家,從事生成模型和無監督學習。在此之前,他是麻省理工學院的本科生,學習電腦、數學和物理學。
有趣的是,擴散模型可以在影像生成領域吊打GAN,正是他在2021年的NeurIPS論文中提出的。
網友:終於做了回Open AI
OpenAI今天開放了一致性模型原始碼。
終於做回了Open AI。
面對每天太多瘋狂突破和宣告。網友發問:我們是稍作休息,還是加速前進?
與擴散模型相比,這將大大節省研究人員訓練模型的節省成本。
還有網友給了「一致性模型」的未來用例:即時編輯、NeRF渲染、即時遊戲渲染。
目前倒是沒有demo演示,但值得確定的能夠實現圖像生成的速度大幅提升總是贏家。
我們直接從撥號升級到寬頻了。
腦機接口,外加幾乎是即時產生的超逼真影像。
以上是OpenAI發布新的一致性模型,GAN速度達到18FPS,能夠即時產生高品質影像。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

如何實現鼠標滾動事件穿透效果?在我們瀏覽網頁時,經常會遇到一些特別的交互設計。比如在deepseek官網上,�...
