李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜
人工智慧的爆炸正在扭曲我們的時間感。
你能相信Stable Diffusion只有4個月大,而ChatGPT的出現還不到一個月嗎?
打個形象的比喻,只要眨一下眼,你就會錯過一個全新的產業。
2022年的AI領域,大規模的生成模型像雨後春筍一樣地冒出,改變了整個AI界的格局。
而且,這些模型正快速走出實驗室,在現實中被應用。
例如,LLM技術啟發了兩個新興的領域-決策代理(遊戲、機器人等等)和 AI4Science。
李飛飛高徒Jim Fan為我們總結了2022年的十大AI高光時刻。讓我們把時間倒轉,看看2022年有哪些令人驚嘆的AI突破。
一、文字-圖像生成
#DALLE-2是第一個可以從任何標題產生逼真的高解析度影像的大規模擴散模型。
它啟動了AI的藝術革命,催生了許多新的應用程式、新創公司和思維方式。
但 DALLE-2被保護在OpenAI的圍牆後面,並沒有開源。
在OpenAI之後,LMU的StabilityAI和runwayml邁出了英勇的一步,基於「潛在擴散」演算法訓練了他們自己的互聯網規模的text2image模型。他們稱該模型為「穩定擴散」,並開源了程式碼和權值(weighs)。
事實證明,Stable Diffusion的開放性,讓它為遊戲帶來了巨大變化。
現在,許多新創公司和研究實驗室都在Stable Diffusion的基礎上創建新的應用程序,Stable Diffusion本身也被開源社群不斷改進。
最近,Stable Diffusion已經達到了v2.1版本,可以在單一GPU上運行了。
另外,今年還有兩個來自GoogleAI的image2text模型。 GoogleAI既沒有發布模型也沒有發布API,但從論文中,我們仍然可以看到不少有趣的見解。
Imagen
https://imagen.research.google
Parti
https://parti.research.google。它是一個沒有diffusion的Transformer模型。
二、文字-文字生成
#大家都知道,我說的是ChatGPT!
這是歷史上唯一一個在5天內就獲得了100萬用戶的應用程式。
ChatGPT也大大啟發了我們人類的創造力。
在這個清單中,可以看到所有有用的、有想像的關於ChatGPT想法:https://github.com/f/awesome-chat
ChatGPT和GPT-3.5都使用了一種稱為RLHF(「從人類回饋強化學習」)的新技術。
這也意味著,提示工程或許很快就會消失了。
ChatGPT的流行,已經催生了一波新的新創公司和競爭者,像是Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。
這些競爭者提供瞭如此直觀的搜索方式,連谷歌的高管們都開始出汗了!
三、文本- 機器人模型
如何提供GPT手臂和腿,讓它們能打掃你混亂的廚房?
與NLP不同,機器人模型需要與物理世界互動。
在今年,大的預訓練Transformer終於開始解決機器人領域最困難的問題了!
VIMA
10月,我和同事創建了一個「機器人GPT 」——名為VIMA的tranformer。
它可以接收任何混合的文字、圖像和視訊作為prompt,並輸出機器手臂的控制。
我們的模型被稱為VIMA(“VisuoMotor Attention”),已經完全開源了。
現在,單一智能體已經能夠解決視覺目標、影片的一次性模仿、新概念基礎、視覺限制等,具有了模型容量和資料的強大擴展性。
RT-1
沿著與VIMA類似的路徑,來自GoogleAI的研究人員發布了RT-1,這是一種在700項任務和130K的人類演示上訓練的機器人transformer。
這些數據是由13個機器人在17個月內收集的,是字面上的鋼鐵部隊!
四、文字- 視訊
本質上說,影片就是隨著時間的推移捆綁在一起的一系列圖像,給我們創造了運動的錯覺。
如果我們可以做text2image,那為什麼不在裡面加上時間軸,來獲得額外的樂趣呢?
目前,文字 - 視訊領域有3個重大的工作,但沒有一個是開源的。
Make-A-Video
首先是Meta AI的Make-A-Video:不需要成對的文本-視頻數據,就可以得到文本-視頻的生成。
您可以在此處註冊試用訪問權限:https://makeavevideo.studio
#論文連結:https://arxiv.org/abs /2209.14792
Imagen Video
Google AI的Imagen Video:它能使用擴散模型生成高清視頻,基於Imagen靜態圖像生成器。
示範:http://imagen.research.google/video/
#論文連結:https://arxiv.org/abs/2210.02303
Phenaki
來自GoogleAI的Phenaki: 從開放領域的文字描述中產生可變長度的影片。
示範:https://phenaki.video
論文連結:https://arxiv.org/abs/2210.02399
五、文字-3D建模
從設計創新產品到在電影和遊戲中創造奇妙的視覺效果,3D建模正成為文字-X生成模型的下一片藍海。
令人驚訝的是,2022年出現了許多卓有前途的3D生成模型。在此,Fan列舉了3個模型。
DreamFusion
首先登場的,是Google AI研究團隊與UC Berkeley共同開發的DreamFusion。
論文連結:https://arxiv.org/pdf/2209.14988.pdf
此模型使用二維文字到圖像的擴散模型來執行文本到三維的合成。
基於NeRF演算法,DreamFusion可以透過給定文字產生3D模型。
該模型可以從任何角度查看,在任意照明下可以重新點亮,還可以合成到任何三維環境當中。
Magic3D
第二個成果,是英偉達AI團隊的兩個項目,名為GET3D和Magic3D。
GET3D論文連結:https://nv-tlabs.github.io/GET3D/assets/paper.pdf
Magic3D論文連結:https://arxiv.org/pdf/2211.10440.pdf
GET3D僅使用二維影像進行訓練,可產生具有高保真紋理和複雜幾何細節的三維圖形。
此模型可讓使用者立即將其形體匯入3D渲染器和遊戲引擎,以便進行後續編輯。
Magic3D與DreamFusion類似,使用文字到圖像模型產生2D圖像,然後優化為體積NeRF(神經輻射場)數據,將低解析度生成的粗略模型優化為高解析度的精細模型。
根據英偉達AI團隊,由此產生的Magic3D方法,可以比DreamFusion更快地產生3D目標。
Point-E
繼年初推出的DALL-E 2用天才畫筆驚艷所有人之後,週二OpenAI發布了最新的圖像生成模型“POINT-E” ,它可透過文字直接產生3D模型。
論文連結:https://arxiv.org/pdf/2212.08751.pdf
相比競爭對手們(如Google的DreamFusion)需要幾個GPU工作數小時,POINT-E只需單一GPU便可在幾分鐘內產生3D影像。
根據測試,Prompt輸入後POINT-E基本上可以秒出3D影像,此外輸出影像也支援自訂編輯、儲存等功能。
六、會玩《我的世界》的AI
《我的世界》是一款測試AI通用智能的絕佳遊戲。首先,它是一款無限開放的沙盒遊戲,極度體現玩家的創造力。
其次,遊戲有1.4億的玩家群體,是英國總人口的兩倍。使用者基礎如此龐大,供AI學習的遊戲資料可謂源源不絕。
那麼,AI能否和人類一樣盡情揮灑想像力呢?
Jim Fan和同事合作開發了第一個玩《我的世界》的AI“MineDojo”,它可以在自然語言提示下解決許多任務。
論文連結:https://arxiv.org/pdf/2206.08853.pdf
Fan的最終目標是建立一個「具身的ChatGPT」 。目前,MineDojo平台已經完全開源。
同時,Jeff Clune的團隊宣布了一個名為視訊預訓練(VPT)的模型,該模型可以直接輸出鍵盤和滑鼠的動作。
論文連結:https://arxiv.org/pdf/2206.11795.pdf
VPT擁有更廣闊的視野,但不受語言條件的限制。在這點上,MineDojo和VPT恰好相輔相成。
七、AI外交官
Meta AI推出的CICERO是第一個在《外交》遊戲中實現人類水平表現的人工智慧智能體。
論文連結:https://www.science.org/doi/10.1126/science.ade9097
《外交》是一款七人制經典策略遊戲,可以說是棋盤遊戲Risk、紙牌遊戲撲克和電視節目Survivor的結合。該遊戲需要廣泛的自然語言協商才能與人類合作和競爭。
然而,CICERO的出現表明,人工智慧現在已經有說服他人和虛張聲勢的能力。
目前,DeepMind也宣布開發自己的外交官AI智能體。那麼,如果CICERO使用這個AI模型,又會發生什麼事呢?
八、音訊-文字模型
Whisper是OpenAI發布的一個大型開源語音辨識模型,在英語語音辨識方面有接近人類層次的穩健性和準確性。
論文連結:https://arxiv.org/pdf/2212.04356.pdf
Whisper經過了來自網路的680 ,000小時音訊資料的訓練。 Open AI強調,Whisper的語音辨識能力已達到人類水準。
Open AI將Whisper開源,是否是為了解鎖更多文字token,用以訓練萬眾矚目的GPT-4呢?
九、核融合
DeepMind與瑞士洛桑聯邦理工學院(EPFL)共同開發了第一個核融合相關的深度強化學習系統,可以維持核聚變等離子體在託卡馬克內的穩定。
論文連結:https://www.nature.com/articles/s41586-021-04301-9
同樣在本月,美國能源部宣布了一項巨大的突破:人類首次實現了核融合反應的淨能量增益!
這是人類首次實現這一里程碑。這一生,我們或許會成為聚變文明!
十、應用於生物學的Transformer
2021年,AlphaFold開啟了語言模型預測蛋白質3D結構的序幕。
7月,DeepMind宣布了「蛋白質宇宙」-將AlphaFold的蛋白質資料庫擴展到2億個結構!
此外,英偉達AI研究團隊也拓展了BioNeMo大型語言模型的框架,以幫助生技公司和研究人員產生、預測和理解生物分子資料。
影片解說:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
以上便是Jim Fan對2022年十大AI亮點的盤點。當然,Fan也表示,還有無數令人興奮的作品為人工智慧的進步做出了貢獻。
每篇論文都是AI大廈裡的一磚一瓦,所有的努力都應該慶祝。
不過,Fan在最後也強調,隨著人工智慧系統變得越來越強大,我們必須意識到潛在的危險和風險,並採取措施減輕它們。
無論是透過仔細的訓練設計、適當的監督或是全新的保障方法,人工智慧的安全與倫理成為越來越的AI專家所討論的議程。
毫無疑問,2022年是充滿奇蹟的一年,也是令人驚嘆的一年。未來一年又會有什麼震驚世界的突破?我們與你一起關注。
參考資料:
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
以上是李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

如何實現鼠標滾動事件穿透效果?在我們瀏覽網頁時,經常會遇到一些特別的交互設計。比如在deepseek官網上,�...
