Meta讓150億參數語言模型學會從頭設計「全新」蛋白質! LeCun:效果驚人
AI在生物醫學領域再次獲得新進展。沒錯,這次還跟蛋白質有關。
不同的是,過去的AI是發現蛋白質結構,這回開始自己設計和產生蛋白質結構了。如果說過去是「檢察官」,現在說進化成了「造物主」也不是不行。
參與本研究的是Meta的AI研究機構包含FAIR的蛋白質研究團隊。身為在Facebook任職多年的首席AI科學家,Yann LeCun也是第一時間轉發了這個自家團隊的成果,並給予高度評價。
BioRxiv上的這兩篇論文是Meta在蛋白質設計/生成方面的「驚人」的成果。該系統使用模擬退火演算法來尋找一個胺基酸序列,該序列的折疊方式符合所需的形狀或滿足約束條件(如對稱性)。
ESM2,原子層級結構預測的模型
你猜的沒錯,這項研究和這兩篇論文的基礎,正是不久前由Meta提出的蛋白質預測與發現的大語言模型:ESM2。
這是一個150億參數的大模型。隨著模型從800萬個參數擴展到1500萬個參數,內部表徵中出現的資訊能夠在原子分辨率下進行三維結構預測。
利用大型語言模型來學習演化模式,可以直接從蛋白質序列中端到端地產生準確的結構預測,在保持準確度的同時,預測速度比目前最先進的方法快60倍。
事實上,借助於這種新的結構預測能力,Meta在短短兩週內用一個由大約2000個GPU組成的集群上,預測了圖譜中超過6億個宏基因組蛋白質的序列。
兩篇論文的通訊作者,來自Meta AI的Alex Rives表示,ESM2語言模型展現出的通用性不僅超出了天然蛋白質的範圍,而且也能夠可編程地產生複雜和模組化的蛋白質結構。
蛋白質設計「專用程式語言」
#工欲善其事,必先利其器。
為了讓蛋白質設計和生成更有效率,研究人員在先前成果(主要是ESM2)的基礎上,也專門開發了一種面向蛋白質設計的高階程式語言。
論文網址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1
#該研究的主要負責人之一,論文“A high-level programming language for generative protein design”的通訊作者Alex Rives在社交媒體上表示,這個成果,使得對具有復雜和模組化結構的大型蛋白質和複合物的生成進行編程成為可能。
論文作者之一、史丹佛大學的研究人員Brian Hie在推特上也對這篇文章的主要研究想法和成果做了自己的解釋。
總體上講,這篇文章描述了生成式機器學習如何實現由用於蛋白質設計的高級程式語言控制的複雜蛋白質的模組化設計。
#他表示,這篇文章的主要想法不是使用序列或結構的構建塊,而是將模組化置於更高的抽象級別,並讓黑盒優化產生特定設計。優化的每一步預測原子級結構。
與先前的蛋白質設計方法相比,這種新思路產生的方法可以讓設計者指定任意的、不可微的約束,範圍從指定原子級座標到蛋白質的抽象設計方案,例如對稱設計。
對於可程式性來說,約束條件是模組化的,這一點很重要。例如下圖就是將相同約束分層應用於兩個層次的對稱性程式的情況。
這些限制也很容易重新組合。例如,可以把原子座標的約束和對稱性的約束結合起來。或者可以將不同形式的兩級對稱性結合起來,為一個不對稱的複合結構體編程。
Brian Hie認為,這項成果是朝著更可控、更有規律、更有表現力的蛋白質設計邁出的一步。他也感謝了來自Meta AI和其他合作者的共同努力。
讓蛋白質設計「就像蓋大樓」
#在論文中,研究人員認為,蛋白質設計將受益於一套基本的抽象概念所提供的規律性、簡單性和可程式性,就像那些用於建築、機器、電路和電腦軟體工程的抽象概念一樣。
但與這些人工創造物不同的是,蛋白質不能被分解成容易重組的部分,因為序列的局部結構與它的整體環境糾纏在一起。經典的從頭開始的蛋白質設計試圖確定一套基本的結構構件,然後將其組裝成高階結構。
同樣,傳統的蛋白質工程通常將天然蛋白質序列的片段或結構域重組為混合嵌合體。然而,現有的方法還不能實現真正可程式化所需的高組合複雜性。
本文展示了現代生成模型在新的組合複雜度層級上實現了模組化和可程式化的經典目標。把模組化和可編程性放在一個更高的抽象層次上,在這個層次上,生成式模型彌補了人類直覺和特定序列和結構的產生之間的差距。
在這種情況下,蛋白質設計者只需要重新組合高層次的指令,而獲得滿足這些指令的蛋白質的任務則放在生成模型上。
研究人員提出了一種用於生成性蛋白質設計的程式語言,允許設計者指定直觀的、模組化的和分層次的程式。高層次的程式可以透過生成模型轉化為低層次的序列和結構。這套方法利用了蛋白質語言模型的進展,可以學習結構資訊和蛋白質的設計原則。
在這項研究中的具體實作是基於一個基於能量的生成模型,如上圖所示。
#首先,一個蛋白質設計者指定了一個由一組分層組織的約束條件組成的高階程式(圖A)。
然後,這個程式編譯成一個能量函數,評估與約束條件的兼容性,這些約束條件可以是任意的和不可區分的(圖B )。
透過將原子級結構預測(由語言模型啟用)納入能量函數來應用結構上的限制。這種方法能夠產生廣泛的複雜設計(圖C)。
從無到有生成蛋白質序列
在論文「Language models generalize beyond natural proteins」中,來自MetaAI團隊的作者Tom Sercu表示,這個工作主要完成了兩項任務。
#論文網址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1
第一項是為給定的主鏈結構設計序列。使用語言模型,可以獲得所有目標的成功設計,成功率達19/20,而沒有語言模型參與的序列設計,成功率只有1/20。
第二個任務是無約束生成。研究團隊提出了一種從語言模型定義的能量景觀中採樣(序列、結構)對的新方法。
透過不同的拓樸結構進行取樣,再次提高實驗的成功率(達71/129或55%) 。
為了證明預測的蛋白質結構超越了天然蛋白質的限制,研究團隊在涵蓋所有已知天然蛋白質的序列資料庫中,對語言模型生成的蛋白質序列進行搜尋。
結果顯示,二者並無匹配關係,自然序列和語言模型產生的預測結構不同。
Sercu表示,可以單獨使用ESM2蛋白質語言模型對蛋白質結構進行設計。研究團隊透過實驗測試了228種蛋白質,成功率為67%!
Sercu認為,僅在序列上訓練的蛋白質語言模型可以學習連接序列和結構的深層模式,並且可以用於從頭設計蛋白質,超越了自然探索的設計空間。
探索蛋白質生成的深層語法
在論文中,Meta的研究人員表示,雖然只對語言模型在序列上訓練,模型仍能設計蛋白質的深層語法結構,突破天然蛋白質的限制。
如果用A圖的方塊表示所有蛋白質序列構成的空間,那麼天然蛋白質序列是灰色部分,覆蓋了其中一小部分。為了超越自然序列進行推廣,語言模型需要存取底層設計模式。
#研究團隊要做的是兩件事:第一,從頭設計蛋白質(de novo)主鏈;第二,根據主鏈,從無到有生成蛋白質序列。
研究團隊使用掩碼語言模型,對ESM2進行訓練,訓練內容包括演化過程中數百萬種不同的天然蛋白質。
語言模型訓練後,可以在模型的內部attention狀態中識別有關蛋白質三級結構的資訊。之後,研究人員透過線性投影,將蛋白質序列中一對位置的attention轉換為殘基間距離的分佈。
研究人員表示,語言模型預測蛋白質結構的能力,指出了構成天然蛋白質序列背後更深層的結構序列,以及存在一個可由模型學習的深層語法的可能性。
結果表明,在演化過程中,大量蛋白質序列所包含的生物結構和功能,揭示了蛋白質的設計構造。這種構造完全可以透過學習蛋白質序列的機器模型得以重現。
語言模型在6項實驗中成功預測的蛋白質結構
跨蛋白質的深層語法的存在,解釋了似乎相互矛盾的兩組發現:對天然蛋白質的理解取決於訓練資料;而語言模型又可以在已知的天然蛋白質家族之外進行預測和探索。
如果蛋白質語言模型的縮放定律繼續有效,可以預料,AI語言模型的生成能力將會持續提升。
研究團隊表示,由於存在蛋白質結構的基礎語法,機器模型將學習更罕見的蛋白質構造,從而擴展模型的預測能力和探索空間。
一年前,DeepMind開源AlphaFold2連登Nature、Science,刷爆生物和AI學界。
一年後,人工智慧預測模型如雨後春筍,頻頻填補蛋白質結構領域的空白。
如果說人類給予人工智慧生命,那麼人工智慧是否是人類補全生命奧秘的最後一塊拼圖呢?
#以上是Meta讓150億參數語言模型學會從頭設計「全新」蛋白質! LeCun:效果驚人的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

FP8和更低的浮點數量化精度,不再是H100的「專利」了!老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官方支援的條件下,硬生在A100上跑起FP6。測試結果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且比後者擁有更高的精度。在此基礎之上,還有端到端的大模型支持,目前已經開源並整合到了DeepSpeed等深度學習推理框架中。這項成果對大模型的加速效果也是立竿見影──在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。一名

為了將大型語言模型(LLM)與人類的價值和意圖對齊,學習人類回饋至關重要,這能確保它們是有用的、誠實的和無害的。在對齊LLM方面,一種有效的方法是根據人類回饋的強化學習(RLHF)。儘管RLHF方法的結果很出色,但其中涉及了一些優化難題。其中涉及訓練一個獎勵模型,然後優化一個策略模型來最大化該獎勵。近段時間已有一些研究者探索了更簡單的離線演算法,其中之一就是直接偏好優化(DPO)。 DPO是透過參數化RLHF中的獎勵函數來直接根據偏好資料學習策略模型,這樣就無需顯示式的獎勵模型了。此方法簡單穩定
