Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法
編輯 | 蘿蔔皮
借助深度學習的進步,蛋白質設計和工程正以前所未有的速度發展。然而,目前的模型無法在設計過程中自然地考慮非蛋白質實體。
在這裡,瑞士洛桑聯邦理工學院(EPFL)的研究人員提出了一種完全基於原子坐標和元素名稱的幾何transformer 的深度學習方法,該方法可以根據不同分子環境所施加限制的主鏈支架,預測蛋白質序列。
使用此方法,研究人員可以以高成功率生產高熱穩定性、催化活性的酵素。這有望提高蛋白質設計流程的多功能性,以實現所需的功能。
研究以「Context-aware geometric deep learning for protein sequence design」為題,於 2024 年 7 月 25 日發佈在《Nature Communications》。
設計蛋白質以實現功能性任務是一個具有重大生物學、醫學、生物技術和材料科學影響的挑戰。一個關鍵應用領域是蛋白質治療藥物的設計,透過客製化蛋白質來精確針對特定疾病,可能比小分子藥物更具競爭力。這種方法可能革新許多健康問題的治療方式,從自體免疫疾病到癌症,提供更有效和個人化的治療方案。
此外,設計酵素功能也是蛋白質設計的另一個重要挑戰。酵素作為天然催化劑在生物過程中扮演關鍵角色。透過設計新酶或改造現有酶,可以創造出促進自然界中罕見或不存在反應的催化劑。這對多個行業有深遠影響,包括製藥業和環保技術,例如合成複雜藥物分子或分解污染物和塑膠。
深度學習方法顯著加速了蛋白質設計的成功率和多樣性。然而,雖然目前的蛋白質設計模型可以處理多條蛋白質鏈,但在處理非蛋白質實體時表現較差,限制了其應用範圍。
為解決這個問題,EPFL 的研究團隊曾經引入了一種深度學習模型-Protein Structure Transformer(PeSTo),一種幾何 transformer 架構,作用於原子點雲。
PeSTo 結合了transformer 注意力機制,利用標量和向量狀態表示原子,可以預測幾乎任何分子與蛋白質界面的相互作用,包括蛋白質、核酸、脂類、離子、小配體、輔因子或碳水化合物。
在最新的工作中,該團隊利用該模型的獨特功能,並引入了基於 PeSTo 的蛋白質序列產生器模型 CARBonAra(Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms)。
CARBonAra 基於PDB 中可用的結構資料進行獨特訓練,可預測給定主鏈支架所有位置的氨基酸置信度,這些主鏈支架可以單獨提供,也可以與任何種類和數量的幫助於推動序列設計的分子複合。
CARBonAra 的組成與表現
CARBonAra 使用由幾何transformer 組成的深度學習模型,預測從輸入主幹支架中在蛋白質序列的每個位置找到給定氨基酸的可能性。 CARBonAra 將主鏈原子(Cα、C、N、O)的座標和元素作為輸入,並使用理想的鍵角和鍵長來添加虛擬 Cβ 原子。幾何形狀使用每個原子之間的距離和歸一化相對位移向量來描述。
幾何 transformer 運算對所有相鄰原子的相互作用進行編碼,並使用 transformer 處理標量和向量資訊並更新每個原子的狀態。最後,透過將原子狀態從原子級別匯集到殘基級別,研究人員訓練模型以位置特定評分矩陣的形式預測蛋白質序列每個位置的胺基酸置信度。
實際上,這些置信度可以被解釋為並映射到機率中,透過表徵在給定每種氨基酸類型的預測置信度的情況下正確預測的機率。
與其他模型一樣,CARBonAra 透過使用獨熱編碼將特定胺基酸的先前序列資訊印入主鏈原子來支持自回歸預測。
最重要的是,CARBonAra 繼承了 PeSTo 僅使用元素名稱和原子坐標的能力,無需進行大量參數化,從而可以輕鬆適應各種場景。
因此,CARBonAra 可以解析和處理正在設計的蛋白質主鏈附近的任何分子實體,其中包括其他蛋白質、小分子、核酸、脂質、離子和水分子等一系列輸入。
資料集
利用 CARBonAra 固有的靈活性,研究人員能夠將 RCSB PDB 中的所有生物組裝體納入他們的訓練資料集。
這包括與其他分子實體(如離子、配體、核酸等)複合的蛋白質。訓練資料集由大約 370,000 個亞基組成,驗證資料集中還使用了另外 100,000 個亞基,所有這些亞基均來自 RCSB PDB 生物組裝體,並被註釋為最佳可能。
與先前建立的方法相比,遵循稍微更嚴格的協議,測試資料集由大約70,000 個亞基組成,與沒有共享CATH 域的訓練集不同,並且在低於30% 的序列同一性下進行過濾。
此選擇標準確保了測試的穩健性,因為它排除了訓練資料集中存在的類似折疊和序列。
對於從不含非蛋白質分子的骨架結構中分離蛋白質或蛋白質複合物的序列設計,CARBonAra 的表現與ProteinMPNN 和ESM-IF1 等最先進的序列預測方法相當,且運算成本具有競爭力(在GPU 上比ProteinMPNN 快約3 倍,比ESM-IF1 快10 倍)。
從主鏈結構重建蛋白質序列
此方法在從主鏈結構重建蛋白質序列時,蛋白質單體設計的序列恢復率中位數為51.3% ,二聚體設計的序列恢復率中位數為56.0%。儘管恢復率相似,但三種方法的最佳序列之間的序列同一性中位數為 54% 至 58% 不等。
此外,研究人員觀察到 CARBonAra 可以產生高品質序列,當在單序列模式下使用 AlphaFold 預測時,這些序列可以按預期折疊,TM 分數高於 0.9。
CARBonAra 在蛋白質核心處學習了更緊密的氨基酸包裝,從而導致更高的回收率並反映了對典型的埋藏氨基酸取代的較低耐受性,同時允許蛋白質表面具有更高的可變性,除非提供額外的功能或結構限制。
從主幹支架進行序列預測的方法主要在具有理想主幹幾何形狀的實驗數據上進行訓練,當應用於生成的主幹時會導致性能下降。在訓練過程中為幾何圖形添加雜訊可以緩解此問題。
研究人員透過將 CARBonAra 應用於分子動力學 (MD) 模擬的結構軌跡來表徵該方法的穩健性。由於主鏈構象變化和先前顯示低恢復率的病例增加,序列恢復率(53±10%)與一致預測(54±7%)沒有顯著下降。
同時,研究人員觀察到每個位置預測的可能的氨基酸數量普遍減少,這表明探索構象空間正在限制序列空間,從而使得能夠設計有針對性的結構構象。
具有超越蛋白質設計本身的意義
研究人員在一個主力系統(即TEM-1 絲胺酸β-內醯胺酶)上進行了實驗,展示了CARBonAra 如何處理酶工程的挑戰,設計出在高溫下折疊並保持催化活性的實際蛋白質。此外,研究人員還探索了從 CARBonAra 的輸出中採樣蛋白質序列空間的重點策略。
由於無法確定由得分最高的胺基酸產生的蛋白質序列是否具有功能性,因此需要採用取樣策略來產生可以在體外重組表達且穩定且具有功能的蛋白質。
目前為止,這尚未經過徹底測試。該團隊在此表明,適當的採樣策略不僅可以產生豐富的資訊來產生起作用的蛋白質,而且還可以產生反映在自然序列中觀察到的或透過誘變和選擇實驗採樣的自然變異的合成多序列比對。
這具有超越蛋白質設計本身的意義,特別是為了解蛋白質在生物物理學一致的蛋白質進化模型框架內如何進化打開了一扇窗戶。
從根本上來說,提高計算設計的成功率對於真正掌握這一領域非常重要,更實際的是,可以在實驗室中嘗試實際表達和純化時降低成本。
超高成功率
現在基於人工智慧的方法開始穩定下來,這成為一個重要的討論點。不同的方法和報告顯示的成功率差異很大,但通常不清楚如何評估每種方法。
Chroma 進行了非常保守的評估,將其成功率設定為 3% 左右,而 RoseTTAFold/ProteinMPNN 論文報告稱幾種蛋白質的平均成功率為 15%。
使用該研究報告的 TEM-1 β-內醯胺酶設計,成功率達 40%。同樣,TIM 桶和 NTF2 折疊的成功率也高達 40-55%,遠高於先前的平均 15%。
適合提高蛋白熱穩定性
除了直接應用於設計新蛋白質和調整蛋白質功能之外,CARBonAra 似乎也非常適合提高熱穩定性,就像其他蛋白質設計方法一樣,它們也能產生堅固、高熱穩定性的蛋白質。
這一觀察結果揭示的一個有趣方面與用於穩定製造和工業過程的酶的設計序列的知識產權有關:通常,設計的酶會以覆蓋較小但相當大的序列相似性範圍的方式受到保護。
從歷史上看,這已經足夠全面了;然而,包括 CARBonAra 在內的現代蛋白質設計方法可以設計出相似性低得多的蛋白質,這些蛋白質可以保留功能並高度穩定。
結語
展望未來,與其他蛋白質設計方法相比,CARBonAra 具有一些優勢,主要與其僅基於元素名稱和坐標的內部工作有關,不需要任何進一步的參數化或中間計算。
因此,CARBonAra 看起來比其他替代方案更靈活。因為它可以從本質上解析任何類型的分子系統,所以可以對其他類型的生物分子(例如核酸、小分子、離子,甚至水)或生物組合中未發現的分子(如材料和表面)進行訓練,前提是有足夠的數據。
總之,CARBonAra 獨特地基於結構數據,是一種概念上不同的蛋白質序列預測和設計方法,具有解決分子設計和合成生物學未來挑戰所需的額外靈活性。
論文連結:https://www.nature.com/articles/s41467-024-50571-y
以上是Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

编辑|萝卜皮自2021年发布强大的AlphaFold2以来,科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物,并绘制每种已知蛋白质相互作用的「宇宙图」。就在刚刚,GoogleDeepMind发布了AlphaFold3模型,该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。AlphaFold3的准确性对比过去许多专用工具(蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测)有显著提高。这表明,在单个统一的深度学习框架内,可以实现
