從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊
編輯 | KX
AI 技術在輔助抗體設計方面取得了巨大進展。然而,抗體設計仍然嚴重依賴從血清中分離抗原特異性抗體,這是一個資源密集且耗時的過程。
為了解決這個問題,騰訊 AI Lab、北京大學深圳研究生院和西京消化病醫院研究團隊提出了一種預訓練抗體生成大語言模型(PALM-H3),用於從頭生成具有所需抗原結合特異性的人工抗體CDRH3,減少對天然抗體的依賴。
此外,還設計了一個高精確度的抗原-抗體結合預測模型 A2binder,將表位序列與抗體序列配對,從而預測結合特異性和親和力。
總之,該研究建立了一個用於抗體生成和評估的人工智慧框架,這有可能顯著加速抗體藥物的開發。
相關研究以「De novo generation of SARS-CoV-2 antibody CDRH3 with a pre-trained generative large language model」為題,於 8 月 10 日發佈在《Nature Communications》上。
抗體藥物,又稱單株抗體,在生物治療中發揮著至關重要的作用。透過模仿免疫系統的作用,這些藥物可以選擇性地針對病毒和癌細胞等致病因子。與傳統治療方法相比,抗體藥物是一種更具體、更有效的方法。抗體藥物在治療多種疾病方面已顯示出積極的效果。
開發抗體藥物是一個複雜的過程,包括從動物源中分離抗體,使其人性化,並優化其親和力。但抗體藥物的開發仍然嚴重依賴天然抗體。
蛋白質的序列資料可視為一種語言,因此自然語言處理(NLP)領域的大規模預訓練模型已被用來學習蛋白質的表徵模式。目前已經開發了多種蛋白質語言模型。然而,由於抗體的多樣性高且可用的抗原抗體配對數據稀缺,產生對特定抗原表位具有高親和力的抗體仍然是一項具有挑戰性的任務。
為了應對上述挑戰,騰訊AI Lab 團隊提出了預訓練抗體生成大型語言模型PALM-H3,用於優化和生成重鏈互補決定區3 (CDRH3),該區域在抗體的特異性和多樣性中起著至關重要的作用。
為了評估 PALM-H3 產生的抗體對抗原的親和力,研究人員結合使用了抗原抗體對接和基於 AI 的方法。
研究人員也開發了用於評估抗體-抗原親和力的 A2binder。 A2binder 能夠實現準確且可推廣的親和力預測,即使對於未知抗原也是如此。
PALM-H3 和 A2Binder 的架構
PALM-H3 和 A2binder 的工作流程和模型架構如下圖所示。
PALM-H3 的目的是產生抗體中的從頭 CDRH3 序列。 CDRH3 區域在決定抗體對特定抗原序列的結合特異性方面起著最重要的作用。 PALM-H3 是一個類似 transformer 的模型,它使用基於 ESM2 的抗原模型作為編碼器,使用抗體 Roformer 作為解碼器。研究也建構了 A2binder 來預測人工生成的抗體的結合親和力。
PALM-H3 和 A2binder 的建構包括三個步驟:首先,研究人員分別在未配對的抗體重鍊和輕鏈序列上預訓練兩個 Roformer 模型。然後,基於預先訓練的 ESM2、抗體重鏈 Roformer 和抗體輕鏈 Roformer 建立 A2binder,並使用配對親和力資料進行訓練。最後,使用預先訓練的 ESM2 和抗體重鏈 Roformer 建立 PALM-H3,並在配對抗原-CDRH3 資料上進行訓練,以從頭產生 CDRH3。
A2binder 可以準確預測抗原抗體結合機率、親和力
透過將 A2binder 預測親和力的能力與幾種基線方法進行比較來評估其性能。
A2binder 在親和力資料集上表現出色,部分原因在於抗體序列的預訓練,這使得 A2binder 能夠學習這些序列中存在的獨特模式。
結果は、すべての抗原抗体親和性予測データセットにおいて、A2binder がベースライン モデル ESM-F よりも優れたパフォーマンスを示すことを示しています (後者は同じフレームワークを持っていますが、事前トレーニングされたモデルが使用されています)これは、抗体配列による事前トレーニングが関連する下流タスクに有益である可能性があることを示唆しています。
親和性値の予測におけるモデルのパフォーマンスを評価するために、研究者らは、親和性値ラベルを含む 2 つのデータセット 14H と 14L も利用しました。
A2binder は、ピアソン相関指標とスピアマン相関指標の両方ですべてのベースライン モデルを上回っています。 A2binder は、14H データセットで 0.642 (3% 改善)、14L データセットで 0.683 (1% 改善) のピアソン相関を達成しました。
ただし、A2binder および他のベースライン モデルのパフォーマンスは、14H および 14L データセットでは他のデータセットと比較してわずかに低下しました。この観察は以前の研究と一致しています。
PALM-H3 は結合確率の高い抗体の生成に優れています
研究者らは、PALM-H3 によって生成される抗体と天然の抗体との違いを調査しました抗体間の違い。それらの配列は大きく異なることが判明しましたが、生成された抗体の結合確率はこれらの違いによって大きな影響を受けませんでした。同時に、それらの構造の違いにより、結合親和性が低下します。これらの結果は、抗体ライブラリーのネットワーク解析および機能的タンパク質配列の生成に関する以前の研究と一致しています。
全体として、結果は、天然抗体とは異なりますが、PALM-H3 が高い結合親和性を持つ多様な範囲の抗体配列を生成できることを示しています。
さらに、研究者らは、ClusPro と SnugDock を通じて PALM-H3 のパフォーマンスを検証しました。 PALM-H3 は、SARS-CoV-2 の HR2 領域、CDRH3 配列内の安定化ペプチドに対する抗体を生成できます。それは新規の CDRH3 配列を生成し、生成された配列 GRREAAWALA が天然の CDHR3 配列 GKAAGTFDS と比較して抗原安定化ペプチドのターゲティングを改善していることを検証しました。
さらに、PALM-H3 は、新たに出現した SARS-CoV-2 変異体 XBB CDRH3 配列に対して、より高い親和性を持つ抗体を生成できます。結果として得られる配列 AKDSRTSPLRLDYS は、そのソースである ASEVLDNLRDGYNF よりも XBB に対して強い親和性を持ちます。
さらに、PALM-H3 は、従来の逐次変異戦略が直面する局所最適の落とし穴を克服するだけでなく、E-EVO アプローチと比較してより高い抗原結合親和性を持つ抗体も生成します。これは、抗体設計における PALM-H3 の利点を強調しており、配列空間のより効率的な探索と、特定のエピトープを標的とする高親和性バインダーの生成を可能にします。
インビトロ実験
さらに、研究者らは、ウェスタンブロッティング、表面プラズモン共鳴分析、シュードウイルスの中和などのインビトロ実験も実施しました。この実験により、PALM-H3 設計の抗体の有効性について重要な検証が行われました。
PALM-H3 これらの試験では、SARS-CoV-2 野生型、アルファ、デルタ、および XBB 変異体スパイクタンパク質に対して生成された 2 つの抗体が、ネイティブレベルよりも高いレベルを達成しました より高い結合親和性と抗体の中和能力。これらのウェットラボ実験から得られた堅牢な経験的結果は、コンピューターによる予測と分析を補完し、既知および新規の抗原に対して高い特異性と親和性を備えた強力な抗体を生成および選択する PALM-H3 および A2binder の能力を検証します。
要約すると、提案された PALM-H3 は、大規模な抗体事前トレーニングの機能とグローバルな特徴融合の有効性を統合しており、その結果、優れた親和性予測パフォーマンスと高親和性抗体を設計する機能が得られます。 。さらに、直接配列生成と解釈可能な重量の視覚化により、高親和性抗体を設計するための効率的で解釈可能なツールになります。
以上是從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務,AI越來越多地用於加快這一過程。現有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現高品質和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50 K上取得了出色的性能,top-1準確率達到60.8%。

編輯|ScienceAI基於有限的臨床數據,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停,這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據,與同事們建立了一系列AI模型,用於提供潛在診斷和推薦測試。一項研究表明,這些模型可以加快22.3%的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而,人工智慧演算法在研究中的成功只是驗證此
