ホームページ テクノロジー周辺機器 AI Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

Aug 05, 2024 pm 08:33 PM
AI ディープラーニング 理論 生物計算主義者 タンパク質配列

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

Editor | Radish Skin

ディープラーニングの進歩により、タンパク質の設計とエンジニアリングは前例のない速度で進歩しています。ただし、現在のモデルでは、設計プロセス中にタンパク質以外のエンティティを自然に考慮することはできません。

ここで、スイスのローザンヌ工科大学(EPFL)の研究者らは、原子座標と元素名の幾何学的変換器に完全に基づいた深層学習手法を提案しました。これは、さまざまな分子環境によって課される制約に基づいて骨格を構築し、タンパク質を予測することができます。シーケンス。

この方法を使用すると、研究者は高い熱安定性と触媒活性を備えた酵素を高い成功率で生成できます。これにより、所望の機能を実現するためのタンパク質設計パイプラインの汎用性が高まることが期待されます。

この研究は「タンパク質配列設計のためのコンテキスト認識型幾何学深層学習」と題され、2024年7月25日に「Nature Communications」に掲載されました。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

機能的なタスクを達成するためにタンパク質を設計することは、生物学、医学、バイオテクノロジー、材料科学に大きな影響を与える課題です。重要な応用分野はタンパク質治療薬の設計であり、特定の疾患を正確に標的とするようにタンパク質を調整することは、低分子薬よりも競争力が高い可能性があります。このアプローチは、自己免疫疾患からがんに至るまで、多くの健康上の問題の治療に革命をもたらし、より効果的で個別化された治療を提供する可能性があります。

さらに、酵素の機能を設計することも、タンパク質設計におけるもう 1 つの重要な課題です。酵素は天然の触媒として機能し、生物学的プロセスにおいて重要な役割を果たします。新しい酵素を設計したり、既存の酵素を改変したりすることで、まれな反応や自然界には存在しない反応を促進する触媒を作成することができます。これは、複雑な薬物分子の合成や汚染物質やプラスチックの分解など、製薬や環境技術を含む複数の業界に広範な影響を及ぼします。

ディープラーニング手法は、タンパク質設計の成功率と多様性を大幅に加速します。ただし、現在のタンパク質設計モデルは複数のタンパク質鎖を処理できますが、非タンパク質実体を扱う場合はパフォーマンスが低く、適用範囲が制限されます。

この問題を解決するために、EPFL の研究チームはかつて、原子点群に作用する幾何学的変換アーキテクチャである深層学習モデルであるタンパク質構造変換器 (PeSTo) を導入しました。

PeSTo には、スカラー状態とベクトル状態を利用して原子を表すトランスフォーマー アテンション メカニズムが組み込まれており、タンパク質、核酸、脂質、イオン、低分子リガンド、補因子、炭水化物など、事実上あらゆる分子とタンパク質の界面での相互作用を予測できます。

最新の研究では、チームはこのモデルの独自の機能を利用し、PeSTo ベースのタンパク質配列生成モデル CARBonAra (バックボーン原子およびヘテロ原子からのコンテキスト認識アミノ酸回復) を導入しました。

CARBonAra は、特定の骨格足場のすべての位置のアミノ酸信頼性を予測するために、PDB で利用可能な構造データに基づいて独自にトレーニングされており、単独で、または配列設計分子複合体の推進に役立つあらゆる種類および数のツールとともに提供できます。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

イラスト: CARBonAra のアーキテクチャと SOTA メソッドとの比較。 (出典: 論文)

CARBonAraの構成とパフォーマンス

CARBonAraは、幾何学的変換器で構成される深層学習モデルを使用して、入力バックボーン足場からタンパク質配列の各位置で特定のアミノ酸を見つける可能性を予測します。 CARBonAra は、バックボーン原子 (Cα、C、N、O) の座標と要素を入力として受け取り、理想的な結合角と結合長を使用して仮想 Cβ 原子を追加します。幾何学形状は、各原子間の距離と正規化された相対変位ベクトルを使用して記述されます。

幾何学的トランスフォーマー操作は、すべての隣接する原子の相互作用をエンコードし、トランスフォーマーを使用してスカラー情報とベクトル情報を処理し、各原子の状態を更新します。最後に、研究者らは、原子レベルから残基レベルまで原子状態を集約することにより、位置特異的なスコアリング行列の形式でタンパク質配列内の各位置のアミノ酸信頼度を予測するようにモデルをトレーニングしました。

実際、各アミノ酸タイプの予測信頼度を考慮して正しい予測の確率を特徴付けることで、これらの信頼度を確率として解釈し、マッピングすることができます。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

イラスト: 予測信頼度分析。 (出典: 論文)

他のモデルと同様に、CARBonAra は、ワンホット エンコーディングを使用して特定のアミノ酸の以前の配列情報をバックボーン原子にインプリントすることにより、自己回帰予測をサポートします。

最も重要なことは、CARBonAra は、広範なパラメーター化を行わずに元素名と原子座標のみを使用する PeSTo の機能を継承しており、さまざまなシナリオに簡単に適応できることです。

因此,CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体,其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。

数据集

利用 CARBonAra 固有的灵活性,研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。

这包括与其他分子实体(如离子、配体、核酸等)复合的蛋白质。训练数据集由大约 370,000 个亚基组成,验证数据集中还使用了另外 100,000 个亚基,所有这些亚基均来自 RCSB PDB 生物组装体,并被注释为最佳可能。

与以前建立的方法相比,遵循稍微更严格的协议,测试数据集由大约 70,000 个亚基组成,与没有共享 CATH 域的训练集不同,并且在低于 30% 的序列同一性下进行过滤。

该选择标准确保了测试的稳健性,因为它排除了训练数据集中存在的类似折叠和序列。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

图示:在 GPU 上运行时分析。(来源:论文)

对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计,CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当,并且计算成本具有竞争力(在 GPU 上比 ProteinMPNN 快约 3 倍,比 ESM-IF1 快 10 倍)。

从主链结构重建蛋白质序列

该方法在从主链结构重建蛋白质序列时,蛋白质单体设计的序列恢复率中值为 51.3%,二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似,但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。

此外,研究人员观察到 CARBonAra 可以生成高质量序列,当在单序列模式下使用 AlphaFold 预测时,这些序列可以按预期折叠,TM 分数高于 0.9。

CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装,从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性,同时允许蛋白质表面具有更高的可变性,除非提供额外的功能或结构限制。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

图示:埋藏于表面的氨基酸的分析。(来源:论文)

从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练,当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。

研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加,序列恢复率(53±10%)与一致预测(54±7%)没有显著下降。

同时,研究人员观察到每个位置预测的可能的氨基酸数量普遍减少,这表明探索构象空间正在限制序列空间,从而使得能够设计有针对性的结构构象。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

图示:主链构象对预测的影响。(来源:论文)

具有超出蛋白质设计本身的意义

研究人员在一个主力系统(即 TEM-1 丝氨酸 β-内酰胺酶)上进行了实验,展示了 CARBonAra 如何处理酶工程的挑战,设计出在高温下折叠并保持催化活性的实际蛋白质。此外,研究人员还探索了从 CARBonAra 的输出中采样蛋白质序列空间的重点策略。

由于不能确定由得分最高的氨基酸产生的蛋白质序列是否具有功能性,因此需要采用取样策略来产生可以在体外重组表达且稳定且具有功能的蛋白质。

目前为止,这尚未经过彻底测试。该团队在此表明,适当的采样策略不仅可以生成丰富的信息来产生起作用的蛋白质,而且还可以生成反映在自然序列中观察到的或通过诱变和选择实验采样的自然变异的合成多序列比对。

这具有超出蛋白质设计本身的意义,特别是为了解蛋白质在生物物理一致的蛋白质进化模型框架内如何进化打开了一扇窗户。

从根本上来说,提高计算设计的成功率对于真正掌握这一领域非常重要,更实际的是,可以在实验室中尝试实际表达和纯化时降低成本。

超高成功率

现在基于人工智能的方法开始稳定下来,这成为一个重要的讨论点。不同的方法和报告显示的成功率差异很大,但通常不清楚如何评估每种方法。

Chroma 进行了非常保守的评估,将其成功率设定为 3% 左右,而 RoseTTAFold/ProteinMPNN 论文报告称几种蛋白质的平均成功率为 15%。

使用该研究报告的 TEM-1 β-内酰胺酶设计,成功率达到 40%。同样,TIM 桶和 NTF2 折叠的成功率也高达 40-55%,远高于之前的平均 15%。

适合提高蛋白热稳定性

除了直接应用于设计新蛋白质和调整蛋白质功能之外,CARBonAra 似乎还非常适合提高热稳定性,就像其他蛋白质设计方法一样,它们也能产生坚固、高热稳定性的蛋白质。

这一观察结果揭示的一个有趣方面与用于稳定制造和工业过程的酶的设计序列的知识产权有关:通常,设计的酶会以覆盖较小但相当大的序列相似性范围的方式受到保护。

从历史上看,这已经足够全面了;然而,包括 CARBonAra 在内的现代蛋白质设计方法可以设计出相似性低得多的蛋白质,这些蛋白质可以保留功能并高度稳定。

结语

展望未来,与其他蛋白质设计方法相比,CARBonAra 具有一些优势,主要与其仅基于元素名称和坐标的内部工作有关,不需要任何进一步的参数化或中间计算。

因此,CARBonAra 看起来比其他替代方案更灵活。因为它可以从本质上解析任何类型的分子系统,所以可以对其他类型的生物分子(例如核酸、小分子、离子,甚至水)或生物组合中未发现的分子(如材料和表面)进行训练,前提是有足够的数据。

总之,CARBonAra 独特地基于结构数据,是一种概念上不同的蛋白质序列预测和设计方法,具有解决分子设计和合成生物学未来挑战所需的额外灵活性。

论文链接:https://www.nature.com/articles/s41467-024-50571-y

以上がNature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

AlphaFold 3 が発売され、タンパク質とすべての生体分子の相互作用と構造をこれまでよりもはるかに高い精度で包括的に予測します。 AlphaFold 3 が発売され、タンパク質とすべての生体分子の相互作用と構造をこれまでよりもはるかに高い精度で包括的に予測します。 Jul 16, 2024 am 12:08 AM

エディター | Radish Skin 2021 年の強力な AlphaFold2 のリリース以来、科学者はタンパク質構造予測モデルを使用して、細胞内のさまざまなタンパク質構造をマッピングし、薬剤を発見し、既知のあらゆるタンパク質相互作用の「宇宙地図」を描いてきました。ちょうど今、Google DeepMind が AlphaFold3 モデルをリリースしました。このモデルは、タンパク質、核酸、小分子、イオン、修飾残基を含む複合体の結合構造予測を実行できます。 AlphaFold3 の精度は、これまでの多くの専用ツール (タンパク質-リガンド相互作用、タンパク質-核酸相互作用、抗体-抗原予測) と比較して大幅に向上しました。これは、単一の統合された深層学習フレームワーク内で、次のことを達成できることを示しています。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

See all articles