Editor | Radish Skin
ディープラーニングの進歩により、タンパク質の設計とエンジニアリングは前例のない速度で進歩しています。ただし、現在のモデルでは、設計プロセス中にタンパク質以外のエンティティを自然に考慮することはできません。
ここで、スイスのローザンヌ工科大学(EPFL)の研究者らは、原子座標と元素名の幾何学的変換器に完全に基づいた深層学習手法を提案しました。これは、さまざまな分子環境によって課される制約に基づいて骨格を構築し、タンパク質を予測することができます。シーケンス。
この方法を使用すると、研究者は高い熱安定性と触媒活性を備えた酵素を高い成功率で生成できます。これにより、所望の機能を実現するためのタンパク質設計パイプラインの汎用性が高まることが期待されます。
この研究は「タンパク質配列設計のためのコンテキスト認識型幾何学深層学習」と題され、2024年7月25日に「Nature Communications」に掲載されました。
機能的なタスクを達成するためにタンパク質を設計することは、生物学、医学、バイオテクノロジー、材料科学に大きな影響を与える課題です。重要な応用分野はタンパク質治療薬の設計であり、特定の疾患を正確に標的とするようにタンパク質を調整することは、低分子薬よりも競争力が高い可能性があります。このアプローチは、自己免疫疾患からがんに至るまで、多くの健康上の問題の治療に革命をもたらし、より効果的で個別化された治療を提供する可能性があります。
さらに、酵素の機能を設計することも、タンパク質設計におけるもう 1 つの重要な課題です。酵素は天然の触媒として機能し、生物学的プロセスにおいて重要な役割を果たします。新しい酵素を設計したり、既存の酵素を改変したりすることで、まれな反応や自然界には存在しない反応を促進する触媒を作成することができます。これは、複雑な薬物分子の合成や汚染物質やプラスチックの分解など、製薬や環境技術を含む複数の業界に広範な影響を及ぼします。
ディープラーニング手法は、タンパク質設計の成功率と多様性を大幅に加速します。ただし、現在のタンパク質設計モデルは複数のタンパク質鎖を処理できますが、非タンパク質実体を扱う場合はパフォーマンスが低く、適用範囲が制限されます。
この問題を解決するために、EPFL の研究チームはかつて、原子点群に作用する幾何学的変換アーキテクチャである深層学習モデルであるタンパク質構造変換器 (PeSTo) を導入しました。
PeSTo には、スカラー状態とベクトル状態を利用して原子を表すトランスフォーマー アテンション メカニズムが組み込まれており、タンパク質、核酸、脂質、イオン、低分子リガンド、補因子、炭水化物など、事実上あらゆる分子とタンパク質の界面での相互作用を予測できます。
最新の研究では、チームはこのモデルの独自の機能を利用し、PeSTo ベースのタンパク質配列生成モデル CARBonAra (バックボーン原子およびヘテロ原子からのコンテキスト認識アミノ酸回復) を導入しました。
CARBonAra は、特定の骨格足場のすべての位置のアミノ酸信頼性を予測するために、PDB で利用可能な構造データに基づいて独自にトレーニングされており、単独で、または配列設計分子複合体の推進に役立つあらゆる種類および数のツールとともに提供できます。
CARBonAraの構成とパフォーマンス
CARBonAraは、幾何学的変換器で構成される深層学習モデルを使用して、入力バックボーン足場からタンパク質配列の各位置で特定のアミノ酸を見つける可能性を予測します。 CARBonAra は、バックボーン原子 (Cα、C、N、O) の座標と要素を入力として受け取り、理想的な結合角と結合長を使用して仮想 Cβ 原子を追加します。幾何学形状は、各原子間の距離と正規化された相対変位ベクトルを使用して記述されます。
幾何学的トランスフォーマー操作は、すべての隣接する原子の相互作用をエンコードし、トランスフォーマーを使用してスカラー情報とベクトル情報を処理し、各原子の状態を更新します。最後に、研究者らは、原子レベルから残基レベルまで原子状態を集約することにより、位置特異的なスコアリング行列の形式でタンパク質配列内の各位置のアミノ酸信頼度を予測するようにモデルをトレーニングしました。
実際、各アミノ酸タイプの予測信頼度を考慮して正しい予測の確率を特徴付けることで、これらの信頼度を確率として解釈し、マッピングすることができます。
他のモデルと同様に、CARBonAra は、ワンホット エンコーディングを使用して特定のアミノ酸の以前の配列情報をバックボーン原子にインプリントすることにより、自己回帰予測をサポートします。
最も重要なことは、CARBonAra は、広範なパラメーター化を行わずに元素名と原子座標のみを使用する PeSTo の機能を継承しており、さまざまなシナリオに簡単に適応できることです。
因此,CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体,其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。
数据集
利用 CARBonAra 固有的灵活性,研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。
这包括与其他分子实体(如离子、配体、核酸等)复合的蛋白质。训练数据集由大约 370,000 个亚基组成,验证数据集中还使用了另外 100,000 个亚基,所有这些亚基均来自 RCSB PDB 生物组装体,并被注释为最佳可能。
与以前建立的方法相比,遵循稍微更严格的协议,测试数据集由大约 70,000 个亚基组成,与没有共享 CATH 域的训练集不同,并且在低于 30% 的序列同一性下进行过滤。
该选择标准确保了测试的稳健性,因为它排除了训练数据集中存在的类似折叠和序列。
对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计,CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当,并且计算成本具有竞争力(在 GPU 上比 ProteinMPNN 快约 3 倍,比 ESM-IF1 快 10 倍)。
从主链结构重建蛋白质序列
该方法在从主链结构重建蛋白质序列时,蛋白质单体设计的序列恢复率中值为 51.3%,二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似,但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。
此外,研究人员观察到 CARBonAra 可以生成高质量序列,当在单序列模式下使用 AlphaFold 预测时,这些序列可以按预期折叠,TM 分数高于 0.9。
CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装,从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性,同时允许蛋白质表面具有更高的可变性,除非提供额外的功能或结构限制。
从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练,当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。
研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加,序列恢复率(53±10%)与一致预测(54±7%)没有显著下降。
同时,研究人员观察到每个位置预测的可能的氨基酸数量普遍减少,这表明探索构象空间正在限制序列空间,从而使得能够设计有针对性的结构构象。
具有超出蛋白质设计本身的意义
研究人员在一个主力系统(即 TEM-1 丝氨酸 β-内酰胺酶)上进行了实验,展示了 CARBonAra 如何处理酶工程的挑战,设计出在高温下折叠并保持催化活性的实际蛋白质。此外,研究人员还探索了从 CARBonAra 的输出中采样蛋白质序列空间的重点策略。
由于不能确定由得分最高的氨基酸产生的蛋白质序列是否具有功能性,因此需要采用取样策略来产生可以在体外重组表达且稳定且具有功能的蛋白质。
目前为止,这尚未经过彻底测试。该团队在此表明,适当的采样策略不仅可以生成丰富的信息来产生起作用的蛋白质,而且还可以生成反映在自然序列中观察到的或通过诱变和选择实验采样的自然变异的合成多序列比对。
这具有超出蛋白质设计本身的意义,特别是为了解蛋白质在生物物理一致的蛋白质进化模型框架内如何进化打开了一扇窗户。
从根本上来说,提高计算设计的成功率对于真正掌握这一领域非常重要,更实际的是,可以在实验室中尝试实际表达和纯化时降低成本。
超高成功率
现在基于人工智能的方法开始稳定下来,这成为一个重要的讨论点。不同的方法和报告显示的成功率差异很大,但通常不清楚如何评估每种方法。
Chroma 进行了非常保守的评估,将其成功率设定为 3% 左右,而 RoseTTAFold/ProteinMPNN 论文报告称几种蛋白质的平均成功率为 15%。
使用该研究报告的 TEM-1 β-内酰胺酶设计,成功率达到 40%。同样,TIM 桶和 NTF2 折叠的成功率也高达 40-55%,远高于之前的平均 15%。
适合提高蛋白热稳定性
除了直接应用于设计新蛋白质和调整蛋白质功能之外,CARBonAra 似乎还非常适合提高热稳定性,就像其他蛋白质设计方法一样,它们也能产生坚固、高热稳定性的蛋白质。
这一观察结果揭示的一个有趣方面与用于稳定制造和工业过程的酶的设计序列的知识产权有关:通常,设计的酶会以覆盖较小但相当大的序列相似性范围的方式受到保护。
从历史上看,这已经足够全面了;然而,包括 CARBonAra 在内的现代蛋白质设计方法可以设计出相似性低得多的蛋白质,这些蛋白质可以保留功能并高度稳定。
结语
展望未来,与其他蛋白质设计方法相比,CARBonAra 具有一些优势,主要与其仅基于元素名称和坐标的内部工作有关,不需要任何进一步的参数化或中间计算。
因此,CARBonAra 看起来比其他替代方案更灵活。因为它可以从本质上解析任何类型的分子系统,所以可以对其他类型的生物分子(例如核酸、小分子、离子,甚至水)或生物组合中未发现的分子(如材料和表面)进行训练,前提是有足够的数据。
总之,CARBonAra 独特地基于结构数据,是一种概念上不同的蛋白质序列预测和设计方法,具有解决分子设计和合成生物学未来挑战所需的额外灵活性。
论文链接:https://www.nature.com/articles/s41467-024-50571-y
以上がNature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。