タンパク質の機能を理解し、分子治療を開発するには、タンパク質が役割を果たす細胞の種類を特定し、タンパク質間の相互作用を分析する必要があります。
しかし、生物学的文脈を越えたタンパク質相互作用のモデリングは、既存のアルゴリズムにとって依然として困難です。
最新の研究では、ハーバード大学医学部の研究者らが、状況を認識したタンパク質表現を生成するための幾何学的な深層学習手法である PINNACLE を開発しました。
PINNACLE は、多臓器単一細胞アトラスを活用して、コンテキスト化されたタンパク質相互作用ネットワークを学習し、24 組織にわたる 156 の細胞型コンテキストから 394,760 個のタンパク質表現を生成します。
この研究は「単細胞タンパク質生物学のためのコンテキストAIモデル」というタイトルで、2024年7月22日に「Nature Methods」に掲載されました。
タンパク質の機能とネットワーク状況依存性のタンパク質機能
単一細胞の遺伝子発現とタンパク質ネットワーク
最高峰モデル
イラスト: PINNACLEの概要。 (出典: 論文)
2. コンテキスト化されたタンパク質表現
PINNACLE は、細胞の相互作用と組織階層を捕捉するネットワークによって補完された、統合されたコンテキスト認識 PPI ネットワーク上でトレーニングされ、細胞タイプに合わせてカスタマイズされたタンパク質表現を生成します。
3. マルチスケール表現
コンテキストフリーモデルとは異なり、PINNACLE は細胞タイプのコンテキストに応じて各タンパク質の複数の表現を生成します。さらに、PINNACLE は細胞タイプのコンテキストと組織レベルの表現を生成します。
4. マルチスケール学習
PINNACLE は、統一された潜在表現空間を最適化することで、タンパク質、細胞種、組織のトポロジーを学習します。
5. コンテキスト認識モデル
PINNACLE は、コンテキスト固有のデータを単一のモデルに統合し、タンパク質、細胞タイプ、組織レベルのデータの間で知識を伝達します。
6. 埋め込み空間
細胞および組織の情報を埋め込み空間に注入するために、PINNACLE はタンパク質、細胞の種類、および組織レベルの注意を採用します。
7. 物理的相互作用マッピング
物理的に相互作用するタンパク質ペアは、埋め込み空間にしっかりと埋め込まれます。
8. 細胞型環境
タンパク質は、その細胞型環境の近くに埋め込まれています。
9. グラフニューラルネットワークの伝播
PINNACLEは、各ノードとエッジタイプにカスタマイズされたアテンションメカニズムを使用して、タンパク質、細胞タイプ、組織間で情報を伝播します。
図: PINNACLE タンパク質埋め込み領域の濃縮。 (出典: 論文) タンパク質レベルの事前トレーニング タスクでは、タンパク質相互作用の自己教師ありリンク予測とタンパク質ノードの細胞型分類が考慮されます。これらのタスクにより、PINNACLE は、コンテキストを認識したタンパク質相互作用ネットワークのトポロジーとタンパク質の細胞型アイデンティティをカプセル化する埋め込み空間を形成できます。以上が394,760 個のタンパク質表現を生成し、ハーバード大学チームがタンパク質のコンテキストを完全に理解する AI モデルを開発の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。