目次
マルチヘッド アテンション モジュールの制限は何ですか?
長い注意力のダイナミックな組み合わせはどのようなものですか?
△図 1. DCMHA の全体構造
△ 図2. 8つの注目ヘッドの簡略化された典型的な構成マップ関数、明るい色は大きな値を表します
△図 3. Compose の計算
はどのように行われますか?
スケールの拡張
△図4. TransformerとDCFormerのスケール拡張効果
△図5. PythiaとDCPythiaのスケール拡張効果
ダウンストリーム タスクの評価
△表 1. ダウンストリームタスクにおける DCFormer と Pythia のパフォーマンス
トレーニングと推論の速度
△表 2. Transformer++ と DCFormer++ のトレーニング速度と推論速度の比較
アブレーション実験
△表 3. DCMHA のアブレーション実験
ホームページ テクノロジー周辺機器 AI ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします

Jun 10, 2024 pm 08:18 PM
AI 小型モデル DCMHA

トランスフォーマーのコアメカニズムを集中的に改善し、小さなモデルを2倍の大きさでモデル化できるようにしました。

ICML+2024 の高得点論文で、Caiyun Technology チームは、Transformer コア コンポーネント アテンション モジュール (MHA) を置き換える DCFormer フレームワークを構築し、動的に結合可能なマルチヘッド アテンション (DCMHA) を提案しました。

DCMHA は、MHA アテンション ヘッドの検索選択ループと変換ループの固定バインドを削除し、入力に基づいてそれらを動的に組み合わせることができるようにし、モデルの表現能力を根本的に向上させます。

本来の意味は、各層が固定の H アテンション ヘッドを持っているということですが、ほぼ同じ量のパラメータと計算能力で、最大で動的に結合できると理解できます。 H×H注目です。 以下のように、コンテンツを微調整すると、元のテキストの意味がより明確に表現されます。 元のモデルの各層には、固定数の H アテンション ヘッドが含まれています。これで、

DCMHA プラグアンドプレイを使用して、あらゆる Transformer アーキテクチャの MHA を置き換え、多用途で効率的でスケーラブルな新しいアーキテクチャ DCFormer を取得できるようになります。

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします

この研究は、北京郵電大学の研究者とAIスタートアップのCaiyun Technologyによって共同で完成されました。

DCFormer に基づいて研究者によって構築されたモデル DCPythia-6.9B は、トレーニング前の複雑さと下流のタスク評価の点で、オープンソースの Pythia-12B よりも優れています。

DCFormer モデルは、1.7 ~ 2 倍の計算を必要とする Transformer モデルとパフォーマンスが同等です。

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします

マルチヘッド アテンション モジュールの制限は何ですか?

大規模モデルのスケーリング則は、計算能力が向上するにつれて、モデルが大きくなり、より多くのデータが含まれるようになり、モデルの効果がますます向上することを示しています。この道路の天井がどのくらい高いのか、AGI に到達できるのかを明確に説明できる人はいませんが、これが現在最も一般的なアプローチです。

しかし、これに加えて、別の質問も考える価値があります。現在の大きなモデルのほとんどはトランスフォーマーに基づいており、ビルディングブロックとしてトランスフォーマー自体が組み込まれています。改善の余地はどれくらいありますか?

これはモデル構造の研究で答えるべき基本的な質問であり、Caiyun Technology と北京郵電大学が共同で完成させた DCFormer の研究の出発点でもあります。

Transformer のマルチヘッド アテンション モジュール (MHA) では、各アテンション ヘッドは互いに完全に独立して動作します。

この設計は、そのシンプルさと実装の容易さにより、実際には非常に成功していますが、同時に注意スコアマトリクスの順位が低くなり、表現力が弱まり、注意頭機能の無駄が繰り返されることになります。パラメータと計算、その他の欠点。これに基づいて、近年のいくつかの研究では、アテンションヘッド間の何らかの形の相互作用を導入しようと試みられています。

Transformer ループ理論によると、MHA では、各アテンション ヘッドの動作は 4 つの重み行列 WQ、WK、WV、WO(WO によって取得されます) によって記述されます。 MHA の出力射影行列のセグメント化)

それらのうち、W

QWKはQKループ(または検索選択ループ)と呼ばれ、現在のトークンからコンテキスト内のどの(一部の)トークンに焦点を当てるかを決定します。例えば:

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします

W

OWVは、OVループ(または射影変換ループ)と呼ばれ、対象トークンからどのような情報を取得するか(またはどの属性を射影するか)を決定します。現在の位置で残差ストリームに書き込み、次のトークンを予測します。例:

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします

研究者は、検索 (どこで取得するか) と変換 (何を取得するか) は元々 2 つの独立したものであり、これらは個別に指定し、必要に応じて自由に組み合わせる必要があることに気づきました (SQL クエリの場合と同様に、選択WHERE の後の条件と SELECT の後の属性射影は別々に記述されます)、MHA ではそれらをアテンション ヘッドを使用して QKOV に「バンドル」する必要があり、柔軟性と表現機能が制限されます。

たとえば、アテンション ヘッド A、B、C を持つモデルがあり、その QK ループと OV ループが上記の例 = を完了できると仮定します。その後、それを次のように置き換えます。既存のアテンション ヘッド QK ループと OV ループを組み合わせると、モデルは「向きを変えることができない」可能性があります (研究者のシステムによって構築された合成テスト セットによって検証されています。6B 未満の中小規模のモデルは、そのようなモデルではうまく機能しません)一見単純なタスク)。

長い注意力のダイナミックな組み合わせはどのようなものですか?

これを出発点として、この記事の研究チームは MHA の 合成操作 を導入しました。

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします

以下の図に示すように、DCMHA が取得されます。

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします
△図 1. DCMHA の全体構造

は QWQ になります。 と KWK によって計算された注意スコア行列 AS と注意重み行列 AW は、num_heads 次元に線形マッピングされ、新しい行列 A' が取得されます。さまざまなアテンションヘッドの組み合わせの効果を実現するために、さまざまな線形マッピング行列 (合成マップ) を介して VWV が乗算されます。

たとえば、図 2(c) では、ヘッド 3 と 7 の QK ループがヘッド 1 の OV ループと結合されて、「新しい」アテンション ヘッドが形成されます。

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします
△ 図2. 8つの注目ヘッドの簡略化された典型的な構成マップ関数、明るい色は大きな値を表します

表現能力を最大化するために、研究者はマッピング行列が動的に駆動されることを望んでいます。入力生成、つまり、アテンションヘッドがどのように結合されるかを動的に決定します。

しかし、生成したいマッピング行列は1つではありません。そのような行列は、シーケンス内のソース位置のクエリQiと宛先位置のキーKjの各ペアに対して生成する必要があります。計算オーバーヘッドとメモリ使用量の両方を受け入れるのは難しいでしょう。

この目的のために、マッピング行列を入力に依存しない静的行列 Wb、低ランク行列 w1w2、および対角行列 Diag(wg) の合計にさらに分解します。 )、それらはそれぞれ、基本的な組み合わせ、アテンション ヘッド間の限定された方法の動的組み合わせ (つまり、ランク R、およびヘッド自体の動的ゲート (図 2 (d) および図 3 を参照) (b)) 。後の 2 つの行列は、Q 行列と K 行列によって動的に生成されます。

効果を犠牲にすることなく、計算とパラメータの複雑さをほぼ無視できるレベルまで削減します (詳細については、論文の複雑さの分析を参照してください)。 JAX および PyTorch 実装レベルの最適化と組み合わせることで、DCFormer は効率的にトレーニングおよび推論できます。

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします
△図 3. Compose の計算

はどのように行われますか?

スケールの拡張

アーキテクチャの品質を評価するために、研究者が注目する中心的な指標は、コンピューティングパワーをインテリジェンスに変換する効率 (またはパフォーマンスコンピューティングパワー比)、つまり達成可能なモデルのパフォーマンスです。ユニットのコンピューティング能力を投資することによる改善 - コンピューティング能力の消費を減らし、より良いモデルを取得します。

それは、図 4 と図 5 のスケーリング則曲線 から見ることができます (対数座標では、計算能力の変化に応じて、各モデル アーキテクチャの損失は近似直線として描くことができます。損失が低いほど優れています)モデル) 、DCFormer は 1.7 ~ 2 倍の計算能力で Transformer モデルの効果を実現できます。つまり、計算能力のインテリジェント変換率が 1.7 ~ 2 倍増加します。

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします
△図4. TransformerとDCFormerのスケール拡張効果
ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします
△図5. PythiaとDCPythiaのスケール拡張効果

この改善をどのように理解すればよいでしょうか?

2017 年の Transformer の誕生以来、パフォーマンスと計算能力比の向上という観点から見ると、GLU MLP と回転位置エンコーディング RoPE は、普遍的に効果的であることが証明され、大規模なシステムで広く採用されている数少ないアーキテクチャの改善点の 2 つです。練習の数。

元の Transformer にこれら 2 つの改善点を追加したアーキテクチャは、Transformer++ とも呼ばれ、Llama や Mistral などの最も強力なオープンソース モデルはすべてこのアーキテクチャを使用しています。 Transformer または Transformer++ アーキテクチャに関係なく、DCMHA を通じて大幅な改善が得られます。

1.4B モデルスケールでは、DCMHA の改善は Transformer++ の 2 つの改善の合計よりも大きく、スケーラビリティも優れています (図 4 の青緑の線と黒の線の比較、DCMHA の改善)計算能力が増加するにつれて減衰します。遅くなります。図 4 と図 5 の比較)。

DCFormer は、Transformer の機能を新たなレベルに引き上げたと言えます。

ダウンストリーム タスクの評価

研究チームは、主流の NLP ダウンストリーム タスクで評価するために 2 つのモデル DCPythia-2.8B と DCPythia-6.9B をトレーニングし、同じスケールのオープンソース モデル Pythia と比較しました (トレーニングでは同じものを使用します) Pythia 設定としてのハイパーパラメータ)

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします
△表 1. ダウンストリームタスクにおける DCFormer と Pythia のパフォーマンス

表 1 からわかるように、DCPythia-2.8B と 6.9B は Pile 検証セットの PPL が低いだけでなく、PPL も低いです。 DCPythia6.9B のダウンストリーム タスクの平均精度は、ほとんどのダウンストリーム タスクで Pythia を大幅に上回っており、Pythia-12B をも上回っています。

DCFormer++2.8B は DCPythia-2.8B と比較してさらに改良されており、DCMHA と Lllama アーキテクチャの組み合わせの有効性が検証されています。

トレーニングと推論の速度

DCMHA の導入によりトレーニングと推論のオーバーヘッドが追加されますが、表 2 から、DCFormer++ のトレーニング速度は Transformer++ の 74.5% ~ 89.2%、推論速度は 81.1% であることがわかります。 -89.7 % であり、モデル パラメーターが増加するにつれて、追加の計算オーバーヘッドは徐々に減少します。

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします
△表 2. Transformer++ と DCFormer++ のトレーニング速度と推論速度の比較

トレーニング速度は、TPU v3 ポッド、シーケンス長が 2048、batch_size が 1k の場合で比較され、推論速度は A100 80G GPU の場合です。入力の長さは 1024 で、生成された長さは 128 です。

アブレーション実験

結果は以下のとおりです:

ICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにします
△表 3. DCMHA のアブレーション実験

表 3 から、次の点がわかります:

  • 静的な組み合わせの重みを追加すると、PPL を減らすことができますが、しかし、動的結合重みを導入すると、PPL をさらに減らすことができ、これは動的結合の必要性を示しています。
  • 低ランクの動的組み合わせは、動的ゲートよりも優れたパフォーマンスを発揮します。
  • クエリ単位またはキー単位の動的組み合わせのみを使用して得られる PPL は非常に似ており、DCFormer++ との差は非常に小さいです。
  • アテンションヘッドの組み合わせは、ソフトマックスの前よりもソフトマックスの後に行う方が効果的です。これはおそらく、ソフトマックス後の確率が出力に直接影響するためです。
  • 動的組み合わせ重みのランクはあまり大きく設定する必要はありません。これは、組み合わせ重みのランクが低いことも示しています。

さらに、研究者らは、ローカル アテンション レイヤーの割合を増やし、クエリごとの動的組み合わせのみを使用することで、トレーニングと推論のオーバーヘッドをさらに削減しました。詳細については、論文の表 10 を参照してください。

一般的に、研究チームは2つの結論を出しました。

動的ウェイトについて: Mamba、GLA、RWKV6、HGRN などの最近の SSM およびリニア アテンション/RNN 作品は、動的 (入力依存) ウェイトを導入することで Transformer++ に追いつきましたが、DCFormer はアテンション ヘッドの動的組み合わせを使用します。この方法は、ソフトマックス アテンションを使用する場合、動的な重みを導入することで Transformer++ の効果を大幅に改善できることを示しています。

モデル アーキテクチャの革新について: この研究は、極端なコンピューティング能力とインテリジェントな変換効率を備えた「理想的なモデル アーキテクチャ」が存在する場合、現在の Transformer アーキテクチャはすでに非常に強力ではあるものの、この理想からはまだ遠い可能性があることを示しています。アーキテクチャにはまだ大きな改善の余地があります。したがって、コンピューティングパワーとデータの積み重ねによる奇跡の活発な発展に加えて、モデルアーキテクチャの革新も大きな可能性を秘めています。

研究チームはまた、Caiyun Technology が自社製品の Caiyun Weather、Caiyun Xiaoyi、Caiyun Xiaomeng に DCformer を適用する最初の企業になると述べました。

研究の詳細については、元の論文を参照してください。

ICML2024 論文リンク: https://icml.cc/virtual/2024/poster/34047。
Arxiv 論文リンク: https://arxiv.org/abs/2405.08553。
コードリンク: https://github.com/Caiyun-AI/DCFormer。

以上がICML2024ハイスコア!魔法のように注意力を変化させ、小さなモデルでも大きなモデルの 2 倍戦えるようにしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

GenAI および LLM の技術面接に関する 7 つのクールな質問 GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります 微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります Jun 11, 2024 pm 03:57 PM

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

あなたが知らない機械学習の 5 つの流派 あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 Aug 01, 2024 pm 09:40 PM

8月1日の本サイトのニュースによると、SKハイニックスは本日(8月1日)ブログ投稿を発表し、8月6日から8日まで米国カリフォルニア州サンタクララで開催されるグローバル半導体メモリサミットFMS2024に参加すると発表し、多くの新世代の製品。フューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) の紹介。以前は主に NAND サプライヤー向けのフラッシュ メモリ サミット (FlashMemorySummit) でしたが、人工知能技術への注目の高まりを背景に、今年はフューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) に名前が変更されました。 DRAM およびストレージ ベンダー、さらに多くのプレーヤーを招待します。昨年発売された新製品SKハイニックス

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

See all articles