中国科学院チームが酵素反応速度パラメータの予測精度を向上させるための統一フレームワークを作成
編集者 | 大根の皮
酵素反応速度パラメータの予測は、バイオテクノロジーや産業用途における酵素の設計と最適化にとって重要ですが、現在の予測ツールのパフォーマンスは限られていますさまざまなタスクで実際の用途が制限されます。
中国科学院の研究者らは最近、酵素代謝回転数 (kcat) やミカエリス・メンテン定数 ( Km) および触媒効率 (kcat/Km)、これらのパラメータはタンパク質配列と基質構造から得られました。
UniKP (EF-UniKP) に基づく 2 層フレームワークも提案されており、pH や温度などの環境要因を考慮して kcat 値を安定して予測できます。同時に研究チームは、4つの代表的な再重み付け手法を体系的に検討し、価値の高い予測タスクにおける予測誤差を減らすことに成功しました。
この研究は「UniKP: 酵素反応速度パラメータの予測のための統一フレームワーク」と題され、2023年12月11日にジャーナル「Nature Communications」に掲載されました。
特定の基質に対する酵素の触媒効率の研究は生物学における重要な問題であり、酵素の進化、代謝工学、合成生物学に大きな影響を与えます。 kcat と Km、最大代謝回転率、ミカエリス・メンテン定数を測定する in vitro 実験データは、特定の反応を触媒する酵素の効率を測定し、さまざまな酵素の相対的な触媒活性を比較するための指標として使用できます。
現在、酵素速度論パラメータの測定は主に実験的測定に依存していますが、これには時間と費用がかかり、労働集約的であるため、実験的に測定された速度論的パラメータ値のデータベースは小規模になります。 。たとえば、配列データベース UniProt には 2 億 3,000 万を超える酵素配列が含まれており、酵素データベース BRENDA および SABIO-RK には実験的に測定された数万の kcat 値が含まれています。これらの酵素データベースに Uniprot 識別子を統合すると、測定されたパラメーターとタンパク質配列の間の関連付けが容易になります。ただし、これらの接続の規模は酵素配列の数に比べて依然としてはるかに小さいため、指向性進化や代謝工学などの下流の応用における進歩が制限されます。
酵素反応速度論パラメータ予測フレームワーク
この研究では、中国科学院の研究者が、事前トレーニング言語モデルに基づいた UniKP と呼ばれる新しいフレームワークを提案しました。酵素反応速度パラメータの予測精度を向上させるように設計されています。これらのパラメーターには、酵素配列と基質構造を考慮して予測できる kcat、Km、kcat/Km が含まれます。研究者らは、16 の異なる機械学習モデルと 2 つの深層学習モデルの包括的な比較を実施し、予測精度の点で UniKP が優れたパフォーマンスを発揮したことを発見しました。この研究は、酵素反応速度論の分野における研究と応用のための新しいツールと方法を提供することが期待されています。
図: UniKP の概要。 (出典: 論文)
以前の最先端モデル DLKcat と比較して、UniKP は kcat 予測タスクにおいて優れたパフォーマンスを示し、平均決定係数は 0.68 で 20% 向上しました。研究者らは、事前学習済みモデルがデータベース全体からの教師なし情報を使用して酵素配列と基質構造の学習しやすい表現を作成することにより、UniKP のパフォーマンスに大きく貢献したと推測しています。
モデル学習の分析により、おそらく基質構造と比較した酵素構造の複雑さにより、タンパク質情報が支配的な役割を果たしていることが示されました。さらに、UniKP は、実験的に測定されたケースを含め、酵素とその変異体の kcat 値の小さな差異を効果的に捕捉することができ、これは酵素の設計や修飾にとって重要です。 UniKP 予測の R^2 と、高アイデンティティ領域と低アイデンティティ領域の gmean 法の R^2 の差は、より深く相互接続された情報を抽出する UniKP の能力を示しており、したがってこれらのタスクで良好なパフォーマンスを発揮します。
2 層フレームワーク EF-UniKP
現在のモデルのほとんどは、実際の実験条件をシミュレートする際の重要な制限である環境要因を考慮していません。この問題を解決するために、研究者らは環境要因を考慮した2層フレームワークEF-UniKPを提案した。それぞれ pH と温度の情報を含む 2 つの新しく構築されたデータセットに基づいて、EF-UniKP は初期の UniKP と比較して向上したパフォーマンスを示します。これは、正確でハイスループットの、生物に依存せず、コンテキストに依存する kcat 予測です。さらに、このアプローチは、共基質や NaCl 濃度などの他の要素を含めるように拡張される可能性があります。
図: 環境要因を考慮した 2 層のフレームワーク。 (出典: 論文)
しかし、既存のモデルでは、包括的なデータが不足しているため、これらの要因間の相互作用が考慮されていません。バイオキャスト研究室の自動化や継続的進化法などの実験技術が進歩するにつれて、研究者は酵素動態データの急増を予想しています。この流入により、この分野が豊かになっただけでなく、予測モデルの精度も向上しました。
kcat データセットの不均衡が大きく、高い kcat 値の予測では誤差が大きくなるため、チームはこの問題を軽減するために 4 つの代表的な再重み付け方法を系統的に検討しました。結果は、各メソッドのハイパーパラメーター設定が、高い kcat 値の予測を改善するために重要であることを示しています。
チームは、ミカエリス定数 (Km) 予測と kcat/Km 予測の観点から、現在のフレームワークの強い一般性を確認しました。 UniKP は、Km 値の予測において最先端のパフォーマンスを達成し、さらに驚くべきことに、kcat/Km 値の予測において、現在の最先端モデルの組み合わせ結果を上回るパフォーマンスを発揮します。さらに、研究者らは、実験的に測定されたkcat/Km値と、kcat/KmデータセットのkcatおよびKm予測モデルを使用して計算されたkcat/Km値に基づいて、UniKPフレームワークを検証しました。
UniKP kcat / UniKP Km から導出された値と実験結果の kcat / Km の間に観察された相関関係が比較的低いことは注目に値します (PCC = −0.01)。この違いは、それぞれのモデルの構築に使用されるデータセットが異なるためである可能性があり、そのため、kcat/Km 値を予測するには別のモデルの開発が必要になります。将来的には、kcat および Km の値を含む統一データセットの出現により、kcat および Km モデルの計算出力は、kcat/Km 専用モデルによって生成される出力と厳密に一致することが予想されます。
酵素のマイニングと進化における具体的な用途
チロシンアンモニアリアーゼ (TAL) 酵素のマイニングと指向性進化における UniKP の応用は、合成生物学と生化学研究に革命をもたらすその能力を証明しました。 。この研究は、UniKP が高活性 TAL を効果的に認識し、既存の TAL の触媒効率を急速に向上させ、RgTAL-489T が野生型酵素の 3.5 倍高い kcat/Km 値を有することを示しています。
さらに、派生フレームワーク EF-UniKP は常に非常に高い精度で高活性 TAL 酵素を同定することができ、Tephrocybe rancida 由来の TrTAL の kcat/Km 値は野生型酵素よりも 2.6 倍高かった。その結果、5つの配列のkcatおよびkcat/Km値が野生型酵素の値を上回っていることが示されました。
UniKP は、酵素の発見と最適化のプロセスを加速することで、生体触媒、創薬、代謝工学、および酵素触媒プロセスに依存するその他の分野を進歩させるための強力なツールになることが期待されています。
制限事項と展望
ただし、UniKP の現在のバージョンにはまだいくつかの制限があります。たとえば、UniKP は酵素の実験的に測定された kcat 値とその変異体を区別できますが、予測された kcat 値は十分に正確ではありません。これは、既知のタンパク質配列および基質構造の数と比較してデータセットが不十分であることが原因である可能性があります。
再重み付け手法は、不均衡な kcat データセットによって引き起こされる予測バイアスをある程度まで軽減できますが (約 6.5% 改善)、合成少数オーバーサンプリング手法やその他のサンプル合成手法を使用すると、さらに多くのことを達成できます。
合成生物学の中心的な目標は、科学者が生物学を研究する方法に革命をもたらすデジタル細胞の開発です。この研究の重要な前提条件は、経路内のすべての酵素の酵素パラメータを注意深く決定することです。人工知能支援ツールはこの課題に光を当て、酵素動態を予測するためのハイスループットな方法を提供します。
UniKP 予測誤差は以前のモデルに比べて減少していますが、不正確さは依然として正確な代謝モデルを構築する上で大きな障害となっています。実験的に決定された kcat 値と Km 値の数を増やすと、モデルの精度を向上させることができます。
次に、研究者らは、転移学習、強化学習、その他のスモールショット学習アルゴリズムなどの最先端のアルゴリズムを組み合わせて、不均衡なデータセットを効果的に処理することを計画しています。そして、チームは、酵素の進化や生物の全体的な分析など、さらなる応用を探索することを目指しています。
論文リンク: https://www.nature.com/articles/s41467-023-44113-1
以上が中国科学院チームが酵素反応速度パラメータの予測精度を向上させるための統一フレームワークを作成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究
