精度 >98%、電子密度に基づく GPT は化学研究に使用され、Nature サブジャーナルに掲載
現在のホストゲスト化学研究は労力と費用がかかります
SMILES などの文字列、分子は「単語」で表現されます。 「C1C=C1 」 (シクロプロペン) などの、最も広く普及している分子の数値表現の 1 つです。最先端の自然言語処理を使用することで、これらの表現はリカレント ニューラル ネットワークや Transformer モデルなどの AI テクノロジーと直接互換性があります。
分子を 3D ボリュームとして表現する利点は、畳み込みニューラル ネットワークなどの最新の AI テクノロジを適用できることです。これまで、分子記述子としての 3D ボリュームの応用のほとんどは、特性の予測や新規薬剤設計に焦点を当ててきました。しかし、3D ボリュームを分子記述子として使用することは、現在、これらのボリュームを明確な分子構造に関連付ける効率的な方法がないために妨げられています。
過去 40 年間にわたり、キャビティ内のバルク相から分子を隔離することで分子の化学的および物理的特性を変化させる傾向のある分子容器 (中空有機分子または中空超分子構造) に主な焦点が当てられてきました。オブジェクト システムはますます研究されています。ホストゲストシステムには、触媒作用から生体医工学、材料科学、反応性分子の安定化まで、幅広い用途があります。
ククルビットウリル (CB[n]) と有機金属ケージは、最も成功した分子容器設計の 1 つです。ホスト - ゲストの化学は目覚ましい成果を上げていますが、既存の系での報告されていないゲストの発見や、新しいホスト - ゲスト系の最適化は依然として手間と費用のかかる反復プロセスであり、科学の進歩のペースを妨げています。
電子密度でトレーニングされた機械学習モデル
ここでは、ホスト分子を 3D ボリューム (つまり、静電ポテンシャル密度で変更された電子) として表現できることが実証されています。ホストの化学構造を超えたホスト - ゲスト システムに関する知識がなくても、ホスト - ゲスト システムのコンピューター支援発見によって発見されました。
その過程で、研究者らは、3D 体積分子記述子を SMILES 表現に効率的に変換するようにトレーニングできる Transformer モデルを構築し、それによって専門の化学者が使用できる分子構造を生成しました。
研究ではまた、静電ポテンシャル データを使用して分子の電子密度を変更することで、分子を 3D ボリュームとして効果的に表現できること、およびこれら 2 つの特徴が、自己回帰サンプリング スキーム ボリュームの形状と電荷が相互作用してホストのゲスト分子を検出します。

Transformer モデルは、98.125% の精度で SMILES 表現を完全に予測します。単一トークンの予測精度は 99.114% です。Transformer のデコーダは、GPT などの純粋な生成モデルに分離することもできます。
ククルビットウリル CB[6] のコンピューター支援発見と金属有機ケージの実験的検証 には 2 段階のワークフローが必要です。まず、両方のホストの潜在的なゲスト分子の仮想ライブラリを生成するために、インシリコ ワークフローが設計されました。次に、実験テストのために専門化学者がこれらの仮想ライブラリから最も有望なゲスト候補を選択することを含む、in vitro ワークフローが確立されました。
CB[6] および ゲスト分子のコンピューター生成は、上図に示すワークフローを通じて実現されます。ワークフローには次のステップが含まれます:
(1) 3D 電子密度ボリューム トレーニング セットは、公開されている QM9 データセット内の分子から派生し、変分オートエンコーダー (VAE) を使用してこの 3D 電子密度ボリューム トレーニング セットをモデル化することで、
「分子ジェネレーター」。QM9 データセットから得られるものを超える 3D 電子密度ボリュームの生成を可能にします。 VAE 分子ジェネレーターは、3D 電子密度ボリュームを 1 次元 (1D) 潜在空間にエンコードし、この 1D 潜在空間からデコードすることで分子に対応する 3D 電子密度ボリュームを生成することによって機能します。興味深いことに、このアプローチでは化学的に健全な分子のみが生成されました。
(2) VAE 分子ジェネレーターと勾配降下最適化アルゴリズムを使用して、特定のホスト分子のゲスト分子のライブラリ (3D 電子密度ボリュームの形式) を生成します。ゲスト分子は、静電相互作用を最適化しながら、ホストとゲストの電子密度間の重複を最小限に抑えることによって作成されます。
(3) 人間のオペレーターにとって 3D 電子密度ボリュームを化学的に解釈可能な構造に変換するのは困難な場合があるため、Transformer モデルは専門家がより簡単にアクセスできる方法でこれらのボリュームを SMILES 表現に変換するようにトレーニングされました。化学者が理解できる形式には、分子を記述するために必要なすべての情報が含まれています。コンピューター シミュレーションを通じて CB[6] および の潜在的なゲスト分子を生成した後、最も有望な候補を実験的にテストするための in vitro ワークフローが確立されました。
使用した実験手順を以下に説明します。
(1) コンピューターワークフローによって生成された CB[6] と のオブジェクトは、実験的テストのために化学の専門家によって分類されます。テストに有望なゲストは、CB[6] または
の既知のゲストとの構造的類似性、プロの化学者の直観、およびそれらの商業的入手可能性に基づいて選択されます。
(2) CB[6] または 98% GPT 滴定法を使用します。これには価値があります。インシリコで生成されたゲストには、ホストに結合する (または密接に関係する) ことが以前に知られていた分子と、専門家の直感を無視する分子の混合物が含まれていることに注意してください。
2 つの一般的なホストとゲストの実験的検証システム
研究者らは、ククルビツリル (CB[n]) と有機金属ケージという 2 つの一般的なホスト - ゲスト システムのワークフローを実験的に検証しました。これらは文献で検証されているが報告されていないゲストになりました。
このアルゴリズムは、CB[6] について以前に知られていた 9 つのゲストを生成しました。また、化学者が実験的テストに値すると考えた CB[6] の 7 つの潜在的な新しいゲストも特定しました。CB[6] 新しいゲストの親和性は、直接 HCO2H/H2O 1:1v/v での滴定
7 つのケースすべてで、ホスト-ゲスト システムの一連のシグナルが観察され、システムの急速な交換が NMR 時間スケールで起こっていることを示しました。錯体形成後、ゲスト分子の脂肪族鎖共鳴は高磁場にシフトし、ゲスト分子が CB[6] キャビティ内にカプセル化されていることを示します。 " /> CB[6] との結合定数は、13.5 M^-1 から 5,470 M^-1 の範囲で、以前に確立された傾向に従います。
の場合、最適化アルゴリズムは未知のゲスト分子、4 つの潜在的な未報告ゲスト、および [Pd214](BArF)4 のみを生成します。 4 つのケースすべてにおいて、[Pd214](BArF)4 に対するゲストの親和性は、CD2Cl2 における「小さな中性ゲスト」に対する以前に報告された親和性よりも低い範囲にあり、一貫していました (Ka は 44 M^-1 から 44 M^-1 まで) 529M^-1)。 研究では分子を表現するために SMILES 表記を使用することに焦点を当てましたが、Self-Referential Embedded Strings (SELFIES) などの他の同様の形式もテストされました。
QM9 データセットには、CB などの宿主のゲストになることができる完璧なサイズの分子が含まれています[6]が、この研究で遭遇した制限の 1 つは、金属有機ケージ の空洞が大きく、より大きな対象分子が必要であることです。将来の研究では、GDB-17 データセットなどのより大きな分子を含むデータセットが使用される予定です。
その後、「私たちの目標は、新しいリガンドの選択を生成プロセスに組み込み、自動合成プラットフォーム (Chemputer ロボットなど) で分子を自律的に合成し、最適化とテストの間のループを閉じて、サイバーフィジカルクローズドループシステム。」
以上が精度 >98%、電子密度に基づく GPT は化学研究に使用され、Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズム フレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究
