Das Tsinghua-Team schlägt ein wissensgesteuertes Graph-Transformer-Pre-Training-Framework vor: eine Methode zur Verbesserung des Lernens molekularer Darstellungen-KI-php.cn

Inhaltsverzeichnis

Selbstüberwachtes Lernrahmenwerk KPGT

Heim

Das Tsinghua-Team schlägt ein wissensgesteuertes Graph-Transformer-Pre-Training-Framework vor: eine Methode zur Verbesserung des Lernens molekularer Darstellungen

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 23, 2023 pm 06:17 PM

入门

清华团队提出知识引导的图 Transformer 预训练框架：提高分子表征学习的方法

Herausgeber |. Ziluo

Um die Vorhersage molekularer Eigenschaften zu erleichtern, ist es sehr wichtig, eine effektive Darstellung molekularer Merkmale im Bereich der Arzneimittelforschung zu erlernen. Vor kurzem haben Menschen die Herausforderung der Datenknappheit gemeistert, indem sie graphische neuronale Netze (GNN) mithilfe selbstüberwachter Lerntechniken vorab trainiert haben. Bei aktuellen Methoden, die auf selbstüberwachtem Lernen basieren, gibt es jedoch zwei Hauptprobleme: das Fehlen klarer selbstüberwachter Lernstrategien und die begrenzten Fähigkeiten von GNN

Kürzlich haben Forschungsteams der Tsinghua-Universität, der West Lake University und des Zhijiang Laboratory Wissen vorgeschlagen Anleitung Wissensgesteuertes Pre-Training von Graph Transformer (KPGT), einem selbstüberwachten Lernrahmen, der verbesserte, verallgemeinerbare und robuste Vorhersagen molekularer Eigenschaften durch deutlich verbessertes Lernen molekularer Darstellungen ermöglicht. Das KPGT-Framework integriert einen Graph Transformer, der speziell für molekulare Graphen entwickelt wurde, und eine wissensgesteuerte Pre-Training-Strategie, um das strukturelle und semantische Wissen von Molekülen vollständig zu erfassen.

Durch umfangreiche Computertests an 63 Datensätzen hat KPGT eine überlegene Leistung bei der Vorhersage molekularer Eigenschaften in verschiedenen Bereichen gezeigt. Darüber hinaus wurde die praktische Anwendbarkeit von KPGT in der Arzneimittelentwicklung durch die Identifizierung potenzieller Inhibitoren zweier Antitumorziele verifiziert. Insgesamt kann KPGT ein leistungsstarkes und nützliches Werkzeug zur Weiterentwicklung des KI-gestützten Arzneimittelentwicklungsprozesses bereitstellen.

Die Forschung trug den Titel „Ein wissensgesteuertes Pre-Training-Framework zur Verbesserung des Lernens molekularer Repräsentationen“ und wurde am 21. November 2023 in „Nature Communications“ veröffentlicht.

清华团队提出知识引导的图 Transformer 预训练框架：提高分子表征学习的方法

Die experimentelle Bestimmung molekularer Eigenschaften erfordert viel Zeit und Ressourcen, und die Identifizierung von Molekülen mit gewünschten Eigenschaften ist eine der größten Herausforderungen bei der Arzneimittelforschung. In den letzten Jahren spielen auf künstlicher Intelligenz basierende Methoden eine immer wichtigere Rolle bei der Vorhersage molekularer Eigenschaften. Eine der größten Herausforderungen von auf künstlicher Intelligenz basierenden Methoden zur Vorhersage molekularer Eigenschaften ist die Charakterisierung von Molekülen

In den letzten Jahren haben sich auf Deep Learning basierende Methoden als potenziell nützliche Werkzeuge zur Vorhersage molekularer Eigenschaften herausgestellt, vor allem aufgrund ihrer Fähigkeit zur automatischen Extraktion aus einfachen Eingabedaten Überlegene Fähigkeit zur effektiven Charakterisierung. Insbesondere sind verschiedene neuronale Netzwerkarchitekturen, darunter rekurrente neuronale Netzwerke (RNN), Faltungs-Neuronale Netzwerke (CNN) und graphische neuronale Netzwerke (GNN), in der Lage, molekulare Daten in verschiedenen Formaten zu modellieren, die von vereinfachten molekularen Eingaben bis hin zu Zeileneingabesystemen reichen ( SMILES) zu molekularen Bildern und molekularen Diagrammen. Die begrenzte Verfügbarkeit von Markermolekülen und die Weite des chemischen Raums schränken jedoch ihre Vorhersageleistung ein, insbesondere bei der Verarbeitung von Datenproben außerhalb der Verteilung.

Mit den bemerkenswerten Erfolgen selbstüberwachter Lernmethoden in den Bereichen Verarbeitung natürlicher Sprache und Computer Vision wurden diese Techniken angewendet, um GNNs vorab zu trainieren und das Repräsentationslernen von Molekülen zu verbessern, wodurch wesentliche Ergebnisse bei nachgelagerten Aufgaben zur Vorhersage molekularer Eigenschaften erzielt wurden . Progress

Forscher gehen davon aus, dass die Einführung zusätzlichen Wissens, das molekulare Eigenschaften quantitativ beschreibt, in einen selbstüberwachten Lernrahmen diese Herausforderungen effektiv bewältigen kann. Moleküle verfügen über viele quantitative Eigenschaften, wie z. B. molekulare Deskriptoren und Fingerabdrücke, die mit derzeit etablierten Computerwerkzeugen leicht ermittelt werden können. Die Integration dieses zusätzlichen Wissens kann umfangreiche molekularsemantische Informationen in das selbstüberwachte Lernen einbringen und so den Erwerb semantisch reichhaltiger molekularer Darstellungen erheblich verbessern.

Im Allgemeinen basieren bestehende selbstüberwachte Lernmethoden auf GNN als Kernmodell. Allerdings verfügt GNN über eine begrenzte Modellkapazität. Darüber hinaus können GNNs Schwierigkeiten haben, weitreichende Wechselwirkungen zwischen Atomen zu erfassen. Und Transformer-basierte Modelle sind zu einem bahnbrechenden Modell geworden. Es zeichnet sich durch eine zunehmende Anzahl von Parametern und die Fähigkeit aus, weitreichende Wechselwirkungen zu erfassen, was einen vielversprechenden Ansatz zur umfassenden Modellierung der Strukturmerkmale von Molekülen darstellt.

Selbstüberwachtes Lernrahmenwerk KPGT

In dieser Studie stellten die Forscher vor Ein selbstüberwachtes Lernrahmenwerk namens KPGT wurde entwickelt, um das Lernen molekularer Darstellungen zu verbessern und dadurch nachgelagerte Aufgaben zur Vorhersage molekularer Eigenschaften zu fördern. Das KPGT-Framework besteht aus zwei Hauptkomponenten: einem Backbone-Modell namens Line Graph Transformer (LiGhT) und einer wissensgesteuerten Pre-Training-Richtlinie. Das KPGT-Framework kombiniert das leistungsstarke LiGhT-Modell, das speziell für die genaue Modellierung molekularer Graphstrukturen entwickelt wurde, und nutzt eine wissensgesteuerte Pre-Training-Strategie, um molekulare Struktur und semantisches Wissen zu erfassen.

Das Forschungsteam verwendete etwa 2 Millionen davon ChEMBL29-Datensatz Molecule, LiGhT wurde über eine wissensgesteuerte Vortrainingsstrategie vorab trainiert

清华团队提出知识引导的图 Transformer 预训练框架：提高分子表征学习的方法

Umgeschriebener Inhalt: Diagramm: KPGT-Übersicht. (Quelle: Papier)

KPGT übertrifft Basismethoden bei der Vorhersage molekularer Eigenschaften. Im Vergleich zu mehreren Basismethoden erzielt KPGT bei 63 Datensätzen erhebliche Verbesserungen.

清华团队提出知识引导的图 Transformer 预训练框架：提高分子表征学习的方法

Abbildung: Vergleichende Bewertung von KPGT- und Basismethoden zur Vorhersage molekularer Eigenschaften. (Quelle: Papier)

Darüber hinaus wurde die praktische Anwendung von KPGT durch den erfolgreichen Einsatz von KPGT zur Identifizierung potenzieller Inhibitoren zweier Antitumor-Targets, der hämatopoetischen Vorläuferkinase 1 (HPK1) und des Fibroblasten-Wachstumsfaktor-Rezeptors (FGFR1), demonstriert.

清华团队提出知识引导的图 Transformer 预训练框架：提高分子表征学习的方法

Abbildung: Identifizierung von HPK1-Inhibitoren mittels KPGT. (Quelle: Papier)

清华团队提出知识引导的图 Transformer 预训练框架：提高分子表征学习的方法

Abbildung: Identifizierung von FGFR1-Inhibitoren mittels KPGT. (Quelle: Papier)

Einschränkungen der Forschung

Trotz der Vorteile von KPGT bei der effektiven Vorhersage molekularer Eigenschaften gibt es immer noch einige Einschränkungen.

Zuallererst ist die Integration zusätzlichen Wissens das wichtigste Merkmal der vorgeschlagenen Methode. Zusätzlich zu den 200 molekularen Deskriptoren und 512 RDKFPs, die in KPGT verwendet werden, besteht die Möglichkeit, verschiedene andere Arten zusätzlichen Informationswissens einzubeziehen.
Darüber hinaus könnten weitere Forschungsarbeiten dreidimensionale (3D) Molekülkonformationen in den Vortrainingsprozess integrieren, wodurch das Modell wichtige 3D-Informationen über das Molekül erfassen und möglicherweise die Lernfähigkeiten für Darstellungen verbessern könnte.
Während KPGT derzeit ein Grundmodell mit etwa 100 Millionen Parametern und Vortraining für 2 Millionen Moleküle verwendet, könnte die Erforschung eines Vortrainings in größerem Maßstab wesentlichere Vorteile für das Lernen molekularer Darstellungen bieten.

Insgesamt bietet KPGT ein leistungsstarkes selbstüberwachtes Lerngerüst für effektives Lernen molekularer Darstellungen und treibt so das Gebiet der durch künstliche Intelligenz unterstützten Arzneimittelforschung voran.

Link zum Papier: https://www.nature.com/articles/s41467-023-43214-1

Das obige ist der detaillierte Inhalt vonDas Tsinghua-Team schlägt ein wissensgesteuertes Graph-Transformer-Pre-Training-Framework vor: eine Methode zur Verbesserung des Lernens molekularer Darstellungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7517

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Ein Diffusionsmodell-Tutorial, das Ihre Zeit wert ist, von der Purdue University Apr 07, 2024 am 09:01 AM

Diffusion kann nicht nur besser imitieren, sondern auch „erschaffen“. Das Diffusionsmodell (DiffusionModel) ist ein Bilderzeugungsmodell. Im Vergleich zu bekannten Algorithmen wie GAN und VAE im Bereich der KI verfolgt das Diffusionsmodell einen anderen Ansatz. Seine Hauptidee besteht darin, dem Bild zunächst Rauschen hinzuzufügen und es dann schrittweise zu entrauschen. Das Entrauschen und Wiederherstellen des Originalbilds ist der Kernbestandteil des Algorithmus. Der endgültige Algorithmus ist in der Lage, aus einem zufälligen verrauschten Bild ein Bild zu erzeugen. In den letzten Jahren hat das phänomenale Wachstum der generativen KI viele spannende Anwendungen in der Text-zu-Bild-Generierung, Videogenerierung und mehr ermöglicht. Das Grundprinzip dieser generativen Werkzeuge ist das Konzept der Diffusion, ein spezieller Sampling-Mechanismus, der die Einschränkungen bisheriger Methoden überwindet.

Generieren Sie PPT mit einem Klick! Kimi: Lassen Sie zuerst die „PPT-Wanderarbeiter' populär werden Aug 01, 2024 pm 03:28 PM

Kimi: In nur einem Satz, in nur zehn Sekunden ist ein PPT fertig. PPT ist so nervig! Um ein Meeting abzuhalten, benötigen Sie einen PPT; um einen wöchentlichen Bericht zu schreiben, müssen Sie einen PPT vorlegen, auch wenn Sie jemanden des Betrugs beschuldigen PPT. Das College ähnelt eher dem Studium eines PPT-Hauptfachs. Man schaut sich PPT im Unterricht an und macht PPT nach dem Unterricht. Als Dennis Austin vor 37 Jahren PPT erfand, hatte er vielleicht nicht damit gerechnet, dass PPT eines Tages so weit verbreitet sein würde. Wenn wir über unsere harte Erfahrung bei der Erstellung von PPT sprechen, treiben uns Tränen in die Augen. „Es dauerte drei Monate, ein PPT mit mehr als 20 Seiten zu erstellen, und ich habe es Dutzende Male überarbeitet. Als ich das PPT sah, musste ich mich übergeben.“ war PPT.“ Wenn Sie ein spontanes Meeting haben, sollten Sie es tun

Alle CVPR 2024-Auszeichnungen bekannt gegeben! Fast 10.000 Menschen nahmen offline an der Konferenz teil und ein chinesischer Forscher von Google gewann den Preis für den besten Beitrag Jun 20, 2024 pm 05:43 PM

Am frühen Morgen des 20. Juni (Pekinger Zeit) gab CVPR2024, die wichtigste internationale Computer-Vision-Konferenz in Seattle, offiziell die besten Beiträge und andere Auszeichnungen bekannt. In diesem Jahr wurden insgesamt 10 Arbeiten ausgezeichnet, darunter zwei beste Arbeiten und zwei beste studentische Arbeiten. Darüber hinaus gab es zwei Nominierungen für die beste Arbeit und vier Nominierungen für die beste studentische Arbeit. Die Top-Konferenz im Bereich Computer Vision (CV) ist die CVPR, die jedes Jahr zahlreiche Forschungseinrichtungen und Universitäten anzieht. Laut Statistik wurden in diesem Jahr insgesamt 11.532 Arbeiten eingereicht, von denen 2.719 angenommen wurden, was einer Annahmequote von 23,6 % entspricht. Laut der statistischen Analyse der CVPR2024-Daten des Georgia Institute of Technology befassen sich die meisten Arbeiten aus Sicht der Forschungsthemen mit der Bild- und Videosynthese und -generierung (Imageandvideosyn

Fünf Programmiersoftware für den Einstieg in das Erlernen der C-Sprache Feb 19, 2024 pm 04:51 PM

Als weit verbreitete Programmiersprache ist die C-Sprache eine der grundlegenden Sprachen, die für diejenigen erlernt werden müssen, die sich mit Computerprogrammierung befassen möchten. Für Anfänger kann das Erlernen einer neuen Programmiersprache jedoch etwas schwierig sein, insbesondere aufgrund des Mangels an entsprechenden Lernwerkzeugen und Lehrmaterialien. In diesem Artikel werde ich fünf Programmiersoftware vorstellen, die Anfängern den Einstieg in die C-Sprache erleichtert und Ihnen einen schnellen Einstieg ermöglicht. Die erste Programmiersoftware war Code::Blocks. Code::Blocks ist eine kostenlose integrierte Open-Source-Entwicklungsumgebung (IDE) für

Von Bare-Metal bis hin zu einem großen Modell mit 70 Milliarden Parametern finden Sie hier ein Tutorial und gebrauchsfertige Skripte Jul 24, 2024 pm 08:13 PM

Wir wissen, dass LLM auf großen Computerclustern unter Verwendung umfangreicher Daten trainiert wird. Auf dieser Website wurden viele Methoden und Technologien vorgestellt, die den LLM-Trainingsprozess unterstützen und verbessern. Was wir heute teilen möchten, ist ein Artikel, der tief in die zugrunde liegende Technologie eintaucht und vorstellt, wie man einen Haufen „Bare-Metals“ ohne Betriebssystem in einen Computercluster für das LLM-Training verwandelt. Dieser Artikel stammt von Imbue, einem KI-Startup, das allgemeine Intelligenz durch das Verständnis der Denkweise von Maschinen erreichen möchte. Natürlich ist es kein einfacher Prozess, einen Haufen „Bare Metal“ ohne Betriebssystem in einen Computercluster für das Training von LLM zu verwandeln, aber Imbue hat schließlich erfolgreich ein LLM mit 70 Milliarden Parametern trainiert der Prozess akkumuliert

PyCharm Community Edition-Installationsanleitung: Beherrschen Sie schnell alle Schritte Jan 27, 2024 am 09:10 AM

Schnellstart mit PyCharm Community Edition: Detailliertes Installations-Tutorial, vollständige Analyse Einführung: PyCharm ist eine leistungsstarke integrierte Python-Entwicklungsumgebung (IDE), die einen umfassenden Satz an Tools bereitstellt, mit denen Entwickler Python-Code effizienter schreiben können. In diesem Artikel wird die Installation der PyCharm Community Edition im Detail vorgestellt und spezifische Codebeispiele bereitgestellt, um Anfängern den schnellen Einstieg zu erleichtern. Schritt 1: PyCharm Community Edition herunterladen und installieren Um PyCharm verwenden zu können, müssen Sie es zunächst von der offiziellen Website herunterladen

KI im Einsatz |. AI hat einen Lebens-Vlog eines allein lebenden Mädchens erstellt, der innerhalb von drei Tagen Zehntausende Likes erhielt Aug 07, 2024 pm 10:53 PM

Herausgeber des Machine Power Report: Yang Wen Die Welle der künstlichen Intelligenz, repräsentiert durch große Modelle und AIGC, hat unsere Lebens- und Arbeitsweise still und leise verändert, aber die meisten Menschen wissen immer noch nicht, wie sie sie nutzen sollen. Aus diesem Grund haben wir die Kolumne „KI im Einsatz“ ins Leben gerufen, um detailliert vorzustellen, wie KI durch intuitive, interessante und prägnante Anwendungsfälle für künstliche Intelligenz genutzt werden kann, und um das Denken aller anzuregen. Wir heißen Leser auch willkommen, innovative, praktische Anwendungsfälle einzureichen. Videolink: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ Vor kurzem wurde der Lebens-Vlog eines allein lebenden Mädchens auf Xiaohongshu populär. Eine Animation im Illustrationsstil, gepaart mit ein paar heilenden Worten, kann in nur wenigen Tagen leicht erlernt werden.

Eine Pflichtlektüre für technische Anfänger: Analyse der Schwierigkeitsgrade von C-Sprache und Python Mar 22, 2024 am 10:21 AM

Titel: Ein Muss für technische Anfänger: Schwierigkeitsanalyse der C-Sprache und Python, die spezifische Codebeispiele erfordert. Im heutigen digitalen Zeitalter ist Programmiertechnologie zu einer immer wichtigeren Fähigkeit geworden. Ob Sie in Bereichen wie Softwareentwicklung, Datenanalyse, künstliche Intelligenz arbeiten oder einfach nur aus Interesse Programmieren lernen möchten, die Wahl einer geeigneten Programmiersprache ist der erste Schritt. Unter vielen Programmiersprachen sind C-Sprache und Python zwei weit verbreitete Programmiersprachen, jede mit ihren eigenen Merkmalen. In diesem Artikel werden die Schwierigkeitsgrade der C-Sprache und von Python analysiert

See all articles