Heim Technologie-Peripheriegeräte KI Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Sep 20, 2023 pm 03:05 PM
理论 transformer

Warum funktioniert der Transformator so gut? Woher kommt die In-Context-Learning-Fähigkeit, die es vielen großen Sprachmodellen bietet? Im Bereich der künstlichen Intelligenz hat sich der Transformer zum dominierenden Modell des Deep Learning entwickelt, die theoretischen Grundlagen für seine hervorragende Leistung sind jedoch nur unzureichend untersucht.

Kürzlich haben neue Forschungsergebnisse von Forschern von Google AI, der ETH Zürich und Google DeepMind versucht, die Antwort auf das Rätsel zu finden. In einer neuen Forschung haben sie den Transformator rückentwickelt und einige Optimierungsmethoden gefunden. Papier „Uncovering mesa-optimization algorithms in Transformers“: Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.
                                                          Papierlink: https://arxiv.org/abs/2309.05858

Der Autor beweist, dass im Vorwärtsdurchlauf von Transformer eine Minimierung des allgemeinen autoregressiven Verlusts auftritt Hilfsgradientenbasierter Optimierungsalgorithmus, der in ausgeführt wird. Dieses Phänomen wurde kürzlich als „Mesa-Optimierung“ bezeichnet. Darüber hinaus stellten die Forscher fest, dass der resultierende Mesa-Optimierungsalgorithmus unabhängig von der Modellgröße kontextbezogene Small-Shot-Lernfähigkeiten aufwies. Die neuen Ergebnisse ergänzen daher die Prinzipien des Small-Shot-Lernens, die zuvor in großen Sprachmodellen zum Vorschein kamen.

Die Forscher glauben, dass der Erfolg von Transformers auf seiner architektonischen Ausrichtung bei der Implementierung des Mesa-Optimierungsalgorithmus im Vorwärtsdurchlauf beruht: (i) Definition interner Lernziele und (ii) Optimierung dieser.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

                                                                                                               . Als Eingabesequenz s_1, . . , s_t wird bis zum Zeitschritt t verarbeitet, Transformer (i) erstellt einen internen Trainingssatz bestehend aus Eingabe-Ziel-Assoziationspaaren, (ii) definiert eine interne Zielfunktion über den Ergebnisdatensatz, die zur Messung der Leistung des internen Modells verwendet wird unter Verwendung von Gewichten W, (iii) Optimieren Sie dieses Ziel und verwenden Sie das erlernte Modell, um zukünftige Vorhersagen zu generieren . Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Zu den Beiträgen dieser Studie gehören:

  • Verallgemeinert die Theorie von Oswald et al. und zeigt, wie Transformer intern konstruierte Ziele theoretisch optimieren können, indem sie auf Gradienten basierende Methoden aus der Regression zur Vorhersage verwenden nächstes Element der Sequenz.
  • Experimentell rückentwickelte Transformer trainierten einfache Sequenzmodellierungsaufgaben und fanden starke Beweise dafür, dass ihr Vorwärtsdurchlauf einen zweistufigen Algorithmus implementiert: (i) Frühe Selbstaufmerksamkeitsschicht über Gruppierungs- und Kopiermarkierungen baut den internen Trainingsdatensatz auf Der interne Trainingsdatensatz wird implizit erstellt. Definieren Sie interne Zielfunktionen und (ii) optimieren Sie diese Ziele auf einer tieferen Ebene, um Vorhersagen zu generieren.
  • Ähnlich wie bei LLM zeigen Experimente, dass auch einfache autoregressive Trainingsmodelle zu Kontextlernern werden können, und spontane Anpassungen sind entscheidend für die Verbesserung des Kontextlernens von LLM und können auch die Leistung in bestimmten Umgebungen verbessern.
  • Inspiriert durch die Entdeckung, dass Aufmerksamkeitsschichten versuchen, die interne Zielfunktion implizit zu optimieren, stellt der Autor die Mesa-Schicht vor, eine neue Art von Aufmerksamkeitsschicht, die das Optimierungsproblem der kleinsten Quadrate effektiv lösen kann, anstatt nur einzelne Gradientenschritte durchzuführen Optimalität zu erreichen. Experimente zeigen, dass eine einzelne Mesa-Schicht Deep-Linear- und Softmax-Selbstaufmerksamkeitstransformatoren bei einfachen sequentiellen Aufgaben übertrifft und gleichzeitig eine bessere Interpretierbarkeit bietet.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

  • Nach vorläufigen Sprachmodellierungsexperimenten wurde festgestellt, dass das Ersetzen der Standard-Selbstaufmerksamkeitsschicht durch die Mesa-Schicht vielversprechende Ergebnisse erzielte, was beweist, dass diese Schicht über leistungsstarke kontextbezogene Lernfähigkeiten verfügt.

Basierend auf aktuellen Arbeiten, die zeigen, dass Transformatoren, die explizit darauf trainiert sind, kleine Aufgaben im Kontext zu lösen, Gradientenabstiegsalgorithmen (GD) implementieren können. Hier zeigen die Autoren, dass sich diese Ergebnisse auf die autoregressive Sequenzmodellierung übertragen lassen – einen typischen Ansatz zum Training von LLMs.

Analysieren Sie zunächst Transformatoren, die auf einfache lineare Dynamik trainiert sind, wobei jede Sequenz von einem anderen W* erzeugt wird – um eine sequenzübergreifende Speicherung zu verhindern. In diesem einfachen Aufbau demonstrieren die Autoren einen Transformator, der einen Mesa-Datensatz erstellt und dann vorverarbeitete GD verwendet, um das Mesa-Ziel zu optimieren.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Diese Studie trainiert einen Deep Transformer auf einer Token-Struktur, die benachbarte Sequenzelemente aggregiert. Interessanterweise führt diese einfache Vorverarbeitung zu einer äußerst spärlichen Gewichtsmatrix (weniger als 1 % der Gewichte sind ungleich Null), was zu einem rückentwickelten Algorithmus führt.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Bei einschichtiger linearer Selbstaufmerksamkeit entspricht das Gewicht einem GD-Schritt. Für tiefe Transformatoren wird die Interpretierbarkeit schwierig. Diese Studie basiert auf linearer Sondierung und untersucht, ob versteckte Aktivierungen autoregressive Ziele oder vorverarbeitete Eingaben vorhersagen.

Interessanterweise verbessert sich die Vorhersagbarkeit beider Erkennungsmethoden mit zunehmender Netzwerktiefe allmählich. Dieser Befund legt nahe, dass vorverarbeitete GD im Modell verborgen ist. Abbildung 2: Reverse Engineering der trainierten linearen Selbstaufmerksamkeitsschicht.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Die Studie ergab, dass die Trainingsschicht perfekt angepasst werden kann, wenn bei der Konstruktion alle Freiheitsgrade genutzt werden, darunter nicht nur die erlernte Lernrate η, sondern auch ein Satz erlernter Anfangsgewichte W_0. Wichtig ist, dass der erlernte einstufige Algorithmus, wie in Abbildung 2 dargestellt, immer noch eine weitaus bessere Leistung erbringt als eine einzelne Mesa-Schicht.

Wir können feststellen, dass es bei einfachen Gewichtseinstellungen leicht ist, durch grundlegende Optimierung herauszufinden, dass diese Ebene die hier untersuchte Aufgabe optimal lösen kann. Dieses Ergebnis zeigt den Vorteil fest codierter induktiver Vorspannungen zugunsten der Mesa-Optimierung.

Mit theoretischen Einblicken in den mehrschichtigen Fall analysieren Sie zunächst Deep Linear und Softmax und achten dabei nur auf Transformer. Die Autoren formatieren die Eingabe gemäß einer 4-Kanal-Struktur
, was der Wahl von W_0 = 0 entspricht.

Wie beim Single-Layer-Modell sehen die Autoren eine klare Struktur in den Gewichten des trainierten Modells. Als erste Reverse-Engineering-Analyse nutzt diese Studie diese Struktur und erstellt einen Algorithmus (RevAlg-d, wobei d die Anzahl der Schichten darstellt), der 16 Parameter pro Schichtkopf (anstelle von 3200) enthält. Die Autoren fanden heraus, dass dieser komprimierte, aber komplexe Ausdruck das trainierte Modell beschreiben kann. Insbesondere ermöglicht es eine nahezu verlustfreie Interpolation zwischen tatsächlichen Transformer- und RevAlg-d-Gewichten.
Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Während der RevAlg-d-Ausdruck einen trainierten mehrschichtigen Transformer mit einer kleinen Anzahl freier Parameter erklärt, ist es schwierig, ihn als Mesa-Optimierungsalgorithmus zu interpretieren. Daher verwendeten die Autoren eine lineare Regressionsuntersuchungsanalyse (Alain & Bengio, 2017; Akyürek et al., 2023), um die Eigenschaften des hypothetischen Mesa-Optimierungsalgorithmus zu ermitteln.

Auf dem in Abbildung 3 gezeigten tiefen linearen Selbstaufmerksamkeitstransformator können wir sehen, dass beide Sonden linear dekodiert werden können und die Dekodierungsleistung mit zunehmender Sequenzlänge und Netzwerktiefe zunimmt. Daher entdeckt die Basisoptimierung einen Hybridalgorithmus, der Schicht für Schicht auf das ursprüngliche Mesa-Ziel Lt (W) absteigt und gleichzeitig die Bedingungszahl des Mesa-Optimierungsproblems verbessert. Dies führt zu einem raschen Rückgang des Mesa-Ziel-Lt (W). Es ist auch zu erkennen, dass sich die Leistung mit zunehmender Tiefe deutlich verbessert.

Man kann daher davon ausgehen, dass der schnelle Rückgang des autoregressiven Mesa-Ziels Lt (W) durch schrittweise (schichtübergreifende) Mesa-Optimierung auf besser vorverarbeiteten Daten erreicht wird.建 Abbildung 3: Mehrschichtiges Transformatortraining für Reverse-Engineering-erstellte Eingänge.
Dies zeigt, dass der Transformator, wenn er auf dem gebauten Token trainiert wird, mit Mesa-Optimierung Vorhersagen trifft. Wenn Sequenzelemente direkt angegeben werden, erstellt der Transformator interessanterweise das Token selbst, indem er die Elemente gruppiert, was das Forschungsteam „Erstellen des Mesa-Datensatzes“ nennt.
Fazit

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Diese Studie zeigt, dass das Transformer-Modell in der Lage ist, Gradienten-basierte Inferenzalgorithmen zu entwickeln, wenn es auf eine Sequenzvorhersageaufgabe unter einem standardmäßigen autoregressiven Ziel trainiert wird. Daher können hochmoderne Ergebnisse, die in Multitasking-Meta-Lernumgebungen erzielt wurden, auch auf traditionelle selbstüberwachte LLM-Trainingsumgebungen übertragen werden.

Darüber hinaus ergab die Studie, dass erlernte autoregressive Inferenzalgorithmen umfunktioniert werden können, um überwachte kontextbezogene Lernaufgaben zu lösen, ohne dass eine Umschulung erforderlich ist, und die Ergebnisse in einem einzigen einheitlichen Rahmen erklären.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Was hat das also mit kontextbezogenem Lernen zu tun? Die Studie geht davon aus, dass der Transformator nach dem Training der autoregressiven Sequenzaufgabe eine angemessene Mesa-Optimierung erreicht und daher ohne Feinabstimmung ein Wenig-Schuss-Kontextlernen durchführen kann.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Diese Studie geht davon aus, dass es auch für LLM eine Mesa-Optimierung gibt, wodurch dessen kontextbezogene Lernfähigkeiten verbessert werden. Interessanterweise wurde in der Studie auch festgestellt, dass die effektive Anpassung von Eingabeaufforderungen für LLM auch zu erheblichen Verbesserungen der kontextuellen Lernfähigkeiten führen kann.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Mit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.

Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.

Referenzinhalt:
https://www.reddit.com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/
https://twitter.com/ oswaldjoh/status/1701873029100241241

Das obige ist der detaillierte Inhalt vonMit einer theoretischen Grundlage können wir tiefgreifende Optimierungen durchführen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. „Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Jun 22, 2024 am 06:43 AM

Herausgeber |. Der Einsatz von Ziluo AI bei der Rationalisierung der Arzneimittelforschung nimmt explosionsartig zu. Durchsuchen Sie Milliarden von Kandidatenmolekülen nach solchen, die möglicherweise über Eigenschaften verfügen, die für die Entwicklung neuer Medikamente erforderlich sind. Es sind so viele Variablen zu berücksichtigen, von Materialpreisen bis hin zum Fehlerrisiko, dass es keine leichte Aufgabe ist, die Kosten für die Synthese der besten Kandidatenmoleküle abzuwägen, selbst wenn Wissenschaftler KI einsetzen. Hier entwickelten MIT-Forscher SPARROW, ein quantitatives Entscheidungsalgorithmus-Framework, um automatisch die besten molekularen Kandidaten zu identifizieren und so die Synthesekosten zu minimieren und gleichzeitig die Wahrscheinlichkeit zu maximieren, dass die Kandidaten die gewünschten Eigenschaften aufweisen. Der Algorithmus bestimmte auch die Materialien und experimentellen Schritte, die zur Synthese dieser Moleküle erforderlich sind. SPARROW berücksichtigt die Kosten für die gleichzeitige Synthese einer Charge von Molekülen, da häufig mehrere Kandidatenmoleküle verfügbar sind

SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen Jul 17, 2024 pm 06:37 PM

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

See all articles