


Transformer könnte nachdenklich sein, tut es aber einfach nicht
Wird das Sprachmodell zukünftige Token vorsehen? Dieses Papier gibt Ihnen die Antwort.
„Lass Yann LeCun es nicht sehen.“
Yann LeCun sagte, es sei zu spät, er habe es bereits gesehen. Die Frage, die in dem Artikel „LeCun Must Read“ diskutiert wird, den ich heute vorstellen werde, lautet: Ist Transformer ein durchdachtes Sprachmodell? Wenn es an einem bestimmten Standort Rückschlüsse zieht, antizipiert es dann nachfolgende Standorte?
Das Fazit dieser Studie lautet: Transformer hat die Fähigkeit dazu, tut dies aber in der Praxis nicht.
Wir alle wissen, dass Menschen denken, bevor sie sprechen. Zehn Jahre Sprachforschung zeigen, dass Menschen, wenn sie Sprache verwenden, die bevorstehende Spracheingabe, Wörter oder Sätze, mental vorhersagen.
Im Gegensatz zum Menschen weisen aktuelle Sprachmodelle beim „Sprechen“ jedem Token einen festen Rechenaufwand zu. Wir kommen also nicht umhin zu fragen: Werden Sprachmodelle im Voraus denken wie Menschen?
Jüngsten Untersuchungen zufolge konnte gezeigt werden, dass der nächste Token durch die Untersuchung des verborgenen Zustands des Sprachmodells vorhergesagt werden kann. Interessanterweise kann durch die Verwendung linearer Sonden für die verborgenen Zustände des Modells die Ausgabe des Modells auf zukünftige Token bis zu einem gewissen Grad vorhergesagt werden, und zukünftige Ausgaben können vorhersehbar geändert werden. Einige neuere Untersuchungen haben gezeigt, dass es möglich ist, das nächste Token vorherzusagen, indem die verborgenen Zustände eines Sprachmodells untersucht werden. Interessanterweise kann durch die Verwendung linearer Sonden für die verborgenen Zustände des Modells die Ausgabe des Modells auf zukünftige Token bis zu einem gewissen Grad vorhergesagt werden, und zukünftige Ausgaben können vorhersehbar geändert werden.
Diese Ergebnisse legen nahe, dass die Modellaktivierung zu einem bestimmten Zeitpunkt zumindest teilweise eine Prognose für die zukünftige Ausgabe darstellt.
Allerdings wissen wir noch nicht, warum: Ist dies nur eine zufällige Eigenschaft der Daten oder liegt es daran, dass das Modell absichtlich Informationen für zukünftige Zeitschritte aufbereitet (dies wirkt sich jedoch auf die Leistung des Modells am aktuellen Standort aus)?
Um diese Frage zu beantworten, haben drei Forscher der University of Colorado Boulder und der Cornell University kürzlich einen Artikel mit dem Titel „Werden Sprachmodelle zukünftige Token planen?“ veröffentlicht. "These.
Titel des Papiers: Planen Sprachmodelle zukünftige Token? Optimieren Sie nicht nur das Gewicht für den Verlust der aktuellen Token-Position, sondern optimieren Sie auch die Token später in der Sequenz. Sie fragten weiter: In welchem Verhältnis wird das aktuelle Transformatorgewicht dem aktuellen Token und zukünftigen Token Ressourcen zuweisen?
Sie haben zwei Möglichkeiten in Betracht gezogen: die Pre-Caching-Hypothese und die Breadcrumbs-Hypothese.
Die Pre-Cache-Hypothese bedeutet, dass der Transformator im Zeitschritt t Merkmale berechnet, die für die Inferenzaufgabe des aktuellen Zeitschritts nicht relevant sind, aber für zukünftige Zeitschritte t + τ nützlich sein können, während die Breadcrumb-Hypothese bedeutet, dass die Merkmale, die für den Zeitschritt t am relevantesten sind, bereits den Merkmalen entsprechen, die im Zeitschritt t + τ am nützlichsten sind. Um zu bewerten, welche Hypothese richtig ist, schlug das Team ein kurzsichtiges Trainingsschema vor, das den Verlustgradienten an der aktuellen Position nicht auf den verborgenen Zustand an der vorherigen Position überträgt. Die mathematische Definition und theoretische Beschreibung der oben genannten Annahmen und Lösungen finden Sie im Originalpapier.
Um zu verstehen, ob es für Sprachmodelle möglich ist, Precaching direkt zu implementieren, haben sie ein synthetisches Szenario entworfen, in dem die Aufgabe nur durch explizites Precaching erfüllt werden kann. Sie konfigurierten eine Aufgabe, bei der das Modell Informationen für den nächsten Token vorab berechnen musste, da es sonst nicht in der Lage wäre, die richtige Antwort in einem einzigen Durchgang genau zu berechnen.的 Definition synthetischer Datensätze, die vom Team erstellt wurden.
In dieser synthetischen Szene fand das Team klare Beweise dafür, dass Transformatoren lernen können, vorab zwischenzuspeichern. Transformatorbasierte Sequenzmodelle tun dies, wenn sie Informationen vorab berechnen müssen, um Verluste zu minimieren. Dann untersuchten sie, ob Modelle natürlicher Sprache (vorab trainierte GPT-2-Varianten) die Breadcrumb-Hypothese oder die Precaching-Hypothese aufweisen würden. Ihre Experimente mit kurzsichtigen Trainingsschemata zeigen, dass Precaching in dieser Umgebung viel seltener auftritt, sodass die Ergebnisse stärker in Richtung der Breadcrumb-Hypothese tendieren.
2-Modell basierend auf der Token-Position und dem kurzsichtigen GPT-2-Modell.原 GPT-2 Überprüfung des Kreuzentropieverlusts, der durch primitives und kurzes Training erzielt wird.
Das Team behauptet also: Auf realen Sprachdaten bereiten Sprachmodelle zukünftige Informationen nicht in nennenswertem Umfang vor. Stattdessen handelt es sich um Rechenfunktionen, die für die Vorhersage des nächsten Tokens nützlich sind – was sich auch für zukünftige Schritte als nützlich erweisen wird.
Das Team sagte: „In den Sprachdaten stellen wir fest, dass es keinen signifikanten Kompromiss zwischen der gierigen Optimierung für den nächsten Token-Verlust und der Sicherstellung der zukünftigen Vorhersageleistung gibt Wir können also wahrscheinlich sehen, dass es herauskommt.“ Die Frage, ob der Transformer vorausschauend sein kann, scheint im Wesentlichen eine Datenfrage zu sein.
Es ist denkbar, dass wir vielleicht in Zukunft durch geeignete Datenverarbeitungsmethoden Sprachmodellen die Fähigkeit geben können, wie Menschen vorauszudenken.
Das obige ist der detaillierte Inhalt vonTransformer könnte nachdenklich sein, tut es aber einfach nicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Herausgeber |. Der Einsatz von Ziluo AI bei der Rationalisierung der Arzneimittelforschung nimmt explosionsartig zu. Durchsuchen Sie Milliarden von Kandidatenmolekülen nach solchen, die möglicherweise über Eigenschaften verfügen, die für die Entwicklung neuer Medikamente erforderlich sind. Es sind so viele Variablen zu berücksichtigen, von Materialpreisen bis hin zum Fehlerrisiko, dass es keine leichte Aufgabe ist, die Kosten für die Synthese der besten Kandidatenmoleküle abzuwägen, selbst wenn Wissenschaftler KI einsetzen. Hier entwickelten MIT-Forscher SPARROW, ein quantitatives Entscheidungsalgorithmus-Framework, um automatisch die besten molekularen Kandidaten zu identifizieren und so die Synthesekosten zu minimieren und gleichzeitig die Wahrscheinlichkeit zu maximieren, dass die Kandidaten die gewünschten Eigenschaften aufweisen. Der Algorithmus bestimmte auch die Materialien und experimentellen Schritte, die zur Synthese dieser Moleküle erforderlich sind. SPARROW berücksichtigt die Kosten für die gleichzeitige Synthese einer Charge von Molekülen, da häufig mehrere Kandidatenmoleküle verfügbar sind

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S
