Heim Technologie-Peripheriegeräte KI LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Feb 26, 2024 am 08:10 AM
工程 Diffusionsmodell

Wenn Sie von den von Sora generierten Videos schockiert waren, dann haben Sie das enorme Potenzial von Diffusionsmodellen bei der visuellen Generierung erkannt. Das Potenzial des Diffusionsmodells endet hier natürlich nicht. Weitere Fälle finden Sie in unserem aktuellen Bericht „Die Technologie hinter der Explosion von Sora“, einem Artikel, der die Diffusion zusammenfasst neueste Entwicklungsrichtung der Modelle》.

Kürzlich hat eine von You Yangs Team an der National University of Singapore, der University of California, Berkeley und Meta AI Research durchgeführte Forschung eine neue Anwendung des Diffusionsmodells entdeckt: Es wird zur Generierung von Modellparametern für neuronale Netze verwendet.

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

  • Papieradresse: https://arxiv.org/pdf/2402.13144.pdf

  • Projektadresse: https://github.com/NUS-HPC-AI-Lab/Neural-Network- Diffusion

  • Titel des Papiers: Diffusion neuronaler Netze

Diese Methode scheint es möglich zu machen, auf einfache Weise neue Modelle unter Verwendung bestehender neuronaler Netze zu generieren! Yann LeCun weiß das zu schätzen und teilt es. Das generierte Modell behält nicht nur die Leistung des Originalmodells bei, sondern übertrifft diese möglicherweise sogar.

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Das Diffusionsmodell wurde ursprünglich aus dem Konzept der Nichtgleichgewichts-Thermodynamik abgeleitet. Im Jahr 2015 verwendeten Jascha Sohl-Dickstein et al. in ihrer Arbeit „Deep Unsupervised Learning using Nonequilibrium Thermodynamics“ erstmals einen Diffusionsprozess, um das Rauschen schrittweise aus der Eingabe zu entfernen, was zu klaren Bildern führte.

Nachfolgende Forschungsarbeiten wie DDPM und DDIM optimierten das Diffusionsmodell und verliehen seinem Trainingsparadigma die charakteristischen Merkmale von Vorwärts- und Rückwärtsprozessen.

Zu diesem Zeitpunkt hatte die Qualität der vom Diffusionsmodell erzeugten Bilder noch nicht das ideale Niveau erreicht.

GuidedDiffusion Diese Arbeit führt umfangreiche Ablationsstudien durch und entdeckt eine bessere Architektur. Diese Pionierarbeit ermöglicht es Diffusionsmodellen, GAN-basierte Methoden in der Bildqualität zu übertreffen. Spätere Modelle wie GLIDE, Imagen, DALL·E 2 und Stable Diffusion können bereits fotorealistische Bilder erzeugen.

Obwohl Diffusionsmodelle im Bereich der Sehgenerierung große Erfolge erzielt haben, ist ihr Potenzial in anderen Bereichen relativ wenig erforscht.

Diese aktuelle Studie der National University of Singapore, der University of California, Berkeley und Meta AI Research hat eine erstaunliche Fähigkeit des Diffusionsmodells entdeckt: die Generierung leistungsstarker Modellparameter.

Sie müssen wissen, dass sich diese Aufgabe grundlegend von herkömmlichen visuellen Generierungsaufgaben unterscheidet! Die Parametergenerierungsaufgabe konzentriert sich auf die Erstellung neuronaler Netzwerkparameter, die bei einer bestimmten Aufgabe eine gute Leistung erbringen. Forscher haben diese Aufgabe zuvor aus apriorischer und probabilistischer Modellierungsperspektive untersucht, beispielsweise aus stochastischen neuronalen Netzen und bayesianischen neuronalen Netzen. Bisher hat jedoch noch niemand die Verwendung von Diffusionsmodellen zur Generierung von Parametern untersucht.

Wie in Abbildung 1 gezeigt, können wir bei sorgfältiger Beobachtung des Trainingsprozesses und des Diffusionsmodells des neuronalen Netzwerks feststellen, dass die diffusionsbasierte Bilderzeugungsmethode und der Lernprozess des stochastischen Gradientenabstiegs (SGD) einige Gemeinsamkeiten haben: 1) Der Trainingsprozess und die Verbreitung des neuronalen Netzwerks Der umgekehrte Prozess des Modells kann als der Prozess der Konvertierung von zufälligem Rauschen/Initialisierung in eine bestimmte Verteilung angesehen werden. 2) Durch mehrmaliges Hinzufügen von Rauschen werden hochwertige Bilder und leistungsstarke Parameter erzeugt kann auf einfache Verteilungen wie Gaußsche Verteilungen herabgestuft werden.

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Basierend auf den obigen Beobachtungen schlug das Team eine neue Methode zur Parametergenerierung vor: neuronale Netzwerkdiffusion, abgekürzt als p-diff, wobei sich p auf Parameter bezieht.

Die Idee dieser Methode ist sehr einfach. Sie besteht darin, das standardmäßige implizite Diffusionsmodell zu verwenden, um den Parametersatz des neuronalen Netzwerks zu synthetisieren, da das Diffusionsmodell eine gegebene Zufallsverteilung in eine bestimmte Verteilung umwandeln kann.

Ihr Ansatz ist einfach: Verwenden Sie eine Kombination aus einem Autoencoder und einem standardmäßigen latenten Diffusionsmodell, um leistungsstarke Parameterverteilungen zu lernen.

Zuerst wird für eine Teilmenge von Modellparametern, die mit dem SGD-Optimierer trainiert wurden, ein Autoencoder trainiert, um latente Darstellungen dieser Parameter zu extrahieren. Anschließend wird ein standardmäßiges latentes Diffusionsmodell verwendet, um ausgehend vom Rauschen latente Darstellungen zu synthetisieren. Schließlich wird der trainierte Autoencoder verwendet, um die synthetisierte latente Darstellung zu verarbeiten, um neue Hochleistungsmodellparameter zu erhalten.

Diese neue Methode weist diese beiden Eigenschaften auf: 1) Bei mehreren Datensätzen und Architekturen ist ihre Leistung innerhalb von Sekunden mit ihren Trainingsdaten (d. h. dem vom SGD-Optimierer trainierten Modell) vergleichbar und übertrifft diese sogar Das Modell unterscheidet sich erheblich vom trainierten Modell, was zeigt, dass die neue Methode neue Parameter synthetisieren kann, anstatt Trainingsbeispiele zu speichern.

Diffusion neuronaler Netze

Einführung in Diffusionsmodelle

Diffusionsmodelle bestehen normalerweise aus Vorwärts- und Rückwärtsprozessen, die einen mehrstufigen Kettenprozess bilden und durch Zeitschritte indiziert werden können.

Weiterleitungsprozess. Bei einer Stichprobe x_0 ∼ q(x) besteht der Vorwärtsprozess darin, schrittweise in T-Schritten Gaußsches Rauschen hinzuzufügen, um x_1, x_2 ... x_T zu erhalten.

Umgekehrter Vorgang. Im Gegensatz zum Vorwärtsprozess besteht das Ziel des Rückwärtsprozesses darin, ein Netzwerk zur Rauschunterdrückung zu trainieren, das Rauschen in x_t rekursiv entfernen kann. Der Prozess ist die Umkehrung mehrerer Schritte, wobei t von T bis hinunter auf 0 abnimmt.

Überblick über neuronale Netzwerkdiffusionsmethoden

Neuronale Netzwerkdiffusion (p-diff) Das Ziel dieser neuen Methode ist die Generierung leistungsstarker Parameter auf der Grundlage von Zufallsrauschen. Wie in Abbildung 2 dargestellt, besteht diese Methode aus zwei Prozessen: Parameter-Autoencoder und Parametergenerierung.

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Wählen Sie bei einem Satz trainierter Hochleistungsmodelle zunächst eine Teilmenge seiner Parameter aus und reduzieren Sie sie auf einen eindimensionalen Vektor.

Danach wird ein Encoder verwendet, um die impliziten Darstellungen dieser Vektoren zu extrahieren, und ein Decoder ist für die Rekonstruktion der Parameter basierend auf diesen impliziten Darstellungen verantwortlich.

Dann wird ein standardmäßiges latentes Diffusionsmodell trainiert, um diese latente Darstellung basierend auf zufälligem Rauschen zu synthetisieren.

Nach dem Training können Sie p-diff verwenden, um durch einen solchen Kettenprozess neue Parameter zu generieren: zufälliges Rauschen → umgekehrter Prozess → trainierter Decoder → generierte Parameter.

Experiment

Das Team hat in der Arbeit detaillierte experimentelle Einstellungen angegeben, die anderen Forschern helfen können, ihre Ergebnisse zu reproduzieren. Hier konzentrieren wir uns mehr auf die Ergebnisse und die Ablationsforschung.

Ergebnisse

Tabelle 1 ist ein Vergleich der Ergebnisse mit zwei Basismethoden für 8 Datensätze und 6 Architekturen.

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Basierend auf diesen Ergebnissen können folgende Beobachtungen gemacht werden: 1) In den meisten experimentellen Fällen kann die neue Methode Ergebnisse erzielen, die mit den beiden Basismethoden vergleichbar oder besser sind. Dies zeigt, dass die neu vorgeschlagene Methode die Verteilung von Hochleistungsparametern effizient lernen und auf der Grundlage von Zufallsrauschen bessere Modelle generieren kann. 2) Die neue Methode funktioniert bei mehreren verschiedenen Datensätzen gut, was zeigt, dass diese Methode eine gute Generalisierungsleistung aufweist.

Ablationsstudie und -analyse

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Tabelle 2(a) zeigt die Auswirkungen unterschiedlicher Trainingsdatengrößen (d. h. die Anzahl der Originalmodelle). Wie man sieht, ist der Leistungsunterschied zwischen den besten Ergebnissen für unterschiedliche Anzahlen von Originalmodellen eigentlich nicht so groß.

Um die Wirksamkeit von p-diff bei anderen Tiefen der Normalisierungsschicht zu untersuchen, untersuchte das Team auch die Leistung neuer Methoden zur Synthese anderer flacher Parameter. Um eine gleiche Anzahl von BN-Parametern zu gewährleisten, implementierte das Team die neu vorgeschlagene Methode für drei Sätze von BN-Schichten (die sich zwischen Schichten unterschiedlicher Tiefe befinden). Die experimentellen Ergebnisse sind in Tabelle 2(b) dargestellt. Es ist ersichtlich, dass die Leistung (beste Genauigkeit) der neuen Methode in allen Tiefen der BN-Schichteinstellungen besser ist als die des ursprünglichen Modells.

Der Zweck der Rauschverstärkung besteht darin, die Robustheit und Generalisierungsfähigkeit trainierter Autoencoder zu verbessern. Das Team führte Ablationsstudien zur Anwendung der Rauschverstärkung auf Eingabeparameter und implizite Darstellungen durch. Die Ergebnisse sind in Tabelle 2(c) dargestellt.

Zuvor wurde in Experimenten die Wirksamkeit neuer Methoden bei der Synthese einer Teilmenge von Modellparametern (d. h. Batch-Normalisierungsparametern) bewertet. Wir kommen also nicht umhin zu fragen: Können die Gesamtparameter des Modells mit dieser Methode synthetisiert werden?

Um diese Frage zu beantworten, führte das Team Experimente mit zwei kleinen Architekturen durch: MLP-3 und ConvNet-3. Darunter enthält MLP-3 drei lineare Schichten und eine ReLU-Aktivierungsfunktion, und ConvNet-3 enthält drei Faltungsschichten und eine lineare Schicht. Im Gegensatz zur zuvor erwähnten Strategie zur Trainingsdatenerfassung trainierte das Team diese Architekturen von Grund auf auf der Grundlage von 200 verschiedenen Zufallsstartwerten.

Tabelle 3 enthält die experimentellen Ergebnisse, wobei die neue Methode mit zwei Basismethoden (Originalmethode und Ensemble-Methode) verglichen wird. Es berichtet über den Vergleich der Ergebnisse und der Anzahl der Parameter von ConvNet-3 auf CIFAR-10/100 und MLP-3 auf CIFAR-10 und MNIST.

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Diese Experimente demonstrieren die Wirksamkeit und Generalisierungsfähigkeit der neuen Methode bei der Synthese allgemeiner Modellparameter, was bedeutet, dass die neue Methode eine Leistung erzielt, die mit der Basismethode vergleichbar oder besser ist. Diese Ergebnisse können auch das praktische Anwendungspotenzial der neuen Methode belegen.

Aber das Team zeigte in der Arbeit auch, dass es derzeit nicht in der Lage ist, die Gesamtparameter großer Architekturen wie ResNet, ViT und ConvNeXt zu synthetisieren. Dies wird hauptsächlich durch die Grenzen des GPU-Speichers begrenzt.

Das Team versuchte auch, die Gründe dafür zu erforschen und zu analysieren, warum diese neue Methode effektiv neuronale Netzwerkparameter generieren kann. Sie trainierten ResNet-18 von Grund auf mit drei zufälligen Seeds und visualisierten seine Parameter, wie in Abbildung 3 dargestellt.

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Sie verwendeten die Min-Max-Normalisierungsmethode, um Wärmekarten der Parameterverteilungen verschiedener Schichten zu erhalten. Basierend auf den Visualisierungsergebnissen der Faltungsschicht (Conv.-Schicht2) und der vollständig verbundenen Schicht (FC-Schicht18) ist ersichtlich, dass in diesen Schichten bestimmte Parametermuster vorhanden sind. Durch das Erlernen dieser Muster kann die neue Methode leistungsstarke neuronale Netzwerkparameter generieren.

Verlässt sich p-diff nur auf den Speicher?

p-diff scheint in der Lage zu sein, neuronale Netzwerkparameter zu generieren, aber generiert es Parameter oder speichert es sie nur? Das Team hat hierzu einige Untersuchungen durchgeführt und die Unterschiede zwischen dem Originalmodell und dem generierten Modell verglichen.

Für den quantitativen Vergleich schlugen sie einen Ähnlichkeitsindex vor. Einfach ausgedrückt bestimmt dieser Indikator die Ähnlichkeit zwischen zwei Modellen, indem er das Verhältnis „Intersection over Union“ (IoU) ihrer falschen Vorhersageergebnisse berechnet. Anschließend führten sie auf dieser Grundlage einige Vergleichsstudien und Visualisierungen durch. Die Vergleichsergebnisse sind in Abbildung 4 dargestellt.

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Abbildung 4(a) zeigt den Ähnlichkeitsvergleich zwischen dem Originalmodell und dem p-diff-Modell, das vier Vergleichsschemata umfasst.

Wie Sie sehen, ist der Unterschied zwischen den generierten Modellen viel größer als der Unterschied zwischen den Originalmodellen. Darüber hinaus ist auch die maximale Ähnlichkeit zwischen dem Originalmodell und dem generierten Modell geringer als die Ähnlichkeit zwischen den Originalmodellen. Dies reicht aus, um zu zeigen, dass p-diff neue Parameter generieren kann, die sich von seinen Trainingsdaten (d. h. dem Originalmodell) unterscheiden.

Das Team verglich die neue Methode auch mit fein abgestimmten Modellen und Modellen mit zusätzlichem Rauschen. Die Ergebnisse sind in Abbildung 4(b) dargestellt.

Es ist ersichtlich, dass es für das fein abgestimmte Modell und das Modell mit zusätzlichem Rauschen schwierig ist, das Originalmodell zu übertreffen. Darüber hinaus ist die Ähnlichkeit zwischen dem fein abgestimmten Modell oder dem Modell mit zusätzlichem Rauschen und dem Originalmodell sehr hoch, was darauf hindeutet, dass mit diesen beiden Betriebsmethoden kein völlig neues und leistungsstarkes Modell erhalten werden kann. Allerdings weisen die mit der neuen Methode generierten Modelle verschiedene Ähnlichkeiten und eine bessere Leistung als das Originalmodell auf.

Das Team verglich auch implizite Darstellungen. Die Ergebnisse sind in Abbildung 4(c) dargestellt. Wie man sieht, kann p-diff eine völlig neue latente Darstellung erzeugen, während das Hinzufügen von Rauschmethoden nur um die latente Darstellung des ursprünglichen Modells herum interpoliert.

Das Team visualisierte auch den Verlauf des p-diff-Prozesses. Insbesondere zeichneten sie die Parametertrajektorien auf, die zu verschiedenen Zeitschritten der Inferenzphase erzeugt wurden. Abbildung 5(a) zeigt 5 Trajektorien (unter Verwendung von 5 verschiedenen zufälligen Rauschinitialisierungen). Die rote Mitte in der Abbildung ist der Durchschnittsparameter des Originalmodells und der graue Bereich ist seine Standardabweichung (Standard).

LeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams

Mit zunehmenden Zeitschritten werden die generierten Parameter näher am Originalmodell als Ganzes liegen. Allerdings ist auch zu erkennen, dass die Endpunkte dieser Trajektorien (orangefarbene Dreiecke) noch einiges von den Durchschnittsparametern entfernt sind. Darüber hinaus sind auch die Formen dieser fünf Flugbahnen sehr unterschiedlich.

Abschließend untersuchte das Team den Einfluss der Anzahl der Originalmodelle (K) auf die Vielfalt der generierten Modelle. Abbildung 5(b) zeigt visuell die maximale Ähnlichkeit zwischen dem ursprünglichen Modell und dem generierten Modell für verschiedene K. Konkret generierten sie 50 Modelle, indem sie so lange Parameter generierten, bis die generierten 50 Modelle in allen Fällen eine Leistung von mehr als 76,5 % erbrachten.

Es ist ersichtlich, dass bei K = 1 die Ähnlichkeit sehr hoch und der Bereich eng ist, was darauf hinweist, dass das zu diesem Zeitpunkt generierte Modell im Wesentlichen die Parameter des Originalmodells speichert. Mit zunehmendem K wird auch der Ähnlichkeitsbereich größer, was darauf hinweist, dass die neue Methode andere Parameter als das ursprüngliche Modell generieren kann.

Das obige ist der detaillierte Inhalt vonLeCun verwendet ein Diffusionsmodell zur Generierung von Netzwerkparametern und lobt die neue Forschung des You Yang-Teams. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Jul 17, 2024 am 10:14 AM

Zeigen Sie LLM die Kausalkette und es lernt die Axiome. KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich. Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf die Demonstration des kausalen Transitivitätsaxioms für kleine Graphen trainiert wurde, auf das Transitivitätsaxiom für große Graphen verallgemeinern kann. Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Der vom Team vorgeschlagene axiomatische Trainingsrahmen ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, nur mit Demonstrationen

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Jul 23, 2024 pm 02:05 PM

Derzeit sind autoregressive groß angelegte Sprachmodelle, die das nächste Token-Vorhersageparadigma verwenden, auf der ganzen Welt populär geworden. Gleichzeitig haben uns zahlreiche synthetische Bilder und Videos im Internet bereits die Leistungsfähigkeit von Diffusionsmodellen gezeigt. Kürzlich hat ein Forschungsteam am MITCSAIL (darunter Chen Boyuan, ein Doktorand am MIT) erfolgreich die leistungsstarken Fähigkeiten des Vollsequenz-Diffusionsmodells und des nächsten Token-Modells integriert und ein Trainings- und Sampling-Paradigma vorgeschlagen: Diffusion Forcing (DF). ). Papiertitel: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Papieradresse: https:/

See all articles