Auf dem Gebiet der künstlichen Intelligenz gibt es nur wenige Wissenschaftler wie Yann LeCun, die im Alter von 65 Jahren noch sehr aktiv in den sozialen Medien sind.
Yann LeCun gilt als ausgesprochener Kritiker auf dem Gebiet der künstlichen Intelligenz. Er war ein aktiver Unterstützer des Open-Source-Geistes und leitete Metas Team zur Einführung des beliebten Llama-2-Modells, wodurch er zum Marktführer im Bereich der Open-Source-Großmodelle wurde. Obwohl viele Menschen besorgt über die Zukunft der künstlichen Intelligenz sind und sich Sorgen über mögliche Weltuntergangsszenarien machen, vertritt LeCun eine andere Ansicht und ist fest davon überzeugt, dass die Entwicklung der künstlichen Intelligenz positive Auswirkungen auf die Gesellschaft haben wird, insbesondere die Einführung der Superintelligenz.
Kürzlich kam LeCun erneut zu Lex Fridmans Podcast und führte ein fast dreistündiges Gespräch über die Bedeutung von Open Source, die Grenzen von LLM und warum die Weltuntergangsverfechter der künstlichen Intelligenz falsch liegen und Themen wie den Weg zu AGI .
Beobachtungsseite: https://youtu.be/5t1vTLU7s40?feature=shared
Wir haben einige wertvolle Punkte aus diesem Podcast ausgewählt:
Lex Fridman: Sie sagten, dass autoregressives LLM nicht der Weg ist, auf dem wir Fortschritte in Richtung übermenschlicher Intelligenz machen werden. Warum können sie uns nicht den ganzen Weg mitnehmen?
Yann LeCun: Aus vielen Gründen. Erstens weist intelligentes Verhalten viele Merkmale auf. Zum Beispiel die Fähigkeit, die Welt zu verstehen, die Fähigkeit, die physische Welt zu verstehen, die Fähigkeit, sich an Dinge zu erinnern und sie abzurufen, dauerhaftes Gedächtnis, Denk- und Planungsfähigkeiten. Dies sind vier grundlegende Merkmale intelligenter Systeme oder Entitäten, Menschen und Tiere. LLM kann dies nicht oder nur auf sehr primitive Weise tun, ohne die physische Welt wirklich zu verstehen. Der LLM hat kein wirklich bleibendes Gedächtnis, kann nicht wirklich denken und schon gar nicht planen. Wenn Sie also erwarten, dass ein System intelligent ist, diese Dinge aber nicht kann, machen Sie einen Fehler. Das soll nicht heißen, dass autoregressive LLMs nutzlos sind. Sie sind sicherlich nützlich, aber sie sind nicht interessant und wir können kein ganzes App-Ökosystem um sie herum aufbauen. Doch als Pass zur Intelligenz auf menschlicher Ebene fehlen ihnen die notwendigen Bausteine.
Wir sehen viel mehr Informationen durch sensorische Eingaben als durch Sprache, und trotz unserer Intuition geschieht das meiste, was wir lernen und wissen, durch unsere Beobachtungen und Interaktionen mit der realen Welt, nicht durch Worte. Alles, was wir in den ersten Lebensjahren lernen, und schon gar nicht alles, was Tiere lernen, hat nichts mit Sprache zu tun.
Lex Fridman: Ist es das, was Sie gesagt haben, LLM mangelt es an Verständnis für die physische Welt? Intuitive Physik, gesundes Denken über den physischen Raum und die physische Realität sind für Sie also nichts Besonderes. Ist das ein großer Sprung, den LLM nicht machen kann?
Yann LeCun: Das LLM, das wir heute verwenden, kann dies aus vielen Gründen nicht, aber der Hauptgrund ist, dass LLM so trainiert wird: Sie erhalten einen Text, löschen einige Wörter im Text, Maskieren Sie sie, ersetzen Sie sie durch leere Token und trainieren Sie ein genetisches neuronales Netzwerk, um die fehlenden Wörter vorherzusagen. Wenn Sie dieses neuronale Netzwerk auf besondere Weise aufbauen, sodass es nur das Wort links oder das Wort, das es vorherzusagen versucht, betrachten kann, dann haben Sie ein System, das im Grunde versucht, das nächste Wort im Text vorherzusagen. Sie können ihm also einen Text und eine Eingabeaufforderung geben und ihn das nächste Wort vorhersagen lassen. Es kann das nächste Wort nie genau vorhersagen.
Es generiert also eine Wahrscheinlichkeitsverteilung über alle möglichen Wörter im Wörterbuch. Tatsächlich sagt es keine Worte voraus. Es sagt Wortblöcke als Einheiten von Unterwörtern voraus, sodass Unsicherheiten bei Vorhersagen leicht zu bewältigen sind, da nur eine begrenzte Anzahl von Wörtern im Wörterbuch vorkommen kann und Sie lediglich deren Verteilung berechnen. Aus dieser Verteilung wählt das System dann ein Wort aus. Natürlich ist in dieser Verteilung die Wahrscheinlichkeit höher, ein Wort mit einer höheren Wahrscheinlichkeit auszuwählen. Sie nehmen also eine Stichprobe aus dieser Verteilung, erzeugen tatsächlich ein Wort und verschieben dieses Wort dann in die Eingabe, sodass das System das zweite Wort nicht vorhersagt.
Das nennt man autoregressive Vorhersage, weshalb diese LLMs „autoregressive LLMs“ heißen sollten, wir nennen sie aber einfach LLMs. Dieser Prozess unterscheidet sich vom Prozess vor der Wortbildung.
Wenn du und ich reden, bist du und ich beide zweisprachig und wir denken darüber nach, was wir sagen werden, relativ unabhängig von der Sprache, die wir sagen werden. Wenn wir über ein mathematisches Konzept sprechen, haben unser Denken und die Antwort, die wir geben wollen, nichts damit zu tun, ob wir es auf Französisch, Russisch oder Englisch ausdrücken.
Lex Fridman: Chomsky verdrehte die Augen, aber ich verstehe, Sie sagen also, dass es eine größere Abstraktion gibt, die vor der Sprache existiert und auf sie abgebildet wird?
Yann LeCun: Für viele unserer Gedanken, ja.
Lex Fridman: Ist Ihr Humor abstrakt? Wenn Sie twittern und Ihre Tweets manchmal etwas scharf sind, haben Sie dann eine abstrakte Darstellung in Ihrem Gehirn, bevor die Tweets auf Englisch abgebildet werden?
Yann LeCun: hat eine abstrakte Darstellung, um sich die Reaktion des Lesers auf den Text vorzustellen. Aber über ein mathematisches Konzept nachzudenken oder sich vorzustellen, was man aus Holz machen möchte oder so etwas in der Art, hat absolut nichts mit Sprache zu tun. Sie führen keinen internen Monolog in einer bestimmten Sprache. Sie stellen sich ein mentales Modell der Dinge vor. Ich meine, wenn ich Sie bitte, sich vorzustellen, wie diese Wasserflasche aussehen würde, wenn ich sie um 90 Grad drehen würde, dann hat das nichts mit Sprache zu tun. Es ist klar, dass der größte Teil unseres Denkens auf einer abstrakteren Darstellungsebene stattfindet. Wenn es sich bei der Ausgabe um Sprache handelt, werden wir die Antwort planen, bevor wir sie aussprechen.
LLM macht das nicht und sagt einfach instinktiv Wort für Wort. Es ist so etwas wie eine unbewusste Bewegung, bei der dir jemand eine Frage stellt und du sie beantwortest. Es blieb keine Zeit, über die Antwort nachzudenken, aber sie war einfach. Sie müssen also nicht aufpassen, es reagiert automatisch. Das ist es, was LLM tut. Es denkt nicht wirklich über die Antworten nach. Da es viel Wissen angesammelt hat, kann es einige Dinge abrufen, aber es spuckt einfach Token für Token aus, ohne die Antwort zu planen.
Lex Fridman: Token für Token zu generieren ist notwendigerweise simpel, aber wenn das Weltmodell komplex genug ist, wird höchstwahrscheinlich eine Reihe von Token generiert, was eine tiefgreifende Sache sein wird.
Yann LeCun: Aber das basiert auf der Annahme, dass diese Systeme tatsächlich ein ewiges Modell der Welt haben.
Lex Fridman: Die eigentliche Frage ist also ... Können Sie ein Modell erstellen, das ein tiefes Verständnis der Welt hat?
Yann LeCun: Kann man es anhand von Vorhersagen aufbauen? Die Antwort lautet wahrscheinlich „Ja“. Aber kann es durch die Vorhersage von Wörtern aufgebaut werden? Die Antwort lautet höchstwahrscheinlich „Nein“, da die Sprache bei schwacher oder geringer Bandbreite sehr schlecht ist und nicht über genügend Informationen verfügt. Ein Modell der Welt zu erstellen bedeutet also, die Welt zu betrachten, zu verstehen, warum sich die Welt so entwickelt, wie sie es tut, und dann ist ein zusätzlicher Bestandteil des Weltmodells die Fähigkeit, vorherzusagen, wie sich die Welt als Ergebnis Ihrer Handlungen entwickeln wird nehmen.
Ein echtes Modell ist also: Hier ist meine Vorstellung vom Zustand der Welt zum Zeitpunkt T, und hier sind die Maßnahmen, die ich ergreifen könnte. Wie ist der vorhergesagte Zustand der Welt zum Zeitpunkt T+1? Nun muss der Zustand der Welt nicht alles über die Welt darstellen, er muss nur genügend Informationen darstellen, die für die Planung dieser Operation relevant sind, aber nicht unbedingt alle Details.
Jetzt kommt das Problem. Generative Modelle können dies nicht. Generative Modelle müssen also auf Video trainiert werden, und das versuchen wir seit 10 Jahren, indem man ein Video aufnimmt, dem System ein Video zeigt und im Grunde genommen die Erinnerung an das Video vorhersagen soll vorherzusagen, was passieren wird.
Wenn Sie möchten, können Sie große Videomodelle erstellen. Die Idee, dies zu tun, gibt es schon seit langem, bei FAIR habe ich und einige unserer Kollegen es seit 10 Jahren versucht, aber man kann mit LLM nicht wirklich den gleichen Trick machen, weil LLM, so wie ich Wie gesagt, man kann nicht genau vorhersagen, welches Wort auf eine Wortfolge folgt, aber man kann die Verteilung der Wörter vorhersagen. Wenn Sie sich nun ein Video ansehen, müssen Sie die Verteilung aller möglichen Frames im Video vorhersagen, und wir wissen nicht, wie das richtig geht.
Wir wissen nicht, wie wir Verteilungen auf hochdimensionalen kontinuierlichen Räumen sinnvoll darstellen können. Das ist das Hauptproblem, und wir können dies tun, weil die Welt viel komplexer und informationsreicher ist als Worte. Text ist diskret, während Video hochdimensional und kontinuierlich ist. Darin stecken viele Details. Wenn ich also ein Video von diesem Raum aufnehme und die Kamera im Video herumschwenkt, kann ich einfach nicht alles vorhersagen, was im Raum sein wird, während ich herumschwenke. Das System kann auch nicht vorhersagen, was im Raum erscheint, wenn die Kamera schwenkt. Vielleicht sagt es voraus, dass es sich um einen Raum handelt, in dem Licht ist, eine Wand und dergleichen. Es lässt sich nicht vorhersagen, wie ein Gemälde an der Wand aussehen wird oder wie die Textur eines Sofas aussehen wird. Natürlich lässt sich die Beschaffenheit eines Teppichs nicht vorhersagen. Daher kann ich nicht alle diese Details vorhersagen.
Ein möglicher Weg, damit umzugehen, den wir untersucht haben, besteht darin, ein Modell mit sogenannten latenten Variablen zu erstellen. Die latenten Variablen werden in das neuronale Netzwerk eingespeist, das alle Informationen über die Welt darstellen soll, die Sie noch nicht wahrgenommen haben. Sie müssen die Vorhersagekraft des Systems verbessern, um Pixel einschließlich der Feinheiten gut vorhersagen zu können von Teppichen, Sofas und Gemälden an der Wand.
Wir haben direkte neuronale Netze ausprobiert, GANs ausprobiert, VAEs ausprobiert und verschiedene regulierte Autoencoder ausprobiert. Mit diesen Methoden versuchen wir auch, gute Darstellungen von Bildern oder Videos zu erlernen, die dann als Eingabe für Bildklassifizierungssysteme usw. verwendet werden können. Im Grunde ist alles gescheitert.
Alle Systeme, die versuchen, fehlende Teile einer beschädigten Version eines Bildes oder Videos vorherzusagen, gehen grundsätzlich wie folgt vor: Holen Sie sich das Bild oder Video, beschädigen Sie es oder konvertieren Sie es auf irgendeine Weise und versuchen Sie dann, es aus der beschädigten Version zu rekonstruieren Version Ein vollständiges Video oder Bild und dann kann hoffentlich eine gute Bilddarstellung innerhalb des Systems entwickelt werden, die zur Objekterkennung, Segmentierung usw. verwendet werden kann. Dieser Ansatz ist im Grunde ein kompletter Fehlschlag, während er bei Texten hervorragend funktioniert. Dies ist das Prinzip, das im LLM verwendet wird.
Lex Fridman: Woher kam der Misserfolg? Ist es schwierig, das Bild gut darzustellen, etwa alle wichtigen Informationen gut in das Bild einzubetten? Ist es die Konsistenz zwischen Bild und Bild, Bild und Bild, die das Video ausmacht? Wie würde es aussehen, wenn wir alle Arten Ihres Scheiterns zusammenstellen würden?
Yann LeCun: Zunächst muss ich Ihnen sagen, was nicht funktioniert, denn es gibt andere Dinge, die funktionieren. Was also nicht funktioniert, ist, das System darauf zu trainieren, Darstellungen von Bildern zu lernen und es so zu trainieren, dass es aus beschädigten Bildern gute Bilder rekonstruiert.
Wir verfügen hierfür über eine ganze Reihe von Techniken, bei denen es sich allesamt um Varianten der Rauschunterdrückung von Autoencodern handelt, und einige meiner Kollegen bei FAIR haben sogenannte MAEs oder maskierte Autoencoder entwickelt. Es ist also im Grunde wie ein LLM oder so etwas, bei dem man das System trainiert, indem man den Text korrumpiert, aber man korrumpiert das Bild, entfernt Patches daraus und trainiert dann ein riesiges neuronales Netzwerk, um es zu rekonstruieren. Die Funktionen, die Sie erhalten, sind nicht gut, und Sie wissen, dass sie nicht gut sind, denn wenn Sie jetzt dieselbe Architektur trainieren, sie aber mit beschrifteten Daten, Textbeschreibungen der Bilder usw. überwachen, erhalten Sie gute Darstellungen und Leistung Bei der Erkennungsaufgabe ist es viel besser, als wenn Sie diese Art der selbstüberwachten Umschulung durchführen.
Die Struktur ist gut, und die Struktur des Encoders ist auch gut, aber die Tatsache, dass Sie das System auf die Rekonstruktion von Bildern trainieren, führt nicht dazu, dass es lange und gute allgemeine Bildmerkmale erzeugt. Was ist also die Alternative? Ein weiterer Ansatz ist die gemeinsame Einbettung.
Lex Fridman:: Was ist der grundlegende Unterschied zwischen Joint Embedding Architecture und LLM? Kann JEPA uns zu AGI bringen?
Yann LeCun: Erstens: Wie unterscheidet es sich von generativen Architekturen wie LLM? Ein LLM oder ein durch Rekonstruktion trainiertes Bildverarbeitungssystem generiert den Input. Die von ihnen generierten Roheingaben sind unverfälscht und nicht transformiert. Sie müssen also alle Pixel vorhersagen, und das System benötigt viele Ressourcen, um tatsächlich alle Pixel und alle Details vorherzusagen. In JEPA müssen Sie nicht alle Pixel vorhersagen, sondern nur eine abstrakte Darstellung der Eingabe. Das ist in vielerlei Hinsicht viel einfacher. Daher muss das JEPA-System beim Training so viele Informationen wie möglich aus der Eingabe extrahieren, jedoch nur Informationen, die relativ leicht vorherzusagen sind. Daher gibt es viele Dinge auf der Welt, die wir nicht vorhersagen können. Wenn Sie beispielsweise ein selbstfahrendes Auto auf der Straße oder auf der Straße haben, könnten Bäume die Straße umgeben und es könnte ein windiger Tag sein. Die Blätter am Baum bewegen sich also auf eine halbchaotische, zufällige Art und Weise, die Sie nicht vorhersagen können, und die Ihnen egal ist und die Sie auch nicht vorhersagen wollen. Sie möchten also, dass der Encoder grundsätzlich alle diese Details entfernt. Es wird Ihnen sagen, dass sich die Blätter bewegen, aber es wird Ihnen nicht genau sagen, was vor sich geht. Wenn Sie also im Darstellungsraum vorhersagen, müssen Sie nicht jedes Pixel jedes Blattes vorhersagen. Dies ist nicht nur viel einfacher, sondern ermöglicht es dem System auch, im Wesentlichen eine abstrakte Darstellung der Welt zu lernen, bei der alles, was modelliert und vorhergesagt werden kann, beibehalten wird und der Rest vom Encoder als Rauschen behandelt und eliminiert wird.
Daher wird der Abstraktionsgrad der Darstellung erhöht. Wenn Sie darüber nachdenken, ist das definitiv etwas, was wir getan haben. Wann immer wir ein Phänomen beschreiben, tun wir dies auf einer bestimmten Abstraktionsebene. Wir verwenden nicht immer die Quantenfeldtheorie, um jedes Naturphänomen zu beschreiben. Das ist unmöglich. Wir verfügen also über mehrere Abstraktionsebenen, um zu beschreiben, was in der Welt vor sich geht, von der Quantenfeldtheorie über Atomtheorie, Moleküle, Chemie, Materialien bis hin zu konkreten Objekten in der realen Welt und so weiter. Wir können also nicht einfach alles auf der untersten Ebene simulieren. Und genau das ist die Idee hinter JEPA, abstrakte Darstellungen selbstüberwacht und auch hierarchisch zu lernen. Ich denke, das ist ein wichtiger Teil eines intelligenten Systems. In Bezug auf die Sprache müssen wir dies nicht tun, da die Sprache bereits zu einem gewissen Grad abstrakt ist und viele unvorhersehbare Informationen eliminiert hat. Daher können wir Wörter direkt vorhersagen, ohne gemeinsame Einbettungen vorzunehmen oder den Abstraktionsgrad zu erhöhen.
Lex Fridman: Sie sprechen von Sprache, und wir sind zu faul, Sprache zu verwenden, weil wir abstrakte Darstellungen kostenlos erhalten haben, und jetzt müssen wir hineinzoomen und wirklich über intelligente Systeme im Allgemeinen nachdenken. Wir müssen uns mit der physischen Realität und der Realität, die ein Chaos ist, auseinandersetzen. Und das muss man wirklich tun, von der vollständigen, reichhaltigen, detaillierten Realität zu einer abstrakten Darstellung der Realität springen, die auf dem basiert, worüber man nachdenken kann, und all dem Zeug.
Yann LeCun: Das stimmt. Selbstüberwachte Algorithmen, die durch Vorhersage lernen, auch im Darstellungsraum, lernen mehr Konzepte, wenn die Eingabedaten redundanter sind. Je redundanter die Daten sind, desto besser erfassen sie die interne Struktur der Daten. Daher gibt es bei sensorischen Eingaben wie Wahrnehmungseingaben und Visionen viel mehr redundante Strukturen als bei Texten. Sprache kann tatsächlich mehr Informationen darstellen, da sie komprimiert wurde. Sie haben Recht, aber das bedeutet auch, dass es weniger redundant ist, sodass die Selbstüberwachung nicht so gut ist.
Lex Fridman: Ist es möglich, selbstüberwachtes Training zu visuellen Daten mit selbstüberwachtem Training zu linguistischen Daten zu kombinieren? Auch wenn Sie von 10 bis 13 Token sprechen, steckt eine Menge Wissen darin. Diese 10 bis 13 Token repräsentieren alles, was wir Menschen herausgefunden haben, einschließlich des Mists auf Reddit, des Inhalts aller Bücher und Artikel und alles, was der menschliche Intellekt jemals geschaffen hat.
Yann LeCun: Nun, letztendlich ja. Aber ich denke, wenn wir es zu früh tun, besteht die Gefahr, dass wir zum Betrügen verleitet werden. Tatsächlich ist es genau das, was Menschen derzeit mit visuellen Sprachmodellen tun. Im Grunde betrügen wir, indem wir die Sprache als Krücke nutzen, um unseren mangelhaften visuellen Systemen dabei zu helfen, gute Darstellungen aus Bildern und Videos zu lernen.
Das Problem dabei ist, dass wir Sprachmodelle verbessern können, indem wir sie mit Bildern füttern, aber wir können nicht einmal das Niveau der Intelligenz oder des Verständnisses der Welt erreichen, das eine Katze oder ein Hund haben, weil sie keine Sprache haben . Sie haben keine Sprache, verstehen die Welt aber weitaus besser als jeder LLM. Sie können sehr komplexe Handlungen planen und sich die Konsequenzen einer Handlungsabfolge vorstellen. Wie bringen wir Maschinen dazu, dies zu lernen, bevor sie es mit der Sprache kombinieren? Wenn wir dies mit der Sprache kombinieren, werden wir natürlich Ergebnisse erzielen, aber bis dahin müssen wir uns darauf konzentrieren, wie wir das System dazu bringen, zu lernen, wie die Welt funktioniert.
Tatsächlich ist die von uns verwendete Technologie nicht kontrastreich. Daher ist nicht nur die Architektur nicht generativ, sondern auch die von uns verwendeten Lernverfahren sind nicht vergleichend. Wir haben zwei Arten von Technologien. Ein Satz basiert auf der Destillationsmethode. Es gibt viele Methoden, die dieses Prinzip verwenden. Eine davon heißt BYOL, es gibt mehrere FAIRs, eine heißt vcREG und eine heißt I-JEPA. Es sollte gesagt werden, dass vcREG keine Destillationsmethode ist, I-JEPA und BYOL jedoch sicherlich. Es gibt auch eines namens DINO oder DINO, das ebenfalls von FAIR hergestellt wird. Die Idee hinter diesen Methoden besteht darin, dass Sie die gesamte Eingabe, beispielsweise ein Bild, durch einen Encoder laufen lassen, um eine Darstellung zu erzeugen, und dann die Eingabe zerstören oder umwandeln, indem Sie sie im Wesentlichen durch denselben Encoder laufen lassen, jedoch mit einigen Nuancen und dann Trainiere einen Prädiktor.
Manchmal ist der Prädiktor sehr einfach, manchmal existiert der Prädiktor nicht, aber ein Prädiktor wird trainiert, um die Beziehung zwischen der ersten unbeschädigten Eingabe und der beschädigten Eingabe vorherzusagen. Aber Sie trainieren nur den zweiten Zweig. Sie trainieren nur den Teil des Netzwerks, der beschädigte Eingaben akzeptiert. Für das andere Netzwerk ist keine Schulung erforderlich. Da sie jedoch die gleichen Gewichtungen haben, wird beim Ändern des ersten Netzwerks auch das zweite Netzwerk geändert. Durch verschiedene Tricks können Sie verhindern, dass das System abstürzt, wie ich es zuvor erklärt habe, bei dem das System die Eingabe im Grunde ignoriert. Daher ist diese Methode sehr effektiv. Zwei von uns bei FAIR entwickelte Technologien, DINO und I-JEPA, sind in dieser Hinsicht sehr effektiv.
Unsere neueste Version heißt V-JEPA. Es ist im Grunde die gleiche Idee wie I-JEPA, nur angewendet auf Video. Sie können also das gesamte Video aufnehmen und dann einen Teil davon blockieren. Was wir ausblenden, ist eigentlich eine Zeitpipeline, also der gesamte Clip für jedes Bild im gesamten Video.
Dies ist das erste System, das wir haben, das gute Darstellungen von Videos lernen kann. Wenn Sie diese Darstellungen also in einen überwachten Klassifikationskopf einspeisen, kann dieser Ihnen mit ziemlich hoher Genauigkeit sagen, welche Aktion im Video stattfindet. Es ist also das erste Mal, dass wir etwas in dieser Qualität bekommen.
Die Ergebnisse scheinen darauf hinzudeuten, dass unser System anhand von Darstellungen erkennen kann, ob ein Video physikalisch möglich oder völlig unmöglich ist, weil ein Objekt verschwindet oder ein Objekt plötzlich von einem Ort zum anderen springt oder seine Form verändert oder so etwas.
Lex Fridman: Erlaubt uns das, ein Modell der Welt zu bauen, das sie gut genug versteht, um ein Auto fahren zu können?
Yann LeCun: Es kann eine Weile dauern, bis wir dort ankommen. Es gibt bereits einige Robotersysteme, die auf dieser Idee basieren. Was Sie brauchen, ist eine leicht modifizierte Version. Stellen Sie sich vor, Sie haben ein vollständiges Video und verschieben es mit diesem Video zeitlich in die Zukunft. Daher können Sie nur den Anfang des Videos sehen, nicht jedoch die zweite Hälfte des Originalvideos, oder nur die zweite Hälfte des Videos ist blockiert. Anschließend können Sie ein JEPA-System oder ein System wie das von mir beschriebene trainieren, um die vollständige Darstellung des verdeckten Videos vorherzusagen. Sie müssen dem Prädiktor jedoch auch eine Aktion bereitstellen. Das Rad dreht sich zum Beispiel um 10 Grad nach rechts oder so, oder?
Wenn es sich also um eine Autokamera handelt und Sie den Winkel des Lenkrads kennen, sollten Sie bis zu einem gewissen Grad vorhersagen können, wie sich das, was Sie sehen, ändern wird. Natürlich können Sie nicht alle Details der in der Ansicht angezeigten Objekte vorhersagen, aber auf der Ebene der abstrakten Darstellung können Sie möglicherweise vorhersagen, was passieren wird. Jetzt haben Sie also ein internes Modell, das besagt: „Das ist meine Vorstellung vom Zustand der Welt zum Zeitpunkt T, und hier sind die Maßnahmen, die ich ergreife. Hier ist T plus 1, T plus Delta T, T plus 2.“ Sekunden Vorhersage des Zustands der Welt“, was auch immer es ist. Wenn Sie über ein solches Modell verfügen, können Sie es für die Planung verwenden. Jetzt können Sie das tun, was ein LMS nicht kann: Planen, was Sie tun möchten. Wenn Sie also ein bestimmtes Ergebnis erreichen oder ein bestimmtes Ziel erreichen.
Damit du viele Ziele haben kannst. Ich kann vorhersagen, dass, wenn ich ein Objekt wie dieses hätte und meine Hand öffnen würde, es fallen würde. Wenn ich es mit einer bestimmten Kraft gegen den Tisch drücke, bewegt es sich. Wenn ich den Tisch mit der gleichen Kraft drücke, bewegt er sich wahrscheinlich nicht. Infolgedessen haben wir ein internes Modell der Welt in unserem Kopf, das es uns ermöglicht, eine Abfolge von Aktionen zu planen, um ein bestimmtes Ziel zu erreichen. Wenn Sie nun über dieses Modell der Welt verfügen, können wir uns eine Abfolge von Aktionen vorstellen, das Ergebnis dieser Abfolge von Aktionen vorhersagen und messen, wie gut der Endzustand ein bestimmtes Ziel erfüllt, beispielsweise das Verschieben der Flasche nach links vom Tisch und führen Sie dann „Planen Sie eine Reihe von Aktionen aus, um dieses Ziel zu minimieren“ aus.
Wir reden hier nicht vom Lernen, wir reden von der Denkzeit, das ist also eigentlich Planung. Bei optimaler Kontrolle ist das eine ganz klassische Sache. Man nennt es modellprädiktive Regelung. Sie verfügen über ein Modell des Systems, das Sie steuern möchten, das eine Folge von Zuständen vorhersagt, die einer Folge von Anweisungen entspricht. Und Sie planen eine Abfolge von Anweisungen, damit der Endzustand des Systems basierend auf Ihrem Vorbild die von Ihnen gesetzten Ziele erreicht. Raketenflugbahnen wurden auf diese Weise seit dem Aufkommen von Computern in den frühen 1960er Jahren geplant.
Lex Fridman: Vorschlag, generative Modelle zugunsten einer gemeinsamen Einbettungsarchitektur aufzugeben? Sie sind seit einiger Zeit ein Kritiker des Reinforcement Learning. Es fühlt sich an wie eine Gerichtsaussage, bei der probabilistische Modelle zugunsten der energiebasierten Modelle aufgegeben werden, über die wir gesprochen haben, und kontrastive Methoden zugunsten von Regularisierungsmethoden aufgegeben werden.
Yann LeCun: Ich denke nicht, dass man ganz darauf verzichten sollte, aber ich denke, dass seine Verwendung minimiert werden sollte, weil es im Hinblick auf die Probenahme sehr ineffizient ist. Daher besteht der richtige Weg, ein System zu trainieren, darin, es zunächst aus primären Beobachtungen (und vielleicht ein wenig Interaktion) eine gute Darstellung der Welt und ein Modell der Welt lernen zu lassen.
Lex Fridman: Warum ist RLHF so effektiv?
Yann LeCun: Was eine transformative Wirkung hat, ist menschliches Feedback, und es gibt viele Möglichkeiten, es zu nutzen, von denen einige nur unter reiner Aufsicht erfolgen, und eigentlich handelt es sich nicht wirklich um verstärkendes Lernen.
Yann LeCun: Der einzige Weg zu einer KI-Industrie, zu KI-Systemen, die frei von einzigartigen Vorurteilen sind, ist eine Open-Source-Plattform, auf der jede Gruppe aufbauen kann spezialisierte Systeme. Die unvermeidliche Richtung der Geschichte ist, dass die überwiegende Mehrheit der KI-Systeme auf Open-Source-Plattformen aufgebaut sein wird.
Meta dreht sich um ein Geschäftsmodell, bei dem Sie eine Dienstleistung anbieten, die entweder durch Werbung oder gewerbliche Kunden finanziert wird.
Wenn Sie beispielsweise ein LLM haben, das einer Pizzeria helfen kann, indem es mit Kunden über WhatsApp spricht, muss der Kunde nur eine Pizza bestellen und das System fragt ihn: „Welchen Belag möchten Sie oder welche Größe möchten Sie?“ willst du?“ usw. Die Händler werden dafür bezahlen, und das ist das Modell.
Wenn es sich ansonsten um ein eher klassisches Servicesystem handelt, kann es durch Werbung unterstützt werden oder über mehrere Modi verfügen. Aber die Sache ist die: Wenn Ihr potenzieller Kundenstamm so groß ist, dass Sie das System trotzdem für ihn entwickeln müssen, schadet es nicht, es als Open Source zu veröffentlichen.
Lex Fridman: Metas Wette ist: Werden wir es besser machen?
Yann LeCun: Nein. Wir haben bereits eine riesige Nutzerbasis und Kundenbasis.
Es schadet nicht, dass wir Open-Source-Systeme oder Basismodelle bereitstellen, Basismodelle, auf denen andere Anwendungen aufbauen können. Wenn diese Apps für unsere Kunden nützlich sind, können wir sie direkt bei ihnen erwerben. Sie können die Plattform verbessern. Tatsächlich haben wir das erlebt. LLaMA 2 wurde millionenfach heruntergeladen und Tausende von Menschen haben Ideen zur Verbesserung der Plattform eingereicht. Dies beschleunigt offensichtlich den Prozess, das System einem breiten Benutzerkreis zur Verfügung zu stellen, und Tausende von Unternehmen erstellen Anwendungen, die das System verwenden. Daher wird die Fähigkeit von Meta, mit dieser Technologie Einnahmen zu erzielen, durch die Open-Source-Verbreitung des zugrunde liegenden Modells nicht beeinträchtigt.
Lex Fridman: Worauf freust du dich an LLaMA 3 am meisten?
Yann LeCun: Es wird verschiedene Versionen von LLaMA geben, die Verbesserungen gegenüber früheren LLaMAs darstellen, größer, besser, multimodal, solche Dinge. Und dann gibt es in zukünftigen Generationen Planungssysteme, die in der Lage sind, tatsächlich zu verstehen, wie die Welt funktioniert, wahrscheinlich per Video trainiert, sodass sie über ein Modell der Welt verfügen werden, das möglicherweise in der Lage ist, die Art von Überlegungen und Planung durchzuführen, die ich habe worüber vorhin gesprochen wurde.
Wie lange dauert das? Wann wird die Forschung in diese Richtung Eingang in die Produktlinie finden? Ich weiß es nicht und ich kann es dir nicht sagen. Wir müssen grundsätzlich einige Durchbrüche erzielen, bevor wir dort ankommen, aber die Leute können unsere Fortschritte überwachen, weil wir unsere Forschungsergebnisse öffentlich veröffentlichen. Deshalb haben wir letzte Woche unser V-JEPA-Projekt veröffentlicht, den ersten Schritt in Richtung eines Video-Trainingssystems.
Der nächste Schritt wird sein, ein Weltmodell basierend auf dieser Videokreativität zu trainieren. DeepMind hat ähnliche Arbeiten und UC Berkeley hat Arbeiten an Weltmodellen und Videos. Daran arbeiten viele Menschen. Ich denke, es kommen viele gute Ideen. Ich wette, dass diese Systeme JEPA-Leichtbausysteme sein werden, keine generativen Modelle, und wir werden sehen, was in Zukunft passiert.
Vor über 30 Jahren, als wir an kombinatorischen Netzen und frühen neuronalen Netzen arbeiteten, sah ich einen Weg zu Intelligenz auf menschlicher Ebene, Systemen, die die Welt verstehen, sich erinnern, planen und argumentieren konnten. Es gibt einige Ideen, die sich weiterentwickeln lassen und vielleicht eine Chance auf Umsetzung haben, und darüber bin ich wirklich begeistert.
Was mir gefällt, ist, dass wir uns irgendwie in eine gute Richtung bewegen und vielleicht Erfolg haben, bevor mein Gehirn sich in weiße Soße verwandelt oder bevor ich in Rente gehen muss.
Lex Fridman: Der größte Teil Ihrer Begeisterung liegt immer noch im theoretischen Aspekt, also im Software-Aspekt?
Yann LeCun: Vor vielen Jahren war ich ein Hardware-Typ. Maßstab ist notwendig, aber nicht ausreichend. Es ist möglich, dass ich in der Zukunft noch zehn Jahre leben werde, aber ich muss trotzdem eine kurze Strecke laufen. Natürlich gilt: Je weiter wir in puncto Energieeffizienz vorankommen, desto mehr Fortschritte machen wir in puncto harter Arbeit. Wir müssen den Stromverbrauch senken. Heutzutage verbraucht eine GPU zwischen einem halben Kilowatt und einem Kilowatt. Das menschliche Gehirn verbraucht etwa 25 Watt Leistung, während die GPU weitaus weniger verbraucht als das menschliche Gehirn. Um das zu erreichen, bräuchte man 100.000 oder 1 Million Leistung, also liegen wir ziemlich weit auseinander.
Lex Fridman: Sie sagen oft, dass GI nicht so schnell kommt, was ist die zugrunde liegende Intuition dahinter?
Yann LeCun: Die durch Science-Fiction und Hollywood populär gemachte Idee, dass jemand das Geheimnis von AGI oder KI oder AMI auf menschlicher Ebene (wie auch immer Sie es nennen wollen) entdecken und die Maschine einschalten wird, Solange wir AGI haben, ist das unmöglich.
Dies wird ein schrittweiser Prozess sein. Werden wir Systeme haben, die anhand von Videos verstehen können, wie die Welt funktioniert, und gute Darstellungen lernen können? Es wird einige Zeit dauern, bis wir das Ausmaß und die Leistung erreichen, die wir beim Menschen beobachten, und nicht nur ein oder zwei Tage.
Werden wir zulassen, dass Systeme über große Mengen an assoziativem Gedächtnis verfügen, um sich Dinge zu merken? Ja, aber das wird auch morgen nicht passieren. Wir müssen einige grundlegende Techniken entwickeln. Wir haben viele dieser Technologien, aber es ist eine andere Geschichte, sie in einem kompletten System zum Laufen zu bringen.
Werden wir Systeme haben, die denken und planen können, vielleicht wie die zielorientierte KI-Architektur, die ich zuvor beschrieben habe? Ja, aber es wird eine Weile dauern, bis es richtig funktioniert. Es wird mindestens ein Jahrzehnt oder länger dauern, bis wir all diese Dinge zum Laufen bringen, bevor wir darauf basierende Systeme bekommen, die hierarchische Planung und hierarchische Darstellungen erlernen und die so konfiguriert werden können, wie es ein menschliches Gehirn für die unterschiedlichen jeweiligen Situationen kann , Weil es viele Probleme gibt, die wir noch nicht sehen, denen wir noch nicht begegnet sind, daher wissen wir nicht, ob es in diesem Rahmen einfache Lösungen gibt.
Seit einem Dutzend Jahren höre ich Leute behaupten, dass AGI gleich um die Ecke sei, und sie liegen alle falsch.
Der IQ kann etwas über Menschen messen, aber weil Menschen eine relativ einheitliche Form haben. Es misst jedoch nur eine Fähigkeit, die für einige Aufgaben relevant sein kann, für andere jedoch nicht. Aber wenn Sie über andere intelligente Wesen sprechen, bei denen die grundlegenden Dinge, die einfach zu tun sind, völlig anders sind, dann ergibt das keinen Sinn. Daher ist Intelligenz eine Sammlung von Fähigkeiten und die Fähigkeit, sich neue Fähigkeiten effizient anzueignen. Die Fähigkeiten, die eine bestimmte intelligente Entität besitzt oder die sie schnell erlernen kann, unterscheiden sich von den Fähigkeiten einer anderen intelligenten Entität. Da es sich um eine mehrdimensionale Sache handelt, handelt es sich bei den Fähigkeiten um einen hochdimensionalen Raum, den man nicht messen kann, und man kann nicht zwei Dinge vergleichen, um zu sehen, ob eines intelligenter ist als das andere. Es ist mehrdimensional.
Lex Fridman: Sie sprechen sich oft gegen sogenannte KI-Weltuntergangsjäger aus, erläutern ihre Ansichten und warum Sie denken, dass sie falsch liegen.
Yann LeCun: KI-Weltuntergangsbefürworter stellen sich verschiedene Katastrophenszenarien vor, wie eine KI entkommen oder die Kontrolle übernehmen und uns im Grunde alle töten könnte, was auf einer Reihe von Annahmen beruht, von denen die meisten falsch sind.
Die erste Hypothese ist, dass die Entstehung der Superintelligenz ein Ereignis sein wird und wir irgendwann die Geheimnisse entdecken und eine superintelligente Maschine öffnen werden, weil wir das noch nie zuvor getan haben, sodass sie die Welt übernehmen und uns alle töten wird. Das ist falsch. Das wird keine Veranstaltung sein.
Wir werden Systeme haben, die so schlau sind wie Katzen, sie haben alle Merkmale der menschlichen Intelligenz, aber ihr Intelligenzniveau könnte dem einer Katze oder einem Papagei oder so ähnlich sein. Dann verbessern wir nach und nach ihre Intelligenz. Während wir sie intelligenter machen, müssen wir auch einige Leitplanken für sie einrichten und lernen, wie man Leitplanken einrichtet, damit sie sich normaler verhalten.
In der Natur scheint es, dass die intelligenteren Arten irgendwann die anderen Arten dominieren, manchmal sogar absichtlich und manchmal einfach aus Versehen, um die anderen Arten zu unterscheiden.
Sie denken also: „Wenn ein KI-System intelligenter ist als wir, wird es uns zwangsläufig auslöschen, wenn auch nicht absichtlich, nur weil sie sich nicht um uns kümmern“, was lächerlich ist – Grund Nummer eins Erstens werden sie nicht zu einer Spezies werden, die mit uns konkurriert, und sie werden nicht den Wunsch haben, zu dominieren, denn der Wunsch zu dominieren muss etwas sein, das intelligenten Systemen innewohnt. Es ist tief im Menschen verwurzelt und kommt bei Pavianen, Schimpansen und Wölfen vor, nicht jedoch bei Orang-Utans. Dieser Wunsch zu dominieren, zu gehorchen oder auf andere Weise Status zu erlangen, ist einzigartig für soziale Spezies. Asoziale Arten wie Orang-Utans haben kein solches Verlangen und sind genauso schlau wie wir.
Lex Fridman: Glauben Sie, dass es bald Millionen von Humanoiden geben wird?
Yann LeCun: Nicht bald, aber es wird passieren.
Ich denke, die nächsten zehn Jahre werden wirklich interessant für die Robotikbranche. Der Aufstieg der Robotikbranche hat 10, 20 Jahre auf sich warten lassen und außer vorprogrammierten Verhaltensweisen und so weiter hat es nicht wirklich stattgefunden. Die Hauptfrage bleibt Moravecs Paradox: Wie bringen wir diese Systeme dazu, zu verstehen, wie die Welt funktioniert, und Maßnahmen zu planen? Auf diese Weise können wir wirklich professionelle Aufgaben erledigen. Was Boston Dynamics geschafft hat, beruhte im Wesentlichen auf vielen handgefertigten dynamischen Modellen und einer sorgfältigen Planung im Voraus, was sehr klassische Robotik mit viel Innovation und ein wenig Wahrnehmungsvermögen ist, aber es war immer noch nicht genug und sie konnten es nicht schaffen ein Heimroboter.
Außerdem sind wir noch weit entfernt von völlig autonomem L5-Fahren, etwa einem System, das sich wie ein 17-Jähriger durch 20 Stunden Fahren trainieren kann.
Wir werden also in der Robotik keine nennenswerten Fortschritte machen, bis wir ein Modell der Welt haben, Systeme, die sich selbst trainieren können, um zu verstehen, wie die Welt funktioniert.
Das obige ist der detaillierte Inhalt vonLeCuns neuestes Interview: Warum wird die physische Welt irgendwann zur „Achillesferse' des LLM?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!