In den letzten zehn Jahren hat die KI nacheinander Durchbrüche in den Bereichen Computer Vision, Spracherkennung, maschinelle Übersetzung, Robotik, Medizin, Computerbiologie, Proteinfaltungsvorhersage usw. erzielt, und hinter diesen Durchbrüchen steckt untrennbar miteinander verbunden Schalten Sie Deep Learning ein. Wann und wo entstand Deep Learning und wann wurde es zur bekanntesten KI-Methode?
Kürzlich führte der UC Berkeley-Professor und Deep-Learning-Experte Pieter Abbeel ein Interview mit Geoffrey Hinton in seinem Podcast „Robot Brains“.
Hinton, der den Turing Award 2018 gewann, gilt als einer der „Drei Giganten des Deep Learning“ und als einer der bedeutendsten Gelehrten in der Geschichte der künstlichen Intelligenz. Seine Arbeiten wurden mehr als 500.000 Mal zitiert, was bedeutet, dass mehr als 500.000 Forschungsarbeiten auf seiner Forschung basieren.
Er forscht seit etwa einem halben Jahrhundert auf dem Gebiet des Deep Learning, meist im relativen Dunkeln, doch 2012 kam es zu einer Wende: In diesem Jahr, als AlexNet den ImageNet-Wettbewerb gewann, bewies er, dass er Deep Learning besitzt größere Vorteile als andere Computer-Vision-Methoden bei der Bilderkennung. Dies wird als „ImageNet-Moment“ bezeichnet, der den gesamten Bereich der KI veränderte und eine Welle des Deep Learning auslöste.
In diesem Gespräch sprach Hinton über seine Arbeitserfahrung von der akademischen Welt bis hin zu Google Brain, seine Erfahrungen beim Studium der Psychologie und seiner Arbeit als Zimmermann sowie die Geschichte hinter dem t-SNE-Algorithmus der Visualisierungstechnologie und sprach über einige Themen Seine Punkte, darunter:
Es hat viele kleine Verarbeitungselemente, die Neuronen genannt werden. Hin und wieder gibt ein Neuron ein „Ping“-Geräusch von sich. Und was es zum Ping bringt, ist dass es die Pings anderer Neuronen hört. Jedes Mal, wenn es einen „Ping“ von einem anderen Neuron hört, fügt es einem empfangenen Eingabespeicher eine Gewichtung hinzu, und wenn die Gewichtung eine bestimmte Eingabe erreicht, sendet es ebenfalls einen Ping.
Meiner Meinung nach basiert
alle existierende künstliche Intelligenz auf etwas völlig anderem als dem, was das Gehirn auf hohem Niveau tut.Es muss tendenziell dasselbe sein. Wenn Sie viele Parameter haben, sagen wir, Sie haben Milliarden von Parametern, und die Gewichte zwischen diesen Neuronen passen die Parameter basierend auf Ihrer großen Anzahl von Trainingsbeispielen an, dann werden wunderbare Dinge passieren. Das Gehirn ist so, und das gilt auch für tiefes Lernen. Das Problem besteht darin, wie Sie den Gradienten der Parameter erhalten, die Sie anpassen möchten. Sie müssen also über die Metriken und Parameter nachdenken, die Sie anpassen möchten, damit sie das, was Sie erreichen möchten, verbessern. Aber ich glaube derzeit, dass Backpropagation, die Art und Weise, wie Deep Learning derzeit funktioniert, völlig anders ist als das, was das Gehirn tut, und dass das Gehirn die Gradienten auf andere Weise erhält. Abbeel: Sie haben einen Artikel über Backpropagation für das Training neuronaler Netze geschrieben, der zum Anstoß für alles wurde, was heute jeder tut, und jetzt sagen Sie, dass es an der Zeit ist, herauszufinden, ob wir etwas anders machen sollten? Sollte es danach streben, dem Gehirn ähnlich zu sein? Glauben Sie, dass Backpropagation besser sein kann als das, was das Gehirn tut? Hinweis: Rumelhart, Williams und ich haben den Artikel über Backpropagation (unten) geschrieben, der am häufigsten zitiert wird. Papieradresse: http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf Rückausbreitung ist allgemein bekannt. Was wir wirklich getan haben, war zu zeigen, dass es interessante Darstellungen lernen kann, nicht dass wir die Backpropagation erfunden, sondern dass wir sie neu definiert haben. Wir schlagen vor, dass es interessante Darstellungen lernen kann, wie zum Beispiel Worteinbettungen, und gehen daher davon aus, dass die Rückausbreitung viel effizienter sein könnte als das, was wir im Gehirn haben. Viele Informationen werden in eine Handvoll Verbindungen gepresst, und diese wenigen Verbindungen sind nur ein paar Milliarden. Das Problem mit dem Gehirn besteht also darin, dass Verbindungen sehr billig sind, es Billionen von Verbindungen gibt und Erfahrung sehr teuer ist, also tendieren wir dazu Yu bringt viele Parameter in ein kleines Erlebnis ein. Und das neuronale Netzwerk, das wir verwenden, ist im Grunde das Gegenteil. Sie verfügen über viel Erfahrung und versuchen, Ein- und Ausgabeinformationen mit Parametern in Beziehung zu setzen. Ich denke, dass Backpropagation effizienter ist als die vom Gehirn verwendete Methode, aber nicht sehr gut darin ist, viel Struktur aus wenigen Daten zu abstrahieren. Abbeel: Haben Sie irgendwelche Hypothesen über mögliche Wege, um in dieser Hinsicht eine bessere Leistung zu erzielen? Hinweis: Ich dachte lange: Wir brauchen unbeaufsichtigte objektive Funktionen. Dies bezieht sich hauptsächlich auf das Wahrnehmungslernen. Wenn Sie ein Modell durch Beobachtung der Welt lernen können, können Sie Maßnahmen auf der Grundlage dieses Modells anstelle von Rohdaten ergreifen, die eine höhere Genauigkeitsrate aufweisen. Ich glaube, dass das Gehirn viele lokale kleine Zielfunktionen nutzt. Es handelt sich nicht um eine durchgängige Systemkette, die die Zielfunktion durch Training optimiert. Wenn Sie beispielsweise einen kleinen Ausschnitt eines Bildes betrachten und versuchen, eine Darstellung zu extrahieren, können Sie die Darstellung, die Sie von diesem kleinen Ausschnitt erhalten, mit dem Kontext kombinieren, den Sie von den Darstellungen anderer benachbarter Ausschnitte erhalten um vorherzusagen, was auf dem Bild zu sehen ist. Sobald Sie mit der Domäne vertraut sind, stimmen diese Vorhersagen aus Kontext und lokal extrahierten Merkmalen oft überein. Auch wenn es inkonsistent ist, können Sie viel daraus lernen. Ich denke, das Gehirn kann aus solchen lokalen Meinungsverschiedenheiten viel lernen. Es scheint Ihnen vielleicht, dass ein großes Bild und viele kleine lokale Bereiche des Bildes viel Feedback bedeuten, also die Konsistenz der lokalen Extraktion und Kontextvorhersage im Bild. Mit kontextbezogenen Vorhersagen können wir aus diesen Ausrichtungen ein umfassenderes Feedback ableiten. Es ist schwer, das zu tun, aber ich denke, dass wir uns jetzt in diese Richtung bewegen. Abbeel: Was denken Sie über die Arbeit von SimCLR und wie unterscheidet sie sich vom Lernen im Allgemeinen? Was halten Sie von den aktuellen MAE (Masked Autoencoders)? In welcher Beziehung steht es zu dem, was Sie gerade beschrieben haben? Hinweis: Die relevanten Beweise, die ich erhalten habe, zeigen, dass diese Zielfunktion gut ist. Ich persönlich habe diesen Aufsatz nicht geschrieben, aber vor langer Zeit habe ich mit Sue Becker einen Aufsatz über die Überlegung geschrieben, konsistente Darstellungen aus zwei verschiedenen Bereichen eines Bildes zu erhalten. Ich denke, das war der Ursprung der Idee des selbstüberwachten Lernens, indem eine Übereinstimmung zwischen zwei Patch-Darstellungen desselben Bildes erzielt wurde. Abbeel: Lassen Sie uns über die von Ihnen erwähnte Methode sprechen, die End-to-End-Learning-Backpropagation verwendet, um End-to-End-Lernen zu unterstützen. Was Sie sagen, ist, dass gehirnnahes Lernen, das Lernen aus weniger Daten und das Extrahieren von mehr Daten, der Schlüssel zum Fortschritt beim Verständnis der Funktionsweise des Gehirns sein wird. Heutzutage versuchen viele Menschen, das Problem des effizienten Lernens aus unbeschrifteten Daten zu lösen, da dies weniger menschlichen Aufwand erfordert, sie verwenden jedoch immer noch denselben Mechanismus wie die Backpropagation. Hinweis: Was mir an MAE nicht gefällt, ist, dass Sie einige Eingabe-Patches haben, mehrere Darstellungsebenen durchlaufen und versuchen, die fehlenden Eingabe-Patches in der Ausgabe des Netzwerks zu rekonstruieren. Ich denke, das Gehirn verfügt über diese Darstellungsebenen, aber jede Ebene versucht, den Inhalt der darunter liegenden Ebene zu rekonstruieren. Es ist nicht so, dass man durch so viele Schichten geht und zurückkommt, aber es gibt so viele Schichten und jede Schicht versucht, etwas aus der nächsten Schicht nachzubilden. Für mich sieht das eher nach einem Gehirn aus, aber die Frage ist: Kann man das ohne Backpropagation machen? Wenn Sie den fehlenden Teil der Ausgabe über mehrere Ebenen rekonstruieren, müssen Sie natürlich alle Ebenen durchlaufen, um die Informationen zu erhalten, und Backpropagation ist bereits in allen Simulatoren integriert, aber das ist beim Gehirn nicht der Fall . Abbeel: Stellen Sie sich vor, das Gehirn hätte bei der Verarbeitung dieser lokalen Ziele drei Möglichkeiten: Erstens: Welches lokale Ziel wollen wir optimieren? Zweitens: Welcher Algorithmus wird zur Optimierung verwendet? Drittens: Was ist die Architektur, durch die wir Neuronen zum Lernen miteinander verbinden? In allen drei Punkten scheinen wir noch keine besonders gute Arbeit zu leisten. Was denken Sie? Hinweis: Wenn Sie sich für kognitives Lernen interessieren, ist das ganz klar. Sie möchten eine visuelle Topic Map, eine Hierarchie geschriebener Topic Maps, die architektonisch lokal verbunden sind. Hierzu können Sie viele Probleme bei der Kreditzuordnung lösen, indem Sie davon ausgehen, dass etwas an einem bestimmten Ort auf der antielektronischen Karte durch die entsprechende Sehnervenkarte bestimmt wird. Anstatt in das System einzudringen, nutzen Sie lokale Interaktionen und finden Sie heraus, was die Pixel darin tun. Derzeit gilt für neuronale Netze Folgendes: Vorausgesetzt, dass an jedem Ort die gleiche Funktion verwendet wird, gilt dies für Faltungs-Neuronale Netze und das Gleiche gilt für Transformatoren. Das Gehirn kann dies nicht unbedingt tun, da dazu Gewichte geteilt und überall genau die gleichen Berechnungen durchgeführt werden müssten. Es gibt einen Weg, das Ziel der Gewichtsverteilung zu erreichen, und das ist die Faltung, die meiner Meinung nach eine effektivere Rolle im Gehirn spielen kann. Wenn Sie der lokalen Extraktion über kontextbezogene Vorhersage zustimmen möchten, stellen Sie sich vor, dass eine Reihe von Spalten lokale Vorhersagen durchführen und sich benachbarte Spalten ansehen, um ihre kontextbezogenen Vorhersagen zu erhalten. Sie können sich den Kontext als Lehrer für lokale Vorhersagen vorstellen und umgekehrt. Stellen Sie sich die Informationen im Kontext so vor, als würden sie in lokale Extraktoren destilliert. Das Ergebnis ist eine gegenseitige Extraktion, beide geben einander Lehrsignale, was bedeutet, dass Wissen darüber, was man an einem Ort extrahieren sollte, auf andere Orte übertragen wird. Wenn sie versuchen zuzustimmen oder möchten, dass Dinge an verschiedenen Orten übereinstimmen, wenn Sie beispielsweise möchten, dass Nase und Mund übereinstimmen, dass sie Teil desselben Gesichts sind, dann sollten beide die gleiche Darstellung erzeugen Sie versuchen, es an verschiedenen Orten zu erhalten. Die gleiche Darstellung ist erforderlich, damit Wissen von einem Ort zum anderen verfeinert werden kann, was größere Vorteile hat als die tatsächliche Gewichtsverteilung. Aus biologischer Sicht besteht ein Vorteil natürlich darin, dass die detaillierte Architektur an verschiedenen Standorten nicht gleich sein muss, und ein weiterer Vorteil besteht darin, dass die Front-End-Verarbeitung nicht gleich sein muss. Nehmen Sie die Netzhaut als Beispiel. Faltungsnetzwerke haben unterschiedliche Größen von Wahrnehmungsfeldern und führen bei jeder Auflösung Faltungen durch. Und wenn Sie von einer Position zur anderen extrahieren, müssen Sie die Darstellung derselben Funktion an verschiedenen Positionen aus dem optischen Array erhalten. Zu diesem Zeitpunkt können Sie auch unterschiedliche Vorverarbeitungen für das optische Array verwenden Wenn die Front-End-Verarbeitung unterschiedlich ist, kann weiterhin Wissen extrahiert werden, das die gesamte Funktion darstellt. Obwohl die Extraktion weniger effizient ist als tatsächliche Anzeigegewichte, ist sie flexibler und neurologisch glaubwürdiger. Dies ist auch ein wichtiger Punkt, den ich vor einem Jahr angesprochen habe, nämlich dass es Tricks wie Gewichtsverteilung geben muss, um die Effizienz zu verbessern, aber wenn man versucht, benachbarte Dinge zur Übereinstimmung zu bringen, dann funktioniert die lokale Extraktion. Abbeel: Sollten wir, da das Gehirn anders funktioniert, weiterhin anders über die Gewichtsverteilung nachdenken oder nicht mit der Gewichtsverteilung fortfahren? Hinweis: Ich denke, wir sollten weiterhin Faltungen in Faltungsnetzen durchführen, Gewichte in Transformatoren teilen und Wissen durch Teilen von Gewichten teilen. Denken Sie daran: Das Gehirn teilt Wissen nicht durch das Teilen von Gewichten, sondern durch das Teilen von Funktionen von der Eingabe bis zur Ausgabe und nutzt die Extraktion, um Wissen zu übertragen. Hinweis: wie der Lernalgorithmus die Gradienten des Spiking-Neuronennetzwerks erhält, aber niemand weiß es wirklich. Wenn es um das Spiken von Neuronen geht, gibt es oft zwei unterschiedliche Entscheidungen: Wann wird es einen Spike geben und ob wird es einen Spike geben? Im Jahr 2000 haben Andy Brown und ich versucht, das Spiken von Boltzmann-Maschinen zu erlernen. Ich denke, das ist es, was die Entwicklung von Spike-Neuronen-Hardware behindert Grund. Viele Menschen haben erkannt, dass auf diese Weise energieeffizientere Hardware hergestellt werden kann, und es wurden auch riesige Systeme gebaut, aber was wirklich fehlt, ist ein großartiger Lernerfolg. Deshalb denke ich: Solange wir keinen guten Lernalgorithmus haben, werden wir nicht wirklich in der Lage sein, mit Spike-Neuronen etwas zu tun. Wenn Sie also ein standardmäßiges künstliches Neuron nehmen, fragen Sie einfach: Kann es erkennen, ob zwei Eingabewerte gleich sind? kann nicht. Wenn Sie jedoch Spike-Neuronen verwenden, ist es einfach, ein System einzurichten, bei dem zwei Spikes gleichzeitig eintreffen und beim Abfeuern ein Geräusch machen, bei unterschiedlichem Eintreffen jedoch kein Geräusch. Daher scheint die Verwendung der Spitzenzeit eine gute Möglichkeit zur Messung der Konsistenz zu sein. Genau wie bei biologischen Systemen liegt der Grund, warum man die Richtung und den Ton sehen kann, in der Verzögerung des Signals, das die beiden Ohren erreicht. Wenn wir als Beispiel einen Fuß nehmen, beträgt die Lichtdauer etwa eine Nanosekunde und der erste Der Ton dauert etwa eine Millisekunde. Aber wenn ich das Ding ein paar Zentimeter zur Seite bewege, beträgt der Unterschied in der Zeitverzögerung zu den beiden Ohren, die Weglänge zu den beiden Ohren, nur einen Bruchteil eines Zolls, also der Zeitunterschied des Signals zu den beiden Ohren ist nur eine Millisekunde. Wir reagieren also auf 30 Millisekunden, um einen Stereoklang zu erzielen. Dies erreichen wir, indem wir zwei Axone und Spikes in unterschiedliche Richtungen bewegen, eines von einem Ohr und eines vom anderen Ohr, und wenn die Spikes gleichzeitig ankommen, gibt es Zellen, die ein Signal aussenden. Da die Hauptverkehrszeit für sehr sensible Dinge genutzt werden kann, wäre es verwunderlich, wenn ihr genaues Timing nicht genutzt wird. Ich habe lange gedacht, dass, wenn Sie die Spike-Zeit nutzen können, um Konsistenz in Aspekten wie selbstüberwachtem Lernen zu erkennen, oder mit anderen Worten, ich die Informationen Ihres Mundes und Ihrer Nase extrahiere und Ihr gesamtes Gesicht aus Ihrem Mund und Ihrer Nase vorhersage Nase, wenn Ihr Mund und Ihre Nase korrekt ein Gesicht bilden, sind diese Vorhersagen konsistent. Es wäre schön, Spitzenzeiten zu verwenden, um zu sehen, ob diese Vorhersagen konsistent sind, aber das ist schwierig, weil wir es nicht wissen und keinen guten Algorithmus zum Trainieren des Netzwerks haben, wie z. B. Neuronen. Abbeel: Haben Sie gerade gesagt, dass die Netzhaut nicht alle Spike-Neuronen nutzt? Das Gehirn hat zwei Arten von Neuronen, einige ähneln eher unseren künstlichen Neuronen und andere sind Spike-Neuronen? Hinweis: Ich bin mir nicht sicher, ob die Netzhaut eher künstlichen Neuronen ähnelt, aber der Neocortex verfügt auf jeden Fall über Spike-Neuronen, die seine primäre Kommunikationsart darstellen und Spikes von einer Parameterzelle zur anderen senden. Ich habe ein gutes Argument: Das Gehirn verfügt über viele Parameter und nicht viele Daten im Vergleich zu den typischen neuronalen Netzen, die wir verwenden. In diesem Zustand ist eine Überanpassung möglich, sofern keine starke Regularisierung verwendet wird. Eine gute Regularisierungstechnik besteht darin, dass Sie jedes Mal, wenn Sie ein neuronales Netzwerk verwenden, eine ganze Reihe von Einheiten ignorieren und daher wahrscheinlich auch die Tatsache ignorieren, dass das Neuron Spitzen sendet. Was sie wirklich kommunizieren, ist die zugrunde liegende Poisson-Rate. Wir gehen davon aus, dass es transitiv ist. Dieser Prozess ist mit Kosten verbunden, er sendet Impulse nach dem Zufallsprinzip und die Frequenz ändert sich während des Prozesses, bestimmt durch die in das Neuron eingegebenen Informationen. Möglicherweise möchten Sie den wahren Wert der Frequenz von einem Urin zum anderen senden, wenn Sie möchten Um eine starke Regularisierung durchzuführen, können Sie der Rate des wahren Werts etwas Rauschen hinzufügen. Eine Möglichkeit, das Rauschen zu erhöhen, besteht darin, Impulse zu verwenden, die viel Rauschen hinzufügen. In den meisten Fällen ist dies der Grund, aufzuhören. Wenn Sie sich ein Zeitfenster ansehen, in dem die meisten Neuronen an nichts beteiligt sind, können Sie sich Spitzen als ein repräsentatives zugrunde liegendes individuelles Verhältnis vorstellen. Das hört sich wirklich schlimm an, weil es laut ist. Aber sobald Sie die Regularisierung verstanden haben, ist es eine sehr gute Idee. Ich bin also immer noch ein Fan der Idee, aber in Wirklichkeit verwenden wir überhaupt kein Spike-Timing. Als guter Regularisierer verwendet es lediglich eine sehr verrauschte individuelle Ratendarstellung, und ich wechsle irgendwie zwischen den beiden. Einige Jahre lang dachte ich, neuronale Netze seien deterministisch. Wir sollten deterministische neuronale Netze haben, was in ein paar Jahren der Fall sein wird. Ich denke, es ist ein 5-Jahres-Zyklus. Auch die beste Zufälligkeit ist sehr wichtig, sie verändert alles. Daher sind Boltzmann-Maschinen stochastischer Natur, was für sie wichtig ist. Es ist jedoch wichtig, sich nicht vollständig auf eines der beiden Szenarios festzulegen, sondern für beide Szenarien offen zu sein. Jetzt ist es wichtig, mehr über die Bedeutung dessen nachzudenken, was Sie gerade über Spiking-Neuronen gesagt haben, und herauszufinden, wie man ein Netzwerk von Spiking-Neuronen effektiv trainiert. Abbeel: Wenn wir jetzt sagen, machen Sie sich keine Sorgen um den Trainingsteil (wenn man bedenkt, dass er effizienter aussieht), würden die Leute dann nicht gerne reine Inferenzchips verteilen, d Neuronenchip mit Spikes versehen, um ihm Inferenzfähigkeiten mit sehr geringem Stromverbrauch zu verleihen? Hinweis: Viele Leute haben darüber nachgedacht, es ist sehr sinnvoll, es kann auf dem evolutionären Weg effektiv sein, neuronale Netze zum Denken zu nutzen, und jeder tut es, es hat sich auch als effektiver erwiesen Verschiedene Firmen haben diese großen Spike-Systeme hergestellt. Sobald Sie diese Dinge tun, werden Sie immer mehr daran interessiert sein, zu argumentieren, um zu lernen, die verfügbare Energie in Spitzenzeiten besser zu nutzen. Sie können sich also ein System vorstellen, bei dem Sie mit einem Zusatzgerät lernen und nicht die Hardware emulieren, also nicht auf dieser Niedrigenergie-Hardware, aber Sie können es problemlos auf die Niedrigenergie-Hardware übertragen. Abbeel: Was ist AlexNet? Wie kam es dazu? Wie verlief Ihr Weg vom Studium eingeschränkter Boltzmann-Maschinen zum Versuch, die Funktionsweise des Gehirns zu verstehen? Hinweis: Ich würde sagen, dass Sie plötzlich bewiesen haben, dass der traditionellere neuronale Netzwerkansatz funktioniert. Um das Jahr 2005 herum war ich von der Idee fasziniert, dass ich eine Reihe spannungsbegrenzter Maschinen verwenden könnte, um Feature-Detektoren vorab zu trainieren, was es einfacher machen würde, Background mit ausreichend Daten zum Laufen zu bringen. Da Faith Ali und ihr Bilderkennungsteam später über genügend Daten verfügten, war ein Vortraining nicht mehr erforderlich, obwohl das Vortraining bald zurückkehren würde. GPT-3 hat Vortraining, Vortraining ist auch eine gute Idee, aber sobald wir herausfinden, dass man Vortraining machen kann, wird der Hintergrund besser funktionieren und beim Sprechen viel helfen, genau wie bei George John und Abdul Rahman Muhammad haben das 2009 getan. Danach begann Alex, ein Doktorand in meiner Gruppe, die gleiche Idee auf das Sehen anzuwenden, und wir stellten schnell fest, dass man bei ImageNet-Daten keine Vorschulung braucht. Ich erinnere mich, dass Ilya eines Tages ins Labor kam und sagte: „Sehen Sie, jetzt, wo wir Spracherkennung haben, ist dieses Ding wirklich nützlich. Wir müssen ImageNet erstellen, bevor auch alle anderen ins Labor kamen und diese Idee zum Ausdruck brachten.“ Seine Studenten und Postdoktoranden sagten auch: „Wow, aber ich bin mit anderen Dingen beschäftigt.“ Tatsächlich hatte er keine Möglichkeit, jemanden dazu zu bringen, daran zu arbeiten. Später überzeugte er Alex, das Experiment durch eine Vorverarbeitung der Daten abzuschließen, und die Daten wurden so vorverarbeitet, wie er es brauchte. Das ist nur der Hintergrund. Ich würde sagen, dass viele Forscher das wissen, aber vielleicht weiß nicht jeder, dass die Fehlerrate von Alex im Vergleich zu Ilyas früherer Arbeit beim ImageNet-Bilderkennungswettbewerb halb so hoch war. Aus diesem Grund wechseln alle von handentworfenen Methoden zu Computer Vision und versuchen es mit direkter Programmierung. Abbeel: Welcher Moment markierte eine große Veränderung in Ihrer Karriere? Welche Auswirkungen hatte der Wechsel von der Wissenschaft zu Google auf Sie? Warum kam es zu dieser Verschiebung? Hinweis: Ich muss einen behinderten Sohn großziehen, also brauche ich viel Geld, um zu unterrichten. Im Jahr 2012 habe ich einen Kurs über neuronale Netze gehalten. Aber ihre Software ist nicht sehr gut, daher ist es sehr umständlich. Ein Kapitel pro Woche, ich muss ihnen ein Lehrvideo zur Verfügung stellen, und es wird eine Menge Leute geben, die es sehen wollen. Manchmal fragte Yoshua Bengio am nächsten Tag nach dem Unterricht: „Warum hast du das (im Unterricht) gesagt?“ Meine ursprüngliche Vereinbarung mit der University of Toronto war, dass ich die Universität haben wollte, wenn mit diesen Kursen Geld verdient würde Das Geld wurde mit den Professoren geteilt, sie haben nicht genau angegeben, wie es verteilt werden sollte, aber die Leute dachten, es läge bei etwa 50 % oder so ähnlich, und ich hatte damit kein Problem. Aber nachdem ich angefangen hatte zu lehren, traf der Rektor eine einseitige Entscheidung, ohne mich oder irgendjemand anderen zu konsultieren: Wenn die Finanzierung von der Kursplattform käme, würde die Universität das ganze Geld nehmen und die Professoren würden nichts bekommen. Ich habe die Schule gebeten, mir bei der Vorbereitung eines Videos zu helfen, und die Leute, die das Video gemacht haben, kamen und fragten mich: Wissen Sie, wie teuer es ist, ein Video zu machen? Das hat mich in der Schule wirklich wütend gemacht, also habe ich angefangen, über andere Karrieremöglichkeiten als Professorin nachzudenken. Damals weckten wir plötzlich das Interesse verschiedener Unternehmen, die uns anwerben wollten, sei es durch die Gewährung großer Zuschüsse oder durch die Finanzierung von Startups. Normalerweise würde ich nein sagen, ich wollte nicht versuchen, mit der Forschung zusätzliches Geld zu verdienen, aber die Erfahrung, dass die Schule mich um mein Geld betrogen hat, hat mich dazu gebracht, andere Wege zu finden, um Geld zu verdienen. Abbeel: Wie war die Auktion damals? Hinweis: Es war auf der NIPS-Konferenz und Terry organisierte einige kleine Aktivitäten in einem Casino. In einem verrauchten Raum im Keller des Hotels, während die Leute oben spielten, fühlte es sich an, als würde ein Film gedreht. Wir haben absolut keine Ahnung, wie viel wir wert sind. Ich habe einen Anwalt konsultiert und er sagte, ich könnte einen professionellen Verhandlungsführer engagieren oder einfach zur Auktion gehen. Soweit ich weiß, ist dies das erste Mal, dass eine solche kleine Gruppe eine Auktion veranstaltet. Wir führen unsere Auktionen über Gmail durch und die Leute müssen mir ihre Gebote per E-Mail mit einem Zeitstempel der E-Mail senden. Der Preis stieg immer weiter, zuerst betrug er 500.000 US-Dollar und dann 1 Million US-Dollar, was aufregend war und wir herausfanden, dass wir viel mehr wert waren, als wir dachten. Im Nachhinein hätten wir wahrscheinlich mehr bekommen können, aber wir haben bereits eine Menge gesehen, die wir für astronomisch hielten. Wir wollten beide für Google arbeiten, also stoppten wir die Auktion und beschlossen, uns Google anzuschließen. Abbeel: Soweit ich weiß, bist du heute noch bei Google. Hinweis: Ich arbeite immer noch bei Google, seit 9 Jahren. Der Hauptgrund, warum ich Google mag, ist, dass das Kernteam wirklich gut ist. Ich verstehe mich wirklich gut mit Jeff Dean, er ist sehr schlau und ich bin sehr unkompliziert. Er wollte, dass ich genau das mache, was ich tun wollte, nämlich Grundlagenforschung. Er meinte, ich sollte versuchen, völlig neue Algorithmen zu entwickeln, und genau das wollte ich tun, was gut passte. Ich bin nicht gut darin, ein großes Team zu leiten, um die Spracherkennung um ein Prozent zu verbessern. Aber ich würde das Feld gerne, am liebsten noch einmal revolutionieren. Abbeel: Sie waren Informatikprofessor an der University of Toronto, hatten aber nie einen Abschluss in Informatik, sondern einen Abschluss in Psychologie und arbeiteten als Tischler. Wie sind Sie vom Studium der Psychologie über den Beruf des Zimmermanns zum Einstieg in die künstliche Intelligenz gekommen? Hinton: Ich hatte in meinem letzten Jahr in Cambridge eine wirklich schwere Zeit. Nach meinem Examen brach ich die Schule ab und wurde Zimmermann, was mir mehr als alles andere gefiel. Nachdem ich alle Kurse in der High School besucht hatte, konnte ich nachts zu Hause bleiben und Tischlerarbeiten erledigen, also wurde ich Zimmermann und arbeitete etwa sechs Monate lang. Aber als Tischler kann ich meinen Lebensunterhalt nicht verdienen. Ich arbeitete als Tischler und Dekorateur, verdiente Geld mit Renovierungsarbeiten und machte mir die Schreinerarbeit wirklich sehr viel Spaß. Erst als ich einen echten Tischler traf, wurde mir klar, dass ich bei der Holzbearbeitung völlig hoffnungslos war. Mit einer Handsäge kann er ein Stück Holz vollständig in Quadrate schneiden. Im Vergleich zu ihm war ich so verzweifelt, dass ich beschloss, zur künstlichen Intelligenz zurückzukehren. Abbeel: Soweit ich weiß, haben Sie an der University of Edinburgh promoviert. Hinton:Ja, ich bin dorthin gegangen, um über neuronale Netze zu promovieren, habe bei dem berühmten Professor Christopher Longa Higgins über Struktur geforscht und fast den Nobelpreis gewonnen. Er interessierte sich sehr für neuronale Netze und ihre Beziehung zu Hologrammen, und ungefähr an dem Tag, als ich in Edinburgh ankam, verlor er das Interesse an neuronalen Netzen und änderte seine Meinung völlig, nachdem er Winograds Aufsatz gelesen hatte und dachte, neuronale Netze seien die falsche Denkweise. Auch wenn er völlig mit dem, was ich tat, nicht einverstanden war, hielt er mich nicht davon ab, es zu tun. Abbeel: Warum haben Sie das in den frühen 1970er Jahren getan, als andere sagten, das von Minsky und Papert vorgeschlagene neuronale Netzwerk sei Unsinn? Hinweis: Tatsächlich handelte es sich bei dem ersten Vortrag, den ich vor dieser Gruppe hielt, darum, wie man echte Rekursion mit neuronalen Netzen durchführt. Dies war eine Rede, die 1973, also vor 49 Jahren, gehalten wurde. Ein Projekt, das ich gefunden habe, besteht darin, dass, wenn Sie ein neuronales Netzwerk benötigen, das eine Form zeichnen kann und die Form in verschiedene Teile unterteilt, es möglich ist, dass ein Teil der Form von derselben neuronalen Hardware gezeichnet wird und die gesamte Form gezeichnet wird durch das Nervenzentrum Um zu zeichnen, speichert das Nervenzentrum die gesamte Form und muss sich seine Position in der gesamten Form sowie die Richtung und Position der gesamten Form merken. Aber ich habe meine Meinung jetzt geändert: Wenn Sie dieselben Neuronen verwenden möchten, um einen Teil einer Form zu zeichnen, müssen Sie sich irgendwo merken, was die gesamte Form ist und wie weit Sie darin gegangen sind. Sobald Sie mit dieser Unterroutine fertig sind, können Sie zu dieser Stelle zurückkehren. Das Problem bei diesem Teil der Form ist, wie sich das neuronale Netzwerk daran erinnert. Natürlich kann man die Neuronen nicht einfach kopieren, also habe ich es geschafft, ein System zum Laufen zu bringen und ständig anzupassen, sodass sich das neuronale Netzwerk schnell daran erinnern kann Schwere und Gewicht. Ich habe also ein neuronales Netzwerk, das eine echte Rekursion ausführt und dieselben Neuronen und Gewichte wiederverwendet, um die rekursiven Aufrufe durchzuführen, wie es die erweiterten Aufrufe im Jahr 1973 taten. Ich glaube, die Leute verstehen meine Präsentation nicht, weil ich nicht gut darin bin, aber sie fragen auch, warum Sie in Ihrer Konkurrenz Rekursion machen. Was sie nicht verstehen, ist, dass wir nie in der Lage sein werden, eine ganze Reihe von Dingen zu erklären, wenn wir nicht über neuronale Netze verfügen, die Dinge wie Rekursion ausführen, und jetzt wird dies wieder zu einem interessanten Problem, also werde ich noch ein Jahr warten Diese Idee wird zu einer echten Antiquität. Ich werde einen Forschungsbericht schreiben, wenn es 50 Jahre alt ist. Abbeel: Wenn Sie wie alle anderen Doktorand sind oder gerade Ihren Doktortitel erworben haben, sagt Ihnen fast jeder, dass die Arbeit, die Sie leisten, Zeitverschwendung ist, aber Sie sind überzeugt, dass das nicht der Fall ist . Die Quelle Ihres Glaubens. Hinweis: Ich denke, ein großer Teil davon ist meine Schulbildung. Mein Vater schickte mich auf eine teure Privatschule mit einer guten naturwissenschaftlichen Ausbildung und ich besuchte sie seit meinem siebten Lebensjahr. Es war eine christliche Schule und alle anderen Kinder glaubten an Gott, aber zu Hause wurde mir beigebracht, dass das alles Blödsinn sei, und meiner Meinung nach war es das auch, also war ich es gewohnt, dass alle anderen falsch lagen. Ich denke, das ist wichtig. Man muss Vertrauen in die Wissenschaft haben und bereit sein, Dinge zu studieren, die offensichtlich wahr sind, auch wenn alle anderen sagen, dass es Blödsinn ist, und nicht alle anderen so denken. In den frühen 1970er Jahren hielten fast alle, die an KI arbeiteten, (was ich tat) für Unsinn. Aber wenn man etwas weiter zurückblickt: In den 1950er Jahren glaubten sowohl von Neumann als auch Turing an neuronale Netze, und Turing glaubte insbesondere an das Verstärkungstraining neuronaler Netze. Ich glaube immer noch, dass die gesamte Geschichte der künstlichen Intelligenz möglicherweise ganz anders verlaufen wäre, wenn sie nicht jung gestorben wären, denn sie waren intelligente Menschen, die mächtig genug waren, um das gesamte Gebiet zu beherrschen, und sie waren auch sehr daran interessiert, wie das Gehirn funktioniert. Abbeel : Deep Learning ist heute sehr effektiv. Ist das alles, was wir brauchen, oder brauchen wir etwas anderes? Sie haben einmal gesagt (ich zitiere Sie vielleicht nicht), dass Deep Learning alles kann. Hinton: Was ich damit wirklich meine, ist, dass durch das Senden einer Reihe von Parametern mit zufälligen Verläufen tiefes Lernen entsteht erhält Die Gradientenmethode ist möglicherweise keine Backpropagation, und die erhaltenen Gradienten sind möglicherweise nicht das endgültige Leistungsmaß, sondern diese lokalen Zielfunktionen. Ich denke, dass das Gehirn einfach so funktioniert, und ich denke, das erklärt alles. Vorhandene Computer verfügen über ein Computerprogramm oder ein neuronales Netzwerk mit vielen Gewichten (das ist eine andere Art von Programm). Wenn Ihre Hardware jedoch kaputt geht, können Sie dasselbe Programm auf einer anderen Hardware ausführen. Das macht Wissen unsterblich. Um zu überleben, ist es nicht auf bestimmte Hardware angewiesen. Der Preis der Unsterblichkeit ist enorm, denn das bedeutet, dass verschiedene Teile der Hardware genau das Gleiche tun müssen, was offensichtlich eine Nullpunktkorrektur ist, nachdem die gesamte Fehlerkorrektur durchgeführt wurde. Sie müssen genau das Gleiche tun, was bedeutet, dass sie vorzugsweise digital oder grundsätzlich digital sind und beispielsweise Zahlen miteinander multiplizieren, was viel, viel Energie kostet, um den Vorgang sehr diskret zu gestalten, was nicht das Ziel der Hardware ist. Wenn Sie Ihr Programm oder neuronales Netzwerk unsterblich machen möchten, müssen Sie einen sehr teuren Rechen- und Herstellungsprozess in Anspruch nehmen.
Wenn wir bereit sind, die Unsterblichkeit aufzugeben, erhalten wir als Belohnung sehr energieeffizientes Rechnen und eine sehr billige Herstellung. Was wir also tun sollten, ist nicht, Computer zu bauen, sondern sie weiterzuentwickeln. Als Analogie: Wenn Sie eine Topfpflanze haben und diese aus dem Topf ziehen, erhalten Sie einen Wurzelballen, der genau der Form des Topfes entspricht, sodass alle verschiedenen Topfpflanzen die gleichen Formen haben Die Struktur der Wurzeln und die Einzelheiten der Wurzelsysteme sind alle unterschiedlich, aber sie tun alle das Gleiche: Sie entziehen dem Boden Nährstoffe und ihre Funktion ist dieselbe. Wenn diese nicht unsterblichen Computer sterben, stirbt mit ihnen auch ihr Wissen. Ein Blick auf die Gewichte ist sinnlos, da diese nur für die Hardware gelten. Was Sie also tun müssen, ist, dieses Wissen auf andere Computer zu übertragen. Hinton Mein Punkt ist, dass Sie eine großartige Leistung erhalten, wenn Sie ein System mit großen Parametern haben und diese Parameter mithilfe des Gradientenabstiegs in einer vernünftigen Zielfunktion abgestimmt werden , wie GPT-3, und viele ähnliche Modelle von Google, die ich erwähnt habe. Das beantwortet nicht die Frage, ob sie das Gleiche können wie wir. Ich denke, wir machen mehr Dinge wie Rekursion als in neuronalen Netzen. Ich habe letztes Jahr in meinem Aufsatz über GLOM versucht, auf diese Themen näher einzugehen, in dem es darum ging, wie man partielle Lochhierarchien in neuronalen Netzen erstellt. Sie müssen eine Struktur haben. Wenn Sie unter symbolischer Berechnung verstehen, dass Sie Teil- und Gesamtstrukturen haben, dann ist das, was wir tun, symbolische Berechnung. Dies ist normalerweise nicht das, was man hartes symbolisches Rechnen nennt, was bedeutet, dass Sie Symbole verwenden und die Regeln, die Sie mit Symbolen anwenden, nur von der Form der Symbolfolge abhängen, mit der Sie es zu tun haben. Die einzigen Eigenschaften sind diese Es ist dasselbe oder unterscheidet sich von anderen Symbolen und kann möglicherweise als Hinweis auf etwas verwendet werden.
Papieradresse: https://arxiv.org/pdf/2102.12627.pdf#🎜 🎜# Neuronale Netze unterscheiden sich stark davon, daher glaube ich nicht, dass wir diese Art der harten symbolischen Verarbeitung durchführen, aber wir machen auf jeden Fall Lückenhierarchien. Aber wir machen es in riesigen neuronalen Netzen, und ich bin mir nicht ganz sicher, inwieweit GPT-3 tatsächlich versteht, was es sagt. Ich denke, das ist ziemlich klar, im Gegensatz zum vorherigen Chatbot-Programm Eliza, das nur Symbolketten neu arrangierte, ohne eine Ahnung zu haben, was es sagte. Der Grund für diese Annahme liegt darin, dass, wenn Sie beispielsweise auf Englisch sagen: „Gib mir ein Bild von einem Hamster mit rotem Hut“, ein Bild eines Hamsters mit rotem Hut gezeichnet wird, und dass es diese Übereinstimmung noch nie gegeben hat Daher muss es die Beziehung zwischen englischen Zeichen und Bildern verstehen, bevor es ihnen Bilder gibt. Wenn Sie diese Skeptiker und Leugner neuronaler Netze fragen: „Wie beweisen Sie, dass es versteht“, werden sie es meiner Meinung nach akzeptieren. Wenn Sie es bitten, ein Bild zu zeichnen, und es dieses Bild zeichnet, dann versteht es. Abbeel: Das PaLM-Modell von Google hat kürzlich gezeigt, wie es die Mechanismen von Witzen effektiv erklären kann. Dies scheint ein sehr tiefes Verständnis der Sprache zu sein. Hinton: Nein, es geht nur darum, die Wörter im Training neu zu ordnen. Ich bin nicht mit der Idee einverstanden: „Wenn es nicht versteht, worum es in dem Witz geht, wie könnte es dann möglicherweise diese Interpretationen des Witzes hervorbringen?“ ein Verständnis, das völlig anders ist als unseres. Es ist klar, dass kontradiktorische Bilder Ihnen sagen, dass Objekte anhand ihrer Texturen identifiziert werden können, und Sie haben wahrscheinlich Recht in dem Sinne, dass dies auf andere Objektinstanzen verallgemeinert werden kann. Aber das ist ein ganz anderer Ansatz als unserer, ich verwende gerne Insekten und Blumen als Beispiele. Insekten können ultraviolettes Licht sehen. Zwei Blumen, die für uns gleich aussehen, können für ein Insekt völlig anders aussehen. Und weil die Blumen für uns gleich aussehen, können wir dann sagen, dass das Insekt sich irrt? Diese Blumen haben sich zusammen mit Insekten entwickelt und ultraviolettes Licht signalisiert den Insekten, um welche Blüte es sich handelt. Offensichtlich haben die Insekten Recht, wir sehen den Unterschied einfach nicht, was eine andere Art ist, über kontradiktorische Beispiele nachzudenken. Die Frage ist also: Wer hat im Fall der Insekten Recht? Nur weil zwei Blumen für uns gleich aussehen, heißt das nicht, dass sie es wirklich sind. In diesem Fall könnte das Insekt Recht haben, wenn es darum geht, dass die beiden Blumen sehr unterschiedlich sind. Abbeel: Bei unseren aktuellen neuronalen Netzen zur Bilderkennung könnte man argumentieren, dass wir, da wir sie geschaffen haben und möchten, dass sie etwas für uns tun, wirklich nicht einfach zugeben wollen: „Nun, sie haben Recht.“ Ja , wir haben uns geirrt.“ Ich meine, sie müssen Autos und Fußgänger erkennen. Hinton: Ja. Ich möchte Ihnen nur sagen, dass es nicht so einfach ist, wie Sie denken, wer Recht oder Unrecht hat. Einer der Schwerpunkte meiner Arbeit über GLOM ist der Versuch, ein menschlicheres Wahrnehmungssystem aufzubauen. Es ist also wahrscheinlicher, dass sie die gleichen Fehler machen wie wir, als die ungewöhnlichen. Wenn Sie zum Beispiel ein selbstfahrendes Auto hätten und es einen Fehler machen würde, den jeder normale menschliche Fahrer machen würde, wäre das akzeptabler als ein wirklich dummer Fehler. Abbeel: Soweit ich weiß, denken Sie auch über Schlaf nach. Können Sie das näher erläutern? Hinweis: Wenn man Menschen den Schlaf entzieht, werden sie wirklich komisch, so wie wenn man jemanden drei Tage lang high hält und er beginnt zu halluzinieren. Wenn es eine Woche anhält, werden sie verrückt und erholen sich nie wieder. Die Frage ist, warum? Welche Rechenfunktion hat der Schlaf? Wenn Schlafentzug Sie völlig verrückt macht, gibt es wahrscheinlich etwas sehr Wichtiges, über das Sie nachdenken sollten. Die aktuelle Theorie besagt, dass Schlaf dazu dient, Erinnerungen zu festigen oder sie vom Hippocampus in die Großhirnrinde herunterzuladen, was etwas seltsam ist, weil es so ist, als würde man auf dem Campus zuerst vor Gericht gehen. Vor langer Zeit, in den frühen 1980er Jahren, hatten Terrence Sejnowski und ich eine Theorie namens „Boltzmann-Maschinen“, die teilweise auf einer Erkenntnis von Francis Crick basierte, als er über Hopfield-Netze nachdachte, und er hatte einen Aufsatz über Sleeps Aufsatz Sein Punkt ist, dass man dem Netzwerk zufällige Dinge geben kann und dafür sorgt, dass es sich nicht mit zufälligen Dingen zufrieden gibt. In einem Hopfield-Netz geben Sie ihm also etwas, an das Sie sich erinnern möchten Lebe etwas und es wird das Gewicht verändern. Die Energie dieses Vektors ist also geringer. Wenn Sie ihm einen zufälligen Vektor geben und die Energie erhöhen, ist der Effekt besser, was zur Boltzmann-Maschine führt, mit der wir ihn erreichen. Wenn Sie ihm etwas anderes als Zufälliges geben, erhalten Sie etwas, das von der Markov-Kette des Modells selbst generiert wird. Diese Möglichkeit zu verringern und die Zufälligkeit der Daten zu erhöhen, ist tatsächlich eine Form des Maximum-Likelihood-Lernens. Wir denken, genau darum geht es beim Schlafen. Schlaf ist eine negative Phase des Lernens. Beim kontrastiven Lernen versucht man, zwei Patches aus demselben Bild dazu zu bringen, dass sie sich ähnlich verhalten; bei zwei Patches aus unterschiedlichen Bildern versucht man, dass sie sich ganz unterschiedlich verhalten. Sobald sie unterschiedlich sind, muss man sie nicht mehr unterscheiden, sondern sie nicht mehr zu ähnlich machen. Das ist das Prinzip des kontrastiven Lernens. Mit Boltzmann-Maschinen können Sie nun keine positiven und negativen Beispiele mehr trennen. Man muss positive Beispiele mit negativen Beispielen überschneiden, sonst geht das Ganze schief. Ich habe versucht, dass sie sich nicht überschneiden, viele positive Beispiele und dann viele negative Beispiele machen, was schwierig ist. Beim kontrastiven Lernen kann man die positive Phase von der negativen Phase trennen. Sie können also viele Beispiele für positive Paare und dann viele Beispiele für negative Paare erstellen. Wenn Sie also die positiven und negativen Phasen zu unterschiedlichen Zeitpunkten trennen, eine Reihe positiver Aktualisierungen und dann eine Reihe negativer Aktualisierungen durchführen können, wird vergleichendes Lernen sinnvoller. Selbst beim normalen kontrastiven Lernen, das man relativ gut kann, muss man viel Schwung und dergleichen einsetzen. Ich denke also, Die Funktion des Schlafes besteht höchstwahrscheinlich darin, zu vergessen oder negative Beispiele zu machen, weshalb man sich nicht an seine Träume erinnert. Wenn Sie aufwachen, werden Sie sich an den Inhalt des Schnellgewichts erinnern, da das Schnellgewicht ein vorübergehender Speicher ist. Aber wenn man aufwacht, erinnert man sich nur an die letzte Minute des Traums, den man beim Aufwachen hatte, was meiner Meinung nach eine glaubwürdigere Schlaftheorie ist als jede andere. Wenn die Erinnerung an diesen Moment entfernt würde, würde das erklären, warum, und das ganze System würde zusammenbrechen. Sie werden katastrophale Fehler machen, anfangen zu halluzinieren und alle möglichen seltsamen Dinge tun. Lassen Sie mich noch etwas über die Notwendigkeit von Negativbeispielen sagen. Wenn Sie über ein neuronales Netzwerk verfügen, versucht es, eine interne Zielfunktion zu optimieren, entweder im Hinblick auf ihre Darstellung oder im Hinblick auf die Konsistenz zwischen kontextuellen Vorhersagen und lokalen Vorhersagen. Diese Konsistenz soll eine Eigenschaft realer Daten sein, und das Problem innerhalb eines neuronalen Netzwerks besteht darin, dass man in der Eingabe alle möglichen Korrelationen erhalten kann. Nehmen wir an, ich bin ein Neuron und es gibt alle möglichen Korrelationen in meinen Eingaben, und diese Korrelationen haben nichts mit den realen Daten zu tun, sie werden durch die Verkabelung des Netzwerks und die Art und Weise, wie es im Netzwerk ist, hervorgerufen. Wenn beide Neuronen auf dasselbe Pixel blicken, besteht eine Beziehung zwischen ihnen. Aber das sagt nichts über die Daten aus, also ist die Frage, wie man lernt, die Struktur der realen Daten und nicht der Netzwerkverbindung zu extrahieren. Der Weg, dies zu erreichen, besteht darin, ihm positive Beispiele zuzuführen und die Struktur in den positiven Beispielen und nicht in den negativen Beispielen zu finden, da die negativen Beispiele durch genau dieselben Zeilen verlaufen. Wenn die Struktur im Negativbeispiel nicht, aber im Positivbeispiel vorhanden ist, dann geht es bei der Struktur um den Unterschied zwischen dem Negativbeispiel und dem Positivbeispiel und nicht darum, wie man sie verbindet. Auch wenn die Leute nicht viel darüber nachdenken, ist es besser, sie nicht die eigenen Gewichte und Verbindungen des neuronalen Netzwerks lernen zu lassen, wenn Sie über leistungsstarke Lernalgorithmen verfügen. Abbeel: Sie haben auch das Konzept „Schülermodell besiegt Lehrermodell“ erwähnt. Was bedeutet das? Hinton: MNIST ist eine standardmäßige numerische Datenbank. Sie können die Trainingsdaten durch falsche Beschriftungen ersetzen und ein A erhalten Datensatz mit Beschriftungen, die eine korrekte Rate von 20 % und eine Fehlerrate von 80 % aufweisen. Die Frage ist: Können Sie aus diesem Datensatz lernen? Welche Wirkung hat das Lernen? Die Antwort lautet: Sie können mit einer Genauigkeit von 95 % lernen. Angenommen, das Lehrermodell hat eine Fehlerquote von 80 % und das Schülermodell eine korrekte Quote von 95 %, sodass der Schüler viel besser ist als der Lehrer . Sie bündeln diese Trainingsbeispiele alle auf einmal, sodass Sie den Fehler nicht über verschiedene Trainingsbeispiele mitteln können, die zufällig ähnliche Bilder haben. Wenn Sie fragen, wie viele Trainingsfälle Sie benötigen, wenn Sie beschädigte Fälle haben, ist dies interessant, da der Bilddatensatz klein ist. Möchten Sie lieber eine Million falsch beschrifteter Bilder oder 10.000 korrekt beschriftete Bilder? Ich habe eine Hypothese: Was zählt, ist die Menge der gegenseitigen Informationen zwischen den Etiketten und die Genauigkeit. Wenn die Etiketten korrekt beschädigt sind, gibt es in 90 % der Fälle keine gegenseitigen Informationen zwischen den Etiketten und in 80 % der Fälle gibt es nur eine geringe Menge an gegenseitigen Informationen. Mir ist aufgefallen, dass Sie in letzter Zeit einige Sim-to-Real-Arbeiten durchgeführt haben. Sie verwenden neuronale Netze, um reale Daten mit Unvollkommenheiten zu kennzeichnen, und dann lernen die Schüler daraus Etiketten, und Schüler lernen besser als Lehrer. Die Leute sind verwirrt: Wie kann ein Schüler besser sein als ein Lehrer? In neuronalen Netzen ist dies jedoch leicht zu erreichen. Wenn genügend Trainingsdaten vorhanden sind, sind die Schüler besser als die Lehrer, selbst wenn die Lehrer unzuverlässig sind. Ich habe vor ein paar Jahren mit Melody Y. Guan eine Arbeit darüber geschrieben, in der einige medizinische Daten verwendet wurden. Im ersten Teil des Papiers wird darüber gesprochen, und unsere Faustregel lautet, dass die gegenseitige Information zwischen den zugewiesenen Etiketten und die Genauigkeit entscheidend sind. Papieradresse: https://www.cs.toronto.edu/~hinton/ absps/WhoSaidWhat.pdf Abbeel: In Bezug auf unsere Arbeit, die Sie gerade erwähnt haben, und einige aktuelle, sehr beliebte Arbeiten stellen Lehrer normalerweise laute Etiketten zur Verfügung, aber nicht alle lauten Etiketten werden verwendet. Es lässt sich argumentieren, dass man sich einfach an die selbstbewussteren Lehrer wendet. Hinweis: Hier ist ein guter Ansatz. Es könnte hilfreich sein, nur Dinge zu betrachten, von denen Sie Grund zu der Annahme haben. In MNIST hat Melody eine Grafik erstellt, in der der Schüler zu 95 % richtig liegt, solange 20 % der Beschriftungen richtig sind. Aber wenn es auf etwa 15 % sinkt, kommt es plötzlich zu einem Phasenwechsel, und an diesem Punkt können Sie nur Ihr Glück versuchen, denn der Schüler wird es sowieso bekommen, und wenn der Lehrer diese Bezeichnungen ausspricht, der Schüler In gewisser Weise müssen Sie bis zu einem gewissen Grad wissen, welche Beispiele richtig und welche falsch sind. Die fehlerhafte Natur einer falsch beschrifteten Beschriftung wird deutlich, wenn die Schüler den Zusammenhang zwischen Beschriftung und Eingabe erkennen. Es spielt also keine Rolle, ob es versehentlich zufällig aktiviert wird, aber es gibt einen Phasenübergang, in dem Sie es gut genug machen müssen, damit die Schüler es verstehen. Das erklärt auch, warum unsere Schüler schlauer sind als wir. Abbeel: Beim Erlernen neuronaler Netze, insbesondere wenn Sie ein Modell erstellen, müssen Sie verstehen, was es ist und was es lernt. Normalerweise versuchen Menschen zu visualisieren, was während des Lernprozesses passiert. Sie haben eine der beliebtesten Visualisierungstechniken erfunden: t-SNE (t-Distribution Stochastic Neighbor Embedding). Was ist die Geschichte dahinter? Papieradresse: http://www.cs.toronto.edu/~hinton/absps/tsne.pdf Hinweis: Wenn Sie hochdimensionale Daten haben, Versuchen Sie, eine 2D- oder 3D-Karte zu zeichnen. Sie können die ersten beiden Hauptkomponenten nehmen und nur die ersten beiden Hauptkomponenten zeichnen. Bei den Hauptkomponenten geht es jedoch darum, große Entfernungen korrekt zu ermitteln. Wenn also zwei Dinge sehr unterschiedlich sind, werden die Hauptkomponenten große Bedenken haben, dass sie in zwei Dimensionen sehr unterschiedlich sein könnten. Kleine Unterschiede sind ihm überhaupt nicht wichtig, da er mit dem Quadrat großer Unterschiede arbeitet und daher hochdimensionale Ähnlichkeiten nicht besonders gut bewahrt. Aber was uns interessiert, ist oft genau das Gegenteil. Bei den erhaltenen Daten interessiert uns, was dem, was sehr ähnlich ist, und es ist uns egal, ob der große Abstand ein wenig falsch ist, solange der kleine Der Abstand stimmt. Ich hatte vor langer Zeit diese Idee: Was wäre, wenn wir Entfernungen in paarweise Wahrscheinlichkeiten umwandeln würden? t-SNE hat verschiedene Versionen. Angenommen, wir wandeln sie in Wahrscheinlichkeitspaare um. Beispielsweise haben Paare mit einem kleinen Abstand eine hohe Wahrscheinlichkeit und Paare mit einem großen Abstand eine niedrige Wahrscheinlichkeit. Wir wandeln den Abstand in Wahrscheinlichkeit um, ein kleiner Abstand entspricht einer großen Wahrscheinlichkeit, legen eine Gaußsche Verteilung um einen Datenpunkt und berechnen dann die Dichte anderer Datenpunkte unter dieser Gaußschen Verteilung, bei der es sich um eine nicht standardisierte Wahrscheinlichkeit handelt, und normalisieren sie dann es Eine Transformation. Diese Punkte werden dann in zwei Dimensionen platziert, um diese Wahrscheinlichkeiten zu bewahren. Es ist also egal, ob zwei Punkte weit voneinander entfernt sind. Ihre paarweise Wahrscheinlichkeit ist sehr gering und die relative Position der beiden Punkte spielt keine Rolle. Dadurch entstehen sehr schöne Karten, was als stochastische Nachbarschaftseinbettung bezeichnet wird. Wir dachten darüber nach, eine Gauß-Verteilung einzuführen und zufällig einen Nachbarn basierend auf der Dichte unter der Gauß-Verteilung auszuwählen, die eine sehr einfache Ableitung hat. Die Karte, die wir erhalten, neigt dazu, Dinge zusammenzudrängen, was ein grundlegendes Problem bei der Konvertierung hochdimensionaler Daten in niedrigdimensionale Daten darstellt. Dies wird durch die Natur des hochdimensionalen Raums und des niedrigdimensionalen Raums bewirkt. In einem hochdimensionalen Raum kann ein Datenpunkt nahe bei vielen anderen Punkten liegen, während diese Punkte in einem niedrigdimensionalen Raum nicht zu nahe beieinander liegen. Wenn sie sich alle in der Nähe dieses Datenpunkts befinden, müssen sie nahe beieinander liegen. Daher werden Sie Probleme beim Einbetten von einer hohen Dimension in eine niedrige Dimension haben. Als ich an t-SNE arbeitete, hatte ich die Idee, ein Hybridmodell zu erstellen, das Wahrscheinlichkeit als „Zwischenwährung“ nutzt. Wir haben die Idee erfolgreich umgesetzt, aber nie besonders gut. Ich war enttäuscht, dass die Leute diese Idee nicht genutzt haben, und habe dann eine einfachere Version erstellt, die eine Mischung aus einer Gaußschen Verteilung und einer gleichmäßigen Verteilung war, was besser funktionierte. Die Idee ist: Auf einer Karte sind alle Paare gleich wahrscheinlich, was eine Hintergrundwahrscheinlichkeit über eine große Entfernung liefert, also eine kleine Hintergrundwahrscheinlichkeit, auf einer anderen Karte ist proportional zum Quadratabstand von Ihnen auf dieser Karte, aber das bedeutet, dass sie auf dieser Karte sehr weit voneinander entfernt sein können, wenn sie wollen, da sie eine gewisse Wahrscheinlichkeit homogenisieren müssen. Tatsächlich handelt es sich bei dieser Version um einen Sonderfall der Verwendung einer Gaußschen Verteilungsmischung, bei der es sich um eine sehr breite, gleichmäßige Gaußsche Verteilung handelt. Was wäre, wenn wir eine ganze Hierarchie von Gaußschen Funktionen verwenden würden? Viele Gaußsche Funktionen haben unterschiedliche Breiten, sogenannte t-Verteilungen, was zu t-SNE führt. t-SNE hat die großartige Eigenschaft, dass es mehrskalige Informationen über Dinge liefern kann, und sobald die Entfernung größer wird, erhält man viele verschiedene Strukturebenen, sowohl die Gesamtstruktur als auch die Feinstruktur. In all diesen Arbeiten wird die Zielfunktion verwendet, die eine Gaußsche Funktion unter relativer Dichte ist, von mir Mit dem Aufgrund früherer Arbeiten von Alberto Pacinero war der Veröffentlichungsprozess damals schwierig. Ich erhielt einen Kommentar, der von der Konferenz abgelehnt wurde: „Hinton hat sieben Jahre lang an dieser Idee gearbeitet, aber niemand hat Interesse.“ Ich denke, diese Kommentare sagen mir tatsächlich, dass ich etwas sehr Innovatives mache, bei dem es sich tatsächlich um eine Funktion namens NCE handelt, die eine Kontrastmethode verwendet, und t-SNE ist eigentlich eine Version dieser Funktion. Aber t-SNE dient zum Erstellen von Karten, und dann habe ich versucht, eine Hybridversion zu erstellen, was zunächst nicht funktionierte, bis ich schließlich einen Zufall fand, nämlich die T-Distribution, die ich verwenden wollte.
2 Menschliche Gehirn-Spike-Neuronen vs. künstliche GPU-Neuronen: Es gibt ein weiteres Thema, das derzeit viel diskutiert wird. Das Gehirn unterscheidet sich stark von aktuellen neuronalen Netzwerken ganz anders als die künstlichen Neuronen in unserer GPU. Ich bin gespannt auf Ihre Meinung zu diesem Thema. Ist das nur ein technischer Unterschied oder brauchen wir vielleicht mehr Wissen, um es besser zu verstehen?
3 Hintergrund der Geburt von AlexNet
4 Von der Wissenschaft zu Google
Nicht unsterblicher Computer: niedrige Kosten, Wissen durch Lernen erwerben
6 Inwieweit verstehen große Sprachmodelle Sprache? In gewisser Weise nähert sich der Maßstab großer Sprachmodelle dem des Gehirns an, was sehr beeindruckend ist. Was halten Sie von diesen Modellen? Welche Einschränkungen sehen Sie darin? Andererseits haben Ameisen offensichtlich viel kleinere Gehirne als Menschen, aber fairerweise muss man sagen, dass unsere künstlich entwickelten visuomotorischen Systeme noch nicht auf dem Niveau von Ameisen oder Bienen sind. Was denken Sie also über die jüngsten großen Fortschritte bei Sprachmodellen?
7 Boltzmann-Maschine, Wissensdestillation und t-SNE-Dimensionalitätsreduktionsalgorithmus
Das obige ist der detaillierte Inhalt vonAktuelles Interview mit Geoffrey Hinton: Innerhalb von fünf Jahren werden wir die Funktionsweise des Gehirns geknackt haben, aber nicht durch Backpropagation. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!