Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science'! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

WBOY
Freigeben: 2024-06-03 10:08:09
Original
701 Leute haben es durchsucht

Erstaunlich, um das KI-Modell zu trainieren, befestigte ein Professor der State University of New York seiner Tochter eine GoPro-ähnliche Kamera an den Kopf!

Obwohl es unglaublich klingt, ist das Verhalten dieses Professors tatsächlich begründet.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Um das komplexe neuronale Netzwerk hinter LLM zu trainieren, sind umfangreiche Daten erforderlich.

Ist unser aktueller LLM-Ausbildungsprozess unbedingt der einfachste und effizienteste Weg?

Definitiv nicht! Wissenschaftler haben herausgefunden, dass das Gehirn von Kleinkindern wie ein Schwamm Wasser aufnimmt und so schnell ein zusammenhängendes Weltbild bildet.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Obwohl LLM zeitweise erstaunliche Leistungen erbringt, werden menschliche Kinder mit der Zeit schlauer und kreativer als das Modell!

Das Geheimnis, dass Kinder die Sprache beherrschen

Wie kann man LLM besser trainieren?

Als Wissenschaftler vor Rätsel standen, brachten Menschenjunge ihre Augen zum Leuchten –

Die Art und Weise, wie sie Sprache lernten, kann man als Meister des Spracherwerbs bezeichnen.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Wir alle kennen diese Geschichte: Wirf ein kleines Kind in ein Land mit einer völlig anderen Sprache und Kultur. Innerhalb weniger Monate kann es sein, dass es die Landessprache nahezu auf dem Niveau seiner Muttersprache beherrscht.

Und große Sprachmodelle verblassen im Vergleich.

Erstens sind sie zu datenintensiv!

Heutzutage haben große Unternehmen, die Modelle trainieren, fast alle Daten der Welt erschöpft. Denn LLM-Lernen erfordert astronomische Textmengen, die aus dem Internet und von verschiedenen Orten abgerufen werden.

Damit sie eine Sprache beherrschen, müssen Sie ihnen Billionen von Wörtern geben.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Brenden Lake und die NYU-Wissenschaftler, die an dieser Studie teilgenommen haben

Zweitens ist LLM möglicherweise nicht in der Lage, genau zu lernen, selbst wenn mit großem Aufwand so viele Daten eingegeben werden.

Die Ausgabe vieler LLMs besteht darin, das nächste Wort mit einer gewissen Genauigkeit vorherzusagen. Und diese Genauigkeit ist zunehmend beunruhigend.

Im krassen Gegensatz dazu brauchen Kinder nicht so viel Erfahrung, um eine Sprache fließend zu sprechen.

Brenden Lake, ein Psychologe an der State University of New York, der sich mit Menschen und KI beschäftigt, hat sich darauf konzentriert.

Er beschloss, ein Experiment an seiner einjährigen und neun Monate alten Tochter Luna durchzuführen.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

In den letzten 11 Monaten ließ Lake ihre Tochter jede Woche eine Stunde lang eine Kamera tragen, um Videos ihrer Spielzeit aus ihrer Perspektive aufzunehmen.

Mit den von Lunas Kamera aufgenommenen Videos hofft Lake, das Modell mit denselben Daten trainieren zu können, denen auch Kinder ausgesetzt sind.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Hat eine GoPro an seine kleine Tochter geschnallt

Obwohl sich Linguisten und Kinderexperten derzeit nicht darüber einig sind, wie Kinder Sprache erwerben, ist Lake überzeugt: LLM mehr machen Das Geheimnis der Effizienz liegt in den Lernmustern der Kinder !

Aus diesem Grund hat Lake ein solches Forschungsprojekt ins Leben gerufen: Er untersucht die Stimulation, die Kinder beim Lernen des ersten Satzes erfahren, um die Effizienz des LLM-Trainings zu verbessern.

Dazu musste Lakes Team Video- und Audiodaten von 25 Kindern in den Vereinigten Staaten sammeln.

Das ist die Szene am Anfang des Artikels – sie befestigten GoPro-ähnliche Kameras an den Köpfen dieser Kinder, darunter auch Lakes Tochter Luna.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Lake erklärte, dass ihr Modell versucht, Videoclips und das, was die Betreuerin des Kindes aus der Perspektive des Kindes sagt, zu verbinden, ähnlich wie das Clip-Modell von OpenAI Anmerkungen und Bilder verbindet.

Clip kann ein Bild als Eingabe verwenden und eine beschreibende Anmerkung als Vorschlag basierend auf den Trainingsdaten von Bild-Anmerkungs-Paaren ausgeben.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Papieradresse: https://openai.com/index/clip/

Darüber hinaus kann das Modell des Lake-Teams auch Bilder von Szenen basierend auf Trainingsdaten von GoPro-Aufnahmen und Audio von Betreuern kombinieren Als Eingabe gibt es dann eine Sprache aus, die die Szene beschreibt.

Darüber hinaus kann das Modell Beschreibungen auch in zuvor im Training gesehene Frames umwandeln.

Auf den ersten Blick klingt es ziemlich einfach, oder? Das heißt, das Modell lernt, gesprochene Wörter den in Videobildern beobachteten Objekten zuzuordnen, genau wie menschliche Kinder.

Aber in der tatsächlichen Umsetzung werden wir noch mit vielen komplexen Situationen konfrontiert sein.

Zum Beispiel schauen Kinder nicht immer auf den beschriebenen Gegenstand oder die beschriebene Handlung.

Es gibt noch abstraktere Situationen, wie zum Beispiel, dass wir unseren Kindern Milch geben, die Milch aber in einem undurchsichtigen Becher ist, was zu einer sehr lockeren Verbindung führt.

So erklärte Lake: Dieses Experiment sollte nicht beweisen, ob wir einem Modell beibringen können, Objekte in Bildern mit entsprechenden Wörtern abzugleichen (OpenAI hat dies bereits demonstriert).

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Stattdessen wollte das Team herausfinden, ob das Modell tatsächlich lernen kann, Objekte zu erkennen, indem es nur die spärliche Menge an Daten verwendet, die Kindern zur Verfügung stehen (was unglaublich spärlich ist).

Wie Sie sehen, ist dies völlig das Gegenteil der Idee großer Unternehmen wie OpenAI, Google und Meta, Modelle zu erstellen.

Wissen Sie, Meta hat 15 Billionen Token verwendet, um Lama 3 zu trainieren.

Wenn das Experiment des Lake-Teams erfolgreich ist, wird vielleicht der LLM-Datenmangel, mit dem die ganze Welt konfrontiert ist, gelöst – denn dann werden für das Training von LLM überhaupt nicht so viele Daten benötigt!

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Mit anderen Worten: Die neue Idee besteht darin, das KI-Modell aus begrenzten Eingaben lernen zu lassen und dann aus den Daten, die wir sehen, zu verallgemeinern.

Ich denke, unser Fokus sollte sich nicht darauf beschränken, immer größere LLMs aus immer mehr Daten zu trainieren. Ja, auf diese Weise können Sie mit LLM erstaunliche Leistungen erzielen, aber es entfernt sich immer weiter von den Wundern der menschlichen Intelligenz, die wir kennen ...

Frühe Experimente waren erfolgreich

Früh Die experimentellen Ergebnisse haben sich bewährt dass die Idee des Lake-Teams richtig sein könnte.

Im Februar dieses Jahres trainierten sie mithilfe von 61 Stunden Videomaterial ein neuronales Netzwerk, um die Erfahrungen eines kleinen Kindes aufzuzeichnen.

Die Studie ergab, dass das Modell in der Lage war, verschiedene von den Probanden gesprochene Wörter und Sätze mit dem im Videobild erfassten Erlebnis in Verbindung zu bringen – solange das Wort oder der Satz präsentiert wurde, konnte sich das Modell an das entsprechende Bild erinnern . Dieses Papier wurde in Science veröffentlicht.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Papieradresse: https://www.science.org/doi/10.1126/science.adi1374

Lake sagte, das Überraschendste sei, dass das Modell die Namen von Objekten in untrainierten Bildern verallgemeinern kann!

Natürlich ist die Genauigkeit möglicherweise nicht großartig. Doch ursprünglich diente das Modell nur dazu, ein Konzept zu verifizieren.

Das Projekt ist noch nicht abgeschlossen, da das Modell noch nicht alles gelernt hat, was ein Kind wissen würde.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Schließlich sind es nur etwa 60 Stunden kommentierte Rede, also nur ein Prozent der Erfahrung, die ein Kind in zwei Jahren sammelt. Und das Team benötigt mehr Daten, um herauszufinden, was lernbar ist.

Und Lake gab auch zu, dass die vom ersten Modell verwendete Methode immer noch Einschränkungen aufweist –

Nur Videoclips analysiert, die sich auf die Worte der Pflegekraft beziehen, nur das Filmmaterial wurde in Bilder mit einer Geschwindigkeit von 5 Bildern pro Sekunde umgewandelt. Allein auf dieser Grundlage hat die KI nicht wirklich gelernt, was Verben und abstrakte Wörter sind. Sie erhält nur statische Ausschnitte davon, wie die Welt aussieht.

Da es nichts darüber weiß, was vorher passiert ist, was danach passiert ist oder über den Kontext des Gesprächs, ist es schwierig zu lernen, was „Gehen“, „Laufen“ und „Springen“ ist.

Aber in Zukunft, wenn die Technologie hinter Modelvideos ausgereifter wird, glaubt Lake, dass das Team effektivere Modelle entwickeln wird.

Wenn wir ein Modell dafür erstellen könnten, wie der Spracherwerb tatsächlich beginnt, würde dies wichtige Anwendungen für das Verständnis des menschlichen Lernens und der menschlichen Entwicklung eröffnen und uns vielleicht helfen, Entwicklungsstörungen zu verstehen oder wie Kinder Sprache lernen.

Mit einem solchen Modell könnten schließlich auch Millionen verschiedener Sprachtherapien getestet werden.

Apropos: Wie beherrschen Kinder eine Sprache solide mit ihren eigenen Augen und Ohren?

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Schauen wir uns diesen Artikel des Lake-Teams in Science genauer an.

Verbinden Sie Wörter mit physischen Objekten und visuellen Bildern

Wie können menschliche Kinder ihre Unwissenheit über die Welt ablegen und sich Wissen aneignen? Das Geheimnis dieser „Black Box“ zieht nicht nur die ständige Suche von Pädagogen nach sich, sondern ist auch eine Frage, die sich im Herzen eines jeden von uns nach dem Ursprung der individuellen Weisheit bewegt.

Der koreanische Science-Fiction-Autor Kim Cho Ye schrieb diese Annahme in der „Symbiose-Hypothese“: Die Weisheit, die menschliche Kinder in ihrer frühen Kindheit an den Tag legen, trägt tatsächlich eine verlorene außerirdische Zivilisation in sich. Sie entscheiden sich für diese Methode, um mit Menschen zu kommunizieren. Aber es dauerte nur fünf kurze Jahre, nachdem die Menschen erwachsen geworden waren und wirklich solide Erinnerungen hatten, wurden die großartigen Erinnerungen an ihre Kindheit gelöscht.

Internetnutzer teilen online oft Geschichten über Menschenjunge, die „vergessen haben, Meng-Po-Suppe zu trinken“.

Was die mysteriöse Kindheit betrifft, ist es ein mysteriöser Ort, der für uns schwer zu erklären und zu dem wir nur schwer zurückkehren können. Es ist eine Art „Nostalgie“. Wie auf einem goldenen Grashalm geschrieben steht: „Geh nicht.“ Nimm dir diese schöne Welt nicht weg. Wenn ich groß bin, bleib bitte bei mir.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Wie verbinden kleine Kinder neue Wörter mit bestimmten Objekten oder visuellen Konzepten?

Wie denken Kinder beispielsweise an elastische, runde Gegenstände, wenn sie das Wort „Ball“ hören? Wachstum von 6 auf 25 Monate und zeichnete einen 61-stündigen visuellen Sprachdatenstrom auf.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainierenAuf diesem 1,5-jährigen Kinderclip-Datensatz (einschließlich 600.000 Videobildern und 37.500 transkribierten Äußerungspaaren) trainierten die Forscher ein Modell, das kontrastive Lernmodell für Kinderperspektive (CVCL).

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Dieses Modell instanziiert eine Form des assoziativen Lernens über Situationen hinweg und identifiziert Zuordnungen zwischen Wörtern und möglichen visuellen Referenzen.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Dieses Modell koordiniert die Vergleichsziele zweier neuronaler Netze, eines visuellen Encoders und eines linguistischen Encoders, und wird auf selbstüberwachte Weise trainiert (d. h. nur unter Verwendung von Aufnahmen aus der Kinderperspektive, ohne externe Beschriftungen), verglichen Ziel ist es, Einbettungen (Vektoren) von Videobildern und zeitlich gleichzeitig auftretenden Sprachäußerungen zu kombinieren (Verarbeitung von Einbettungen von gleichzeitigen Videobildern und Sprachäußerungen).

Natürlich ist dieser Datensatz namens SAYCam-S begrenzt, da er nur ca 1 % der Wachzeit eines Kindes, es fehlt ihm ein großer Teil seiner Erfahrung.

Trotzdem kann CVCL aus der begrenzten Erfahrung eines Kindes immer noch leistungsstarke multimodale Darstellungen lernen!

Das Team hat erfolgreich gezeigt, dass das Modell viele referenzielle Abbildungen erfasst, die in den täglichen Erfahrungen von Kindern vorkommen, und daher in der Lage ist, neue visuelle Referenzen ohne Stichproben zu verallgemeinern und die darin enthaltenen visuellen und sprachlichen Konzeptsysteme anzupassen.

Bewertung erlernter Wortbedeutungszuordnungen

Konkret bewertete das Team nach Abschluss des Trainings die Qualität der von CVCL erlernten Wortreferenzzuordnungen und verschiedener alternativer Modelle.

Die Ergebnisse zeigen, dass die Klassifizierungsgenauigkeit von CVCL 61,6 % beträgt.

Und Abbildung 2D zeigt, dass für 11 der 22 Konzepte die Leistung von CVCL innerhalb von 5 % des Fehlers von CLIP liegt, die Trainingsdaten von CLIP jedoch mehrere Größenordnungen größer sind (400 Millionen aus dem Netzwerk von Bild- Textpaare).

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Forschungsergebnisse zeigen, dass viele der frühesten Wortreferenzzuordnungen aus mindestens 10 bis 100 natürlich vorkommenden Wortreferenzpaaren erhalten werden können.

Verallgemeinerung auf neue visuelle Paradigmen

Darüber hinaus bewerteten die Forscher auch, ob die durch CVCL gelernten Wörter auf visuelle Reize außerhalb der Verteilung verallgemeinert werden können.

Abbildung 3A zeigt, dass CVCL auch ein gewisses Verständnis für diese visuellen Konzepte zeigt, mit einer Gesamtgenauigkeit von 34,7 %.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Offensichtlich erfordert diese Aufgabe einen größeren Konzeptsatz und zusätzliche Schwierigkeiten bei der Verallgemeinerung außerhalb der Verteilung.

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Auf der linken Seite sind zwei zufällig ausgewählte Trainingsfälle und auf der rechten Seite sind vier Testfälle zu sehen. Die folgenden Prozentsätze stellen die Genauigkeit und Leistung des Modells bei der Identifizierung dieses Bildes dar. Die ausgewählten Fälle sind von links nach rechts die beiden höchsten Werte, Median und minimale Werte. Es ist ersichtlich, dass die Genauigkeit der Modellerkennung auch höher ist, wenn der Testfall und der Trainingsfall in Farbe und Form ähnlicher sind. Die multimodale Konsistenz ist sehr gut. Schließlich testete der Forscher Kohärenz der visuellen und sprachlichen Konzeptsysteme von CVCL.

Wenn beispielsweise sowohl die visuelle Einbettung als auch die Worteinbettung von „Auto“ eher „Straße“ als „Ball“ ähneln, deutet dies darauf hin, dass die multimodale Ausrichtung gut funktioniert.

Das Bild unten zeigt die hohe Ausrichtung der visuellen und sprachlichen Systeme von CVCL.

Die Beziehung zwischen Bild und Text. Die gepunktete Linie stellt den Abstand zwischen dem visuellen Schwerpunkt jedes Konzepts und der Worteinbettung dar

Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Verschiedene visuelle Konzepte unterscheiden sich darin, wie eng ihre Beispiele gruppiert sind. Da die Sichtlinie des Babys zwischen sehr nahen Objekten wandert, bildet das Modell bei der Unterscheidung von „Händen“ und „Spielzeug“ keine klare Referenzzuordnung. „Auto“ und „Kinderbett“ weisen jeweils eine bessere Leistung auf In der Abbildung demonstrieren wir visuell den Vergleich von CVCL-Vorhersagen mit markierten Beispielen unter Verwendung von t-SNE.

Die blauen Punkte auf der linken Seite entsprechen den 100 Frames, die zu einer bestimmten Kategorie gehören, und die grünen Punkte auf der rechten Seite entsprechen den 100 am höchsten aktivierten Frames (basierend auf der Kosinusähnlichkeit der Worteinbettung für jedes Konzept). im CVCL). Unter jeder Abbildung befinden sich mehrere Beispielrahmen, die zu einem oder mehreren Unterclustern innerhalb jedes Konzepts gehören und erfassen, wie Worteinbettungen mit Bildeinbettungen im gemeinsamen Einbettungsraum interagieren. Für das Wort „Treppe“ sehen wir beispielsweise einen Cluster, der Bilder von Holztreppen im Innenbereich darstellt, während ein anderer Hauptcluster Bilder einer Reihe blauer Treppen im Freien darstellt. Alle t-SNE-Diagramme in diesen Abbildungen werden aus demselben Satz gemeinsamer Bild- und Texteinbettungen abgeleitet. Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Das Bild unten zeigt, dass das Modell das Ziel in verschiedenen Ansichten lokalisieren kann.

In der normalisierten Aufmerksamkeitskarte zeigt Gelb den Bereich mit der höchsten Aufmerksamkeit an. In den ersten beiden Kategorien (Ball und Turm) können wir sehen, dass das Modell das Ziel in verschiedenen Ansichten lokalisieren kann. In den unteren beiden Kategorien (Katze und Papier) stimmten die Aufmerksamkeitskarten jedoch manchmal nicht mit dem Referenten überein, was darauf hindeutet, dass die Fähigkeit, den Referenten zu lokalisieren, in allen Kategorien nicht konsistent war. Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren

Natürlich gibt es immer noch viele Unterschiede zwischen kindlichem Lernen und maschinellen Lernmodellen.

Aber die Forschung des Lake-Teams hat uns zweifellos sehr inspiriert.

Das obige ist der detaillierte Inhalt vonEin amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science'! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage