Stanford Li Feifei stellte das neue Konzept „räumliche Intelligenz“ zum ersten Mal vor, nachdem er sein eigenes Unternehmen gegründet hatte.
Dies ist nicht nur ihre unternehmerische Ausrichtung, sondern auch der „Nordstern“, der sie leitet. Sie betrachtet es als „das entscheidende Puzzleteil zur Lösung des Problems der künstlichen Intelligenz“.
Visualisierung wird zu Einsicht; Sehen wird zu Verstehen, was zum Handeln führt.
Basierend auf Li Feifeis 15-minütigem TED-Talk, der vollständig für die Öffentlichkeit zugänglich ist, angefangen beim Ursprung der Evolution des Lebens vor Hunderten von Millionen Jahren bis hin zur Frage, wie Menschen mit was nicht zufrieden sind Die Natur hat ihnen gegeben und entwickelt künstliche Intelligenz, um den Raum im nächsten Schritt intelligenter zu gestalten.
Vor neun Jahren stellte Li Feifei auf derselben Bühne der Welt das neu geborene ImageNet vor – einer der Ausgangspunkte dieser Runde der Deep-Learning-Explosion.
Sie selbst ermutigte auch Internetnutzer: Wenn Sie sich beide Videos ansehen, können Sie in den letzten 10 Jahren ein gutes Verständnis für Computer Vision, räumliche Intelligenz und KI erlangen.
Nun werden wir, ohne die ursprüngliche Bedeutung zu ändern, den Inhalt von Li Feifeis Rede klären.Räumliche Intelligenz, die es der KI ermöglicht, die reale Welt zu verstehen
Die Entwicklung des biologischen Sehens
Lassen Sie mich Ihnen etwas zeigen, um genau zu sein, ich werde Ihnen „nichts“ zeigen.Das ist die Welt vor 540 Millionen Jahren. Reine, endlose Dunkelheit. Es ist nicht dunkel, weil es an Licht mangelt. Aufgrund der fehlenden Sicht ist es dunkel. Obwohl Sonnenlicht bis zu 1.000 Meter unter die Meeresoberfläche vordringen kann und Licht aus hydrothermalen Quellen auch bis zum Meeresboden vordringen kann, der voller Leben ist, gibt es in diesen uralten Gewässern kein einziges Auge.
Keine Netzhaut, keine Hornhaut, keine Linse. All dieses Licht, all dieses Leben bleibt also unsichtbar.
Es gab eine Zeit, in der das Konzept des „Sehens“ noch nicht existierte. Bis dahin war es nie realisiert worden.
Aus Gründen, die wir gerade erst zu verstehen beginnen, tauchten die ersten Organismen auf, die Licht wahrnehmen konnten – Trilobiten. Sie sind die ersten Lebewesen, die in der Lage sind, die Realität zu spüren, die wir für selbstverständlich halten. Sie waren die ersten Lebewesen, die entdeckten, dass es noch etwas anderes als sie selbst gab.
Zum ersten Mal ist die Welt voller „Selbst“.
Es wird angenommen, dass die Fähigkeit zu sehen die kambrische Explosion ausgelöst hat, eine Zeit, in der Tierarten in großer Zahl in den Fossilienbestand eingingen. Was als passive Erfahrung beginnt, der einfache Akt des Lichteinlassens, wird bald aktiver und das Nervensystem beginnt sich zu entwickeln.Aus Vision wird Einsicht. Aus Sehen wird Verstehen. Verstehen führt zum Handeln.
All dies bringt Intelligenz hervor.
Der Aufstieg der Computer Vision
Heute geben wir uns nicht mehr mit den visuellen Fähigkeiten zufrieden, die uns die Natur bietet. Neugier treibt uns dazu, Maschinen zu entwickeln, die mindestens genauso gut sehen können wie wir, wenn nicht sogar besser.
Zu dieser Zeit kamen zum ersten Mal drei mächtige Kräfte zusammen:
Eine Klasse von Algorithmen namensNeuronale Netze
Wir haben von damals bis heute einen ziemlich langen Weg zurückgelegt.
Am Anfang war allein das Beschriften von Bildern ein großer Durchbruch, aber die Geschwindigkeit und Genauigkeit des Algorithmus verbesserten sich schnell.
Dieser Fortschritt wird in der jährlichen ImageNet Challenge gemessen, die von meinem Labor veranstaltet wird. In diesem Diagramm können Sie die Verbesserung der Modellfähigkeiten jedes Jahr sowie einige der Meilensteinmodelle sehen.
Wir gingen noch einen Schritt weiter und entwickelten Algorithmen, die in der Lage sind, visuelle Objekte zu segmentieren oder dynamische Beziehungen zwischen ihnen vorherzusagen, eine Arbeit meiner Studenten und Mitarbeiter.
Da ist noch mehr.
Erinnern Sie sich an den ersten Computer-Vision-Algorithmus, den ich in meiner letzten Rede gezeigt habe: KI kann ein Foto mit menschlicher natürlicher Sprache beschreiben. Das habe ich mit meinem brillanten Schüler Andrej Karpathy gemacht.
Damals sagte ich dreist: „Andrej, können wir den Computer dazu bringen, das Gegenteil zu tun?“ Andrej lächelte und sagte: „Haha, das ist unmöglich.“ ist möglich geworden.
Dies ist einer Reihe von Diffusionsmodellen zu verdanken, die die heutigen generativen KI-Algorithmen antreiben, die menschliche Eingabeaufforderungen in Fotos und Videos umwandeln können, um etwas völlig Neues zu schaffen.
Viele von Ihnen haben gesehen, wie Sora von OpenAI in letzter Zeit beeindruckende Ergebnisse erzielt hat. Vor ein paar Monaten entwickelten meine Studenten und Mitarbeiter jedoch ohne viele GPUs ein KI-Videogenerierungsmodell namens
Walt.
△Walt Veröffentlicht im Dezember 2023Hier gibt es Raum für Verbesserungen, schauen Sie sich die Augen dieser Katze an, sie wurde unter den Wellen nie nass, was für eine Katastrophe~
(Katastrophe).
(Homophone Memes ziehen Geld ab!)Räumliche Intelligenz: Nur Sehen reicht nicht aus
Ich sage seit Jahren, dass Fotografieren nicht dasselbe ist wie Sehen und Verstehen. Heute möchte ich noch einen Punkt hinzufügen: Nur schauen reicht nicht aus.
Suchen Sie nach Aktion und Lernen.
Wenn wir im 3D-Raum und in der Zeit agieren, lernen wir, wir lernen, besser zu sehen und Dinge besser zu machen. Die Natur schafft durch „räumliche Intelligenz“ einen positiven Kreislauf aus Sehen und Handeln.
Um zu demonstrieren, was räumliche Intelligenz ist, schauen Sie sich dieses Foto an.
Wenn Sie den Drang verspüren, etwas zu tun, heben Sie einfach Ihre Hand.
Im Bruchteil einer Sekunde beobachtet Ihr Gehirn die Geometrie dieser Tasse, ihre Position im 3D-Raum, ihre Beziehung zum Tisch, zur Katze und allen anderen Objekten und Sie können vorhersagen, was als nächstes passieren wird.
Der Drang zum Handeln ist allen Lebewesen mit räumlicher Intelligenz innewohnt, die Wahrnehmung mit Handeln verknüpft.
Wenn wir wollen, dass die KI über die aktuellen Fähigkeiten hinausgeht, wollen wir nicht nur eine KI, die sehen und sprechen kann, sondern auch eine KI, die handeln kann.
Tatsächlich machen wir aufregende Fortschritte.
Der neueste Meilenstein in der räumlichen Intelligenz istComputern beizubringen, besser zu sehen, zu lernen, zu handeln und zu lernen, besser zu sehen und zu handeln.
Und es ist nicht einfach.
Die Natur hat Millionen von Jahren damit verbracht, räumliche Intelligenz zu entwickeln. Die Augen erfassen Licht und projizieren 2D-Bilder auf die Netzhaut, und das Gehirn wandelt diese Daten in 3D-Informationen um.
Erst kürzlich hat eine Gruppe von Forschern von Google einen Algorithmus entwickelt, um eine Reihe von Fotos in einen 3D-Raum umzuwandeln.
Meine Studenten und Mitarbeiter gingen noch einen Schritt weiter und entwickelten einen Algorithmus, der ein einzelnes Bild in eine 3D-Form umwandelt.
Ein Forscherteam der University of Michigan hat einen Weg gefunden, Sätze in 3D-Raumlayouts umzuwandeln.
Mein Kollege an der Stanford University und seine Studenten haben einen Algorithmus entwickelt, der aus einem einzigen Bild einen unendlichen Raum an Möglichkeiten generieren kann, den der Betrachter erkunden kann.
Das sind Prototypen zukünftiger Möglichkeiten. Innerhalb dieser Möglichkeit können Menschen unsere gesamte Welt in digitale Form umwandeln und ihren Reichtum und ihre Subtilität simulieren.
Was die Natur implizit in jedem unserer Köpfe tut, verspricht die Technologie der räumlichen Intelligenz, dasselbe für unser kollektives Bewusstsein zu tun.
Mit dem beschleunigten Fortschritt der räumlichen Intelligenz entfaltet sich vor unseren Augen eine neue Ära in diesem positiven Kreislauf. Dieser Zyklus katalysiert das Roboterlernen, eine Schlüsselkomponente jedes verkörperten Intelligenzsystems, das die 3D-Welt verstehen und mit ihr interagieren muss. Vor zehn Jahren ermöglichte das ImageNet meines Labors eine Datenbank mit Millionen hochwertiger Fotos, um das maschinelle Sehen zu trainieren. Heute machen wir etwas Ähnliches:Computer und Roboter trainieren, um in einer 3D-Welt zu agieren.
Anstatt dieses Mal statische Bilder zu sammeln, entwickeln wir Simulationsumgebungen, die auf 3D-Raummodellen basieren, damit Computer die unendlichen Handlungsmöglichkeiten erlernen können. Was Sie gerade gesehen haben, ist ein kleines Beispiel für das Unterrichten unserer Roboter, ein von meinem Labor geleitetes Projekt namens Behavior. Wir machen auch aufregende Fortschritte in der robotergestützten Sprachintelligenz. Mit Hilfe von Eingaben, die auf großen Sprachmodellen basieren, sind meine Studenten und Mitarbeiter eines der ersten Teams, das demonstriert hat, dass ein Roboterarm basierend auf verbalen Anweisungen eine Vielzahl von Aufgaben ausführen kann. Zum Beispiel das Öffnen dieser Schublade oder das Herausziehen des Telefonkabels. Oder machen Sie ein Sandwich aus Brot, Salat und Tomaten oder legen Sie dem Benutzer sogar eine Serviette hin. Normalerweise hätte ich gerne ein etwas reichhaltigeres Sandwich, aber das ist ein guter Ausgangspunkt. Anwendungsaussichten räumlicher IntelligenzIn den primitiven Ozeanen der Antike löste die Fähigkeit, die Umwelt zu sehen und zu spüren, die kambrische Explosion der Interaktion mit anderen Lebensformen aus. Heute erreicht dieses Licht das digitale Denken. Räumliche Intelligenz ermöglicht es Maschinen, nicht nur untereinander, sondern auch mit Menschen und mit der realen oder virtuellen 3D-Welt zu interagieren. Wenn diese Zukunft Gestalt annimmt, wird sie tiefgreifende Auswirkungen auf das Leben vieler Menschen haben. Nehmen wir als Beispiel das Gesundheitswesen. Im letzten Jahrzehnt hat mein Labor erste Versuche unternommen, KI auf Herausforderungen anzuwenden, die sich auf die Patientenergebnisse und die Ermüdung des Gesundheitspersonals auswirken. Gemeinsam mit Mitarbeitern von Stanford Medicine und anderen Partnerkrankenhäusern testen wir intelligente Sensoren, die erkennen können, ob ein Arzt ein Patientenzimmer betritt, ohne sich ordnungsgemäß die Hände zu waschen. Oder chirurgische Instrumente verfolgen oder Pflegeteams alarmieren, wenn für einen Patienten ein körperliches Risiko besteht, beispielsweise bei einem Sturz. Wir betrachten diese Technologien als eine Form der Umgebungsintelligenz, wiezusätzliche Augen.
Aber ich hätte lieber mehr interaktive Hilfe für unsere Patienten, Ärzte und Pflegekräfte, die dringend ein zusätzliches Paar Hände benötigen.
Stellen Sie sich einen autonomen Roboter vor, der medizinische Versorgung transportiert, während sich das Pflegepersonal auf den Patienten konzentriert, oder Augmented Reality nutzt, um Chirurgen durch sicherere, schnellere und weniger invasive Verfahren zu führen.
Stellen Sie sich noch einmal vor, dass schwer gelähmte Patienten Roboter mit ihren Gedanken steuern können. Das ist richtig, Gehirnwellen zu nutzen, um die alltäglichen Aufgaben zu erledigen, die Sie und ich für selbstverständlich halten.
Dies ist eine kürzlich in meinem Labor durchgeführte Pilotstudie. In diesem Video kocht ein Roboterarm, der ausschließlich durch elektrische Signale des Gehirns gesteuert wird, ein japanisches Sukiyaki-Menü. Dabei werden Signale nicht-invasiv durch eine EEG-Kappe erfasst.
Vor fünfhundert Millionen Jahren stürzte die Entstehung des Sehens die dunkle Welt auf den Kopf und löste den tiefgreifendsten Evolutionsprozess aus: die Entwicklung der Intelligenz in der Tierwelt.
Der Fortschritt der KI im letzten Jahrzehnt ist ebenso erstaunlich. Aber ich glaube, dass das volle Potenzial dieser digitalen kambrischen Explosion erst dann voll ausgeschöpft wird, wenn wir Computer und Roboter mit räumlicher Intelligenz ausstatten, so wie es die Natur für uns alle getan hat.
Es ist eine aufregende Zeit, unseren digitalen Begleitern das Denken und die Interaktion mit diesem wunderschönen 3D-Raum, den wir unser Zuhause nennen, beizubringen und gleichzeitig weitere neue Welten zu erschaffen, die wir erkunden können.
Die Verwirklichung dieser Zukunft wird nicht einfach sein, es erfordert von uns allen, tief zu denken und Technologien zu entwickeln, die den Menschen immer in den Mittelpunkt stellen.
Aber wenn wir es richtig machen, werden Computer und Roboter mit räumlicher Intelligenz nicht nur zu nützlichen Werkzeugen, sondern auch zu vertrauenswürdigen Partnern, die uns produktiver machen, unsere Menschlichkeit stärken und unser Leben verbessern und gleichzeitig die Würde des Einzelnen respektieren kollektiver Wohlstand.
Die Zukunft, auf die ich mich am meisten freue, ist eine, in der KI empfindungsfähiger, einsichtsvoller und räumlich bewusster wird und uns bei unserem Streben nach der Schaffung einer besseren Welt unterstützt.
(Vollständiger Text fertig)
Videowiedergabe: https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript
Das obige ist der detaillierte Inhalt vonLi Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!