Heim > Technologie-Peripheriegeräte > KI > Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

WBOY
Freigeben: 2024-06-01 14:55:34
Original
1076 Leute haben es durchsucht

Stanford Li Feifei stellte das neue Konzept „räumliche Intelligenz“ zum ersten Mal vor, nachdem er sein eigenes Unternehmen gegründet hatte.

Dies ist nicht nur ihre unternehmerische Ausrichtung, sondern auch der „Nordstern“, der sie leitet. Sie betrachtet es als „das entscheidende Puzzleteil zur Lösung des Problems der künstlichen Intelligenz“.

Visualisierung wird zu Einsicht; Sehen wird zu Verstehen, was zum Handeln führt.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Basierend auf Li Feifeis 15-minütigem TED-Talk, der vollständig für die Öffentlichkeit zugänglich ist, angefangen beim Ursprung der Evolution des Lebens vor Hunderten von Millionen Jahren bis hin zur Frage, wie Menschen mit was nicht zufrieden sind Die Natur hat ihnen gegeben und entwickelt künstliche Intelligenz, um den Raum im nächsten Schritt intelligenter zu gestalten.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Vor neun Jahren stellte Li Feifei auf derselben Bühne der Welt das neu geborene ImageNet vor – einer der Ausgangspunkte dieser Runde der Deep-Learning-Explosion.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Sie selbst ermutigte auch Internetnutzer: Wenn Sie sich beide Videos ansehen, können Sie in den letzten 10 Jahren ein gutes Verständnis für Computer Vision, räumliche Intelligenz und KI erlangen.

Nun werden wir, ohne die ursprüngliche Bedeutung zu ändern, den Inhalt von Li Feifeis Rede klären.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln Räumliche Intelligenz, die es der KI ermöglicht, die reale Welt zu verstehen

Die Entwicklung des biologischen Sehens

Lassen Sie mich Ihnen etwas zeigen, um genau zu sein, ich werde Ihnen „nichts“ zeigen.

Das ist die Welt vor 540 Millionen Jahren. Reine, endlose Dunkelheit. Es ist nicht dunkel, weil es an Licht mangelt. Aufgrund der fehlenden Sicht ist es dunkel.

Obwohl Sonnenlicht bis zu 1.000 Meter unter die Meeresoberfläche vordringen kann und Licht aus hydrothermalen Quellen auch bis zum Meeresboden vordringen kann, der voller Leben ist, gibt es in diesen uralten Gewässern kein einziges Auge.

Keine Netzhaut, keine Hornhaut, keine Linse. All dieses Licht, all dieses Leben bleibt also unsichtbar.

Es gab eine Zeit, in der das Konzept des „Sehens“ noch nicht existierte. Bis dahin war es nie realisiert worden.

Aus Gründen, die wir gerade erst zu verstehen beginnen, tauchten die ersten Organismen auf, die Licht wahrnehmen konnten – Trilobiten. Sie sind die ersten Lebewesen, die in der Lage sind, die Realität zu spüren, die wir für selbstverständlich halten. Sie waren die ersten Lebewesen, die entdeckten, dass es noch etwas anderes als sie selbst gab.

Zum ersten Mal ist die Welt voller „Selbst“.

Es wird angenommen, dass die Fähigkeit zu sehen die kambrische Explosion ausgelöst hat, eine Zeit, in der Tierarten in großer Zahl in den Fossilienbestand eingingen. Was als passive Erfahrung beginnt, der einfache Akt des Lichteinlassens, wird bald aktiver und das Nervensystem beginnt sich zu entwickeln.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Aus Vision wird Einsicht. Aus Sehen wird Verstehen. Verstehen führt zum Handeln.

All dies bringt Intelligenz hervor.

Der Aufstieg der Computer Vision

Heute geben wir uns nicht mehr mit den visuellen Fähigkeiten zufrieden, die uns die Natur bietet. Neugier treibt uns dazu, Maschinen zu entwickeln, die mindestens genauso gut sehen können wie wir, wenn nicht sogar besser.

Vor neun Jahren habe ich zu diesem Zeitpunkt einen ersten Fortschrittsbericht zum Thema Computer Vision eingereicht.

Zu dieser Zeit kamen zum ersten Mal drei mächtige Kräfte zusammen:

Eine Klasse von Algorithmen namens

Neuronale Netze

  • Schnelle, spezialisierte Hardware namens Grafikverarbeitungseinheit oder GPU
  • Plus Big Data , wie zum Beispiel die 15 Millionen Bilder, die mein Labor mehrere Jahre lang organisiert hat und die ImageNet heißen.
  • Gemeinsam leiteten sie das moderne Zeitalter der künstlichen Intelligenz ein.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Wir haben von damals bis heute einen ziemlich langen Weg zurückgelegt.

    Am Anfang war allein das Beschriften von Bildern ein großer Durchbruch, aber die Geschwindigkeit und Genauigkeit des Algorithmus verbesserten sich schnell.

    Dieser Fortschritt wird in der jährlichen ImageNet Challenge gemessen, die von meinem Labor veranstaltet wird. In diesem Diagramm können Sie die Verbesserung der Modellfähigkeiten jedes Jahr sowie einige der Meilensteinmodelle sehen.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Wir gingen noch einen Schritt weiter und entwickelten Algorithmen, die in der Lage sind, visuelle Objekte zu segmentieren oder dynamische Beziehungen zwischen ihnen vorherzusagen, eine Arbeit meiner Studenten und Mitarbeiter.

    Da ist noch mehr.

    Erinnern Sie sich an den ersten Computer-Vision-Algorithmus, den ich in meiner letzten Rede gezeigt habe: KI kann ein Foto mit menschlicher natürlicher Sprache beschreiben. Das habe ich mit meinem brillanten Schüler Andrej Karpathy gemacht.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Damals sagte ich dreist: „Andrej, können wir den Computer dazu bringen, das Gegenteil zu tun?“ Andrej lächelte und sagte: „Haha, das ist unmöglich.“ ist möglich geworden.

    Dies ist einer Reihe von Diffusionsmodellen zu verdanken, die die heutigen generativen KI-Algorithmen antreiben, die menschliche Eingabeaufforderungen in Fotos und Videos umwandeln können, um etwas völlig Neues zu schaffen.

    Viele von Ihnen haben gesehen, wie Sora von OpenAI in letzter Zeit beeindruckende Ergebnisse erzielt hat. Vor ein paar Monaten entwickelten meine Studenten und Mitarbeiter jedoch ohne viele GPUs ein KI-Videogenerierungsmodell namens

    Walt.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu HandelnWalt Veröffentlicht im Dezember 2023Hier gibt es Raum für Verbesserungen, schauen Sie sich die Augen dieser Katze an, sie wurde unter den Wellen nie nass, was für eine Katastrophe~

    (Katastrophe)

    .

    (Homophone Memes ziehen Geld ab!)

    Räumliche Intelligenz: Nur Sehen reicht nicht aus

    Die Vergangenheit ist ein Prolog, wir werden aus diesen Fehlern lernen und eine Zukunft schaffen, die wir uns vorstellen. In dieser Zukunft wollen wir, dass die KI alles in ihrer Macht Stehende tut, um Dinge für uns zu erledigen oder uns dabei zu helfen, Dinge zu tun.

    Ich sage seit Jahren, dass Fotografieren nicht dasselbe ist wie Sehen und Verstehen. Heute möchte ich noch einen Punkt hinzufügen: Nur schauen reicht nicht aus.

    Suchen Sie nach Aktion und Lernen.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln Wenn wir im 3D-Raum und in der Zeit agieren, lernen wir, wir lernen, besser zu sehen und Dinge besser zu machen. Die Natur schafft durch „räumliche Intelligenz“ einen positiven Kreislauf aus Sehen und Handeln.

    Um zu demonstrieren, was räumliche Intelligenz ist, schauen Sie sich dieses Foto an.

    Wenn Sie den Drang verspüren, etwas zu tun, heben Sie einfach Ihre Hand

    .

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu HandelnIm Bruchteil einer Sekunde beobachtet Ihr Gehirn die Geometrie dieser Tasse, ihre Position im 3D-Raum, ihre Beziehung zum Tisch, zur Katze und allen anderen Objekten und Sie können vorhersagen, was als nächstes passieren wird.

    Der Drang zum Handeln ist allen Lebewesen mit räumlicher Intelligenz innewohnt, die Wahrnehmung mit Handeln verknüpft.

    Wenn wir wollen, dass die KI über die aktuellen Fähigkeiten hinausgeht, wollen wir nicht nur eine KI, die sehen und sprechen kann, sondern auch eine KI, die handeln kann.

    Tatsächlich machen wir aufregende Fortschritte.

    Der neueste Meilenstein in der räumlichen Intelligenz ist
    Computern beizubringen, besser zu sehen, zu lernen, zu handeln und zu lernen, besser zu sehen und zu handeln

    .

    Und es ist nicht einfach.

    Die Natur hat Millionen von Jahren damit verbracht, räumliche Intelligenz zu entwickeln. Die Augen erfassen Licht und projizieren 2D-Bilder auf die Netzhaut, und das Gehirn wandelt diese Daten in 3D-Informationen um.

    Erst kürzlich hat eine Gruppe von Forschern von Google einen Algorithmus entwickelt, um eine Reihe von Fotos in einen 3D-Raum umzuwandeln.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Meine Studenten und Mitarbeiter gingen noch einen Schritt weiter und entwickelten einen Algorithmus, der ein einzelnes Bild in eine 3D-Form umwandelt.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Ein Forscherteam der University of Michigan hat einen Weg gefunden, Sätze in 3D-Raumlayouts umzuwandeln.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Mein Kollege an der Stanford University und seine Studenten haben einen Algorithmus entwickelt, der aus einem einzigen Bild einen unendlichen Raum an Möglichkeiten generieren kann, den der Betrachter erkunden kann.

    Das sind Prototypen zukünftiger Möglichkeiten. Innerhalb dieser Möglichkeit können Menschen unsere gesamte Welt in digitale Form umwandeln und ihren Reichtum und ihre Subtilität simulieren.

    Was die Natur implizit in jedem unserer Köpfe tut, verspricht die Technologie der räumlichen Intelligenz, dasselbe für unser kollektives Bewusstsein zu tun.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Mit dem beschleunigten Fortschritt der räumlichen Intelligenz entfaltet sich vor unseren Augen eine neue Ära in diesem positiven Kreislauf. Dieser Zyklus katalysiert das Roboterlernen, eine Schlüsselkomponente jedes verkörperten Intelligenzsystems, das die 3D-Welt verstehen und mit ihr interagieren muss.

    Vor zehn Jahren ermöglichte das ImageNet meines Labors eine Datenbank mit Millionen hochwertiger Fotos, um das maschinelle Sehen zu trainieren.

    Heute machen wir etwas Ähnliches:

    Computer und Roboter trainieren, um in einer 3D-Welt zu agieren.

    Anstatt dieses Mal statische Bilder zu sammeln, entwickeln wir Simulationsumgebungen, die auf 3D-Raummodellen basieren, damit Computer die unendlichen Handlungsmöglichkeiten erlernen können.

    Was Sie gerade gesehen haben, ist ein kleines Beispiel für das Unterrichten unserer Roboter, ein von meinem Labor geleitetes Projekt namens Behavior.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Wir machen auch aufregende Fortschritte in der robotergestützten Sprachintelligenz.

    Mit Hilfe von Eingaben, die auf großen Sprachmodellen basieren, sind meine Studenten und Mitarbeiter eines der ersten Teams, das demonstriert hat, dass ein Roboterarm basierend auf verbalen Anweisungen eine Vielzahl von Aufgaben ausführen kann.

    Zum Beispiel das Öffnen dieser Schublade oder das Herausziehen des Telefonkabels. Oder machen Sie ein Sandwich aus Brot, Salat und Tomaten oder legen Sie dem Benutzer sogar eine Serviette hin. Normalerweise hätte ich gerne ein etwas reichhaltigeres Sandwich, aber das ist ein guter Ausgangspunkt.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Anwendungsaussichten räumlicher Intelligenz

    In den primitiven Ozeanen der Antike löste die Fähigkeit, die Umwelt zu sehen und zu spüren, die kambrische Explosion der Interaktion mit anderen Lebensformen aus.

    Heute erreicht dieses Licht das digitale Denken.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Räumliche Intelligenz ermöglicht es Maschinen, nicht nur untereinander, sondern auch mit Menschen und mit der realen oder virtuellen 3D-Welt zu interagieren.

    Wenn diese Zukunft Gestalt annimmt, wird sie tiefgreifende Auswirkungen auf das Leben vieler Menschen haben.

    Nehmen wir als Beispiel das Gesundheitswesen. Im letzten Jahrzehnt hat mein Labor erste Versuche unternommen, KI auf Herausforderungen anzuwenden, die sich auf die Patientenergebnisse und die Ermüdung des Gesundheitspersonals auswirken.

    Gemeinsam mit Mitarbeitern von Stanford Medicine und anderen Partnerkrankenhäusern testen wir intelligente Sensoren, die erkennen können, ob ein Arzt ein Patientenzimmer betritt, ohne sich ordnungsgemäß die Hände zu waschen. Oder chirurgische Instrumente verfolgen oder Pflegeteams alarmieren, wenn für einen Patienten ein körperliches Risiko besteht, beispielsweise bei einem Sturz.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Wir betrachten diese Technologien als eine Form der Umgebungsintelligenz, wie

    zusätzliche Augen.

    Aber ich hätte lieber mehr interaktive Hilfe für unsere Patienten, Ärzte und Pflegekräfte, die dringend ein zusätzliches Paar Hände benötigen.

    Stellen Sie sich einen autonomen Roboter vor, der medizinische Versorgung transportiert, während sich das Pflegepersonal auf den Patienten konzentriert, oder Augmented Reality nutzt, um Chirurgen durch sicherere, schnellere und weniger invasive Verfahren zu führen.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Stellen Sie sich noch einmal vor, dass schwer gelähmte Patienten Roboter mit ihren Gedanken steuern können. Das ist richtig, Gehirnwellen zu nutzen, um die alltäglichen Aufgaben zu erledigen, die Sie und ich für selbstverständlich halten.

    Dies ist eine kürzlich in meinem Labor durchgeführte Pilotstudie. In diesem Video kocht ein Roboterarm, der ausschließlich durch elektrische Signale des Gehirns gesteuert wird, ein japanisches Sukiyaki-Menü. Dabei werden Signale nicht-invasiv durch eine EEG-Kappe erfasst.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Vor fünfhundert Millionen Jahren stürzte die Entstehung des Sehens die dunkle Welt auf den Kopf und löste den tiefgreifendsten Evolutionsprozess aus: die Entwicklung der Intelligenz in der Tierwelt.

    Der Fortschritt der KI im letzten Jahrzehnt ist ebenso erstaunlich. Aber ich glaube, dass das volle Potenzial dieser digitalen kambrischen Explosion erst dann voll ausgeschöpft wird, wenn wir Computer und Roboter mit räumlicher Intelligenz ausstatten, so wie es die Natur für uns alle getan hat.

    Es ist eine aufregende Zeit, unseren digitalen Begleitern das Denken und die Interaktion mit diesem wunderschönen 3D-Raum, den wir unser Zuhause nennen, beizubringen und gleichzeitig weitere neue Welten zu erschaffen, die wir erkunden können.

    Die Verwirklichung dieser Zukunft wird nicht einfach sein, es erfordert von uns allen, tief zu denken und Technologien zu entwickeln, die den Menschen immer in den Mittelpunkt stellen.

    Aber wenn wir es richtig machen, werden Computer und Roboter mit räumlicher Intelligenz nicht nur zu nützlichen Werkzeugen, sondern auch zu vertrauenswürdigen Partnern, die uns produktiver machen, unsere Menschlichkeit stärken und unser Leben verbessern und gleichzeitig die Würde des Einzelnen respektieren kollektiver Wohlstand.

    Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

    Die Zukunft, auf die ich mich am meisten freue, ist eine, in der KI empfindungsfähiger, einsichtsvoller und räumlich bewusster wird und uns bei unserem Streben nach der Schaffung einer besseren Welt unterstützt.

    (Vollständiger Text fertig)

    Videowiedergabe: https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript


Das obige ist der detaillierte Inhalt vonLi Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage