Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln-KI-php.cn

Inhaltsverzeichnis

Vor neun Jahren habe ich zu diesem Zeitpunkt einen ersten Fortschrittsbericht zum Thema Computer Vision eingereicht.

Die Vergangenheit ist ein Prolog, wir werden aus diesen Fehlern lernen und eine Zukunft schaffen, die wir uns vorstellen. In dieser Zukunft wollen wir, dass die KI alles in ihrer Macht Stehende tut, um Dinge für uns zu erledigen oder uns dabei zu helfen, Dinge zu tun.

Heim

Technologie-Peripheriegeräte

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 01, 2024 pm 02:55 PM

模型训练

Stanford Li Feifei stellte das neue Konzept „räumliche Intelligenz“ zum ersten Mal vor, nachdem er sein eigenes Unternehmen gegründet hatte.

Dies ist nicht nur ihre unternehmerische Ausrichtung, sondern auch der „Nordstern“, der sie leitet. Sie betrachtet es als „das entscheidende Puzzleteil zur Lösung des Problems der künstlichen Intelligenz“.

Visualisierung wird zu Einsicht; Sehen wird zu Verstehen, was zum Handeln führt.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Basierend auf Li Feifeis 15-minütigem TED-Talk, der vollständig für die Öffentlichkeit zugänglich ist, angefangen beim Ursprung der Evolution des Lebens vor Hunderten von Millionen Jahren bis hin zur Frage, wie Menschen mit was nicht zufrieden sind Die Natur hat ihnen gegeben und entwickelt künstliche Intelligenz, um den Raum im nächsten Schritt intelligenter zu gestalten.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Vor neun Jahren stellte Li Feifei auf derselben Bühne der Welt das neu geborene ImageNet vor – einer der Ausgangspunkte dieser Runde der Deep-Learning-Explosion.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Sie selbst ermutigte auch Internetnutzer: Wenn Sie sich beide Videos ansehen, können Sie in den letzten 10 Jahren ein gutes Verständnis für Computer Vision, räumliche Intelligenz und KI erlangen.

Nun werden wir, ohne die ursprüngliche Bedeutung zu ändern, den Inhalt von Li Feifeis Rede klären.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln Räumliche Intelligenz, die es der KI ermöglicht, die reale Welt zu verstehen

Die Entwicklung des biologischen Sehens

Lassen Sie mich Ihnen etwas zeigen, um genau zu sein, ich werde Ihnen „nichts“ zeigen.

Das ist die Welt vor 540 Millionen Jahren. Reine, endlose Dunkelheit. Es ist nicht dunkel, weil es an Licht mangelt. Aufgrund der fehlenden Sicht ist es dunkel.
Obwohl Sonnenlicht bis zu 1.000 Meter unter die Meeresoberfläche vordringen kann und Licht aus hydrothermalen Quellen auch bis zum Meeresboden vordringen kann, der voller Leben ist, gibt es in diesen uralten Gewässern kein einziges Auge.

Keine Netzhaut, keine Hornhaut, keine Linse. All dieses Licht, all dieses Leben bleibt also unsichtbar.

Es gab eine Zeit, in der das Konzept des „Sehens“ noch nicht existierte. Bis dahin war es nie realisiert worden.

Aus Gründen, die wir gerade erst zu verstehen beginnen, tauchten die ersten Organismen auf, die Licht wahrnehmen konnten – Trilobiten. Sie sind die ersten Lebewesen, die in der Lage sind, die Realität zu spüren, die wir für selbstverständlich halten. Sie waren die ersten Lebewesen, die entdeckten, dass es noch etwas anderes als sie selbst gab.

Zum ersten Mal ist die Welt voller „Selbst“.

Es wird angenommen, dass die Fähigkeit zu sehen die kambrische Explosion ausgelöst hat, eine Zeit, in der Tierarten in großer Zahl in den Fossilienbestand eingingen. Was als passive Erfahrung beginnt, der einfache Akt des Lichteinlassens, wird bald aktiver und das Nervensystem beginnt sich zu entwickeln.

Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz: Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln

Aus Vision wird Einsicht. Aus Sehen wird Verstehen. Verstehen führt zum Handeln.

All dies bringt Intelligenz hervor.
Der Aufstieg der Computer Vision

Heute geben wir uns nicht mehr mit den visuellen Fähigkeiten zufrieden, die uns die Natur bietet. Neugier treibt uns dazu, Maschinen zu entwickeln, die mindestens genauso gut sehen können wie wir, wenn nicht sogar besser.

Vor neun Jahren habe ich zu diesem Zeitpunkt einen ersten Fortschrittsbericht zum Thema Computer Vision eingereicht.

Zu dieser Zeit kamen zum ersten Mal drei mächtige Kräfte zusammen:

Eine Klasse von Algorithmen namens

Neuronale Netze

Schnelle, spezialisierte Hardware namens Grafikverarbeitungseinheit oder GPU
Plus Big Data , wie zum Beispiel die 15 Millionen Bilder, die mein Labor mehrere Jahre lang organisiert hat und die ImageNet heißen.
Gemeinsam leiteten sie das moderne Zeitalter der künstlichen Intelligenz ein.

Wir haben von damals bis heute einen ziemlich langen Weg zurückgelegt.

Am Anfang war allein das Beschriften von Bildern ein großer Durchbruch, aber die Geschwindigkeit und Genauigkeit des Algorithmus verbesserten sich schnell.

Dieser Fortschritt wird in der jährlichen ImageNet Challenge gemessen, die von meinem Labor veranstaltet wird. In diesem Diagramm können Sie die Verbesserung der Modellfähigkeiten jedes Jahr sowie einige der Meilensteinmodelle sehen.

Wir gingen noch einen Schritt weiter und entwickelten Algorithmen, die in der Lage sind, visuelle Objekte zu segmentieren oder dynamische Beziehungen zwischen ihnen vorherzusagen, eine Arbeit meiner Studenten und Mitarbeiter.

Da ist noch mehr.

Erinnern Sie sich an den ersten Computer-Vision-Algorithmus, den ich in meiner letzten Rede gezeigt habe: KI kann ein Foto mit menschlicher natürlicher Sprache beschreiben. Das habe ich mit meinem brillanten Schüler Andrej Karpathy gemacht.

Damals sagte ich dreist: „Andrej, können wir den Computer dazu bringen, das Gegenteil zu tun?“ Andrej lächelte und sagte: „Haha, das ist unmöglich.“ ist möglich geworden.

Dies ist einer Reihe von Diffusionsmodellen zu verdanken, die die heutigen generativen KI-Algorithmen antreiben, die menschliche Eingabeaufforderungen in Fotos und Videos umwandeln können, um etwas völlig Neues zu schaffen.

Viele von Ihnen haben gesehen, wie Sora von OpenAI in letzter Zeit beeindruckende Ergebnisse erzielt hat. Vor ein paar Monaten entwickelten meine Studenten und Mitarbeiter jedoch ohne viele GPUs ein KI-Videogenerierungsmodell namens

Walt.

△Walt Veröffentlicht im Dezember 2023Hier gibt es Raum für Verbesserungen, schauen Sie sich die Augen dieser Katze an, sie wurde unter den Wellen nie nass, was für eine Katastrophe~
(Katastrophe)
.
(Homophone Memes ziehen Geld ab!)
Räumliche Intelligenz: Nur Sehen reicht nicht aus

Die Vergangenheit ist ein Prolog, wir werden aus diesen Fehlern lernen und eine Zukunft schaffen, die wir uns vorstellen. In dieser Zukunft wollen wir, dass die KI alles in ihrer Macht Stehende tut, um Dinge für uns zu erledigen oder uns dabei zu helfen, Dinge zu tun.

Ich sage seit Jahren, dass Fotografieren nicht dasselbe ist wie Sehen und Verstehen. Heute möchte ich noch einen Punkt hinzufügen: Nur schauen reicht nicht aus.

Suchen Sie nach Aktion und Lernen.

Wenn wir im 3D-Raum und in der Zeit agieren, lernen wir, wir lernen, besser zu sehen und Dinge besser zu machen. Die Natur schafft durch „räumliche Intelligenz“ einen positiven Kreislauf aus Sehen und Handeln.

Um zu demonstrieren, was räumliche Intelligenz ist, schauen Sie sich dieses Foto an.
Wenn Sie den Drang verspüren, etwas zu tun, heben Sie einfach Ihre Hand
.

Im Bruchteil einer Sekunde beobachtet Ihr Gehirn die Geometrie dieser Tasse, ihre Position im 3D-Raum, ihre Beziehung zum Tisch, zur Katze und allen anderen Objekten und Sie können vorhersagen, was als nächstes passieren wird.

Der Drang zum Handeln ist allen Lebewesen mit räumlicher Intelligenz innewohnt, die Wahrnehmung mit Handeln verknüpft.

Wenn wir wollen, dass die KI über die aktuellen Fähigkeiten hinausgeht, wollen wir nicht nur eine KI, die sehen und sprechen kann, sondern auch eine KI, die handeln kann.

Tatsächlich machen wir aufregende Fortschritte.

Der neueste Meilenstein in der räumlichen Intelligenz ist
Computern beizubringen, besser zu sehen, zu lernen, zu handeln und zu lernen, besser zu sehen und zu handeln
.
Und es ist nicht einfach.

Die Natur hat Millionen von Jahren damit verbracht, räumliche Intelligenz zu entwickeln. Die Augen erfassen Licht und projizieren 2D-Bilder auf die Netzhaut, und das Gehirn wandelt diese Daten in 3D-Informationen um.

Erst kürzlich hat eine Gruppe von Forschern von Google einen Algorithmus entwickelt, um eine Reihe von Fotos in einen 3D-Raum umzuwandeln.

Meine Studenten und Mitarbeiter gingen noch einen Schritt weiter und entwickelten einen Algorithmus, der ein einzelnes Bild in eine 3D-Form umwandelt.

Ein Forscherteam der University of Michigan hat einen Weg gefunden, Sätze in 3D-Raumlayouts umzuwandeln.

Mein Kollege an der Stanford University und seine Studenten haben einen Algorithmus entwickelt, der aus einem einzigen Bild einen unendlichen Raum an Möglichkeiten generieren kann, den der Betrachter erkunden kann.

Das sind Prototypen zukünftiger Möglichkeiten. Innerhalb dieser Möglichkeit können Menschen unsere gesamte Welt in digitale Form umwandeln und ihren Reichtum und ihre Subtilität simulieren.

Was die Natur implizit in jedem unserer Köpfe tut, verspricht die Technologie der räumlichen Intelligenz, dasselbe für unser kollektives Bewusstsein zu tun.

Mit dem beschleunigten Fortschritt der räumlichen Intelligenz entfaltet sich vor unseren Augen eine neue Ära in diesem positiven Kreislauf. Dieser Zyklus katalysiert das Roboterlernen, eine Schlüsselkomponente jedes verkörperten Intelligenzsystems, das die 3D-Welt verstehen und mit ihr interagieren muss.
Vor zehn Jahren ermöglichte das ImageNet meines Labors eine Datenbank mit Millionen hochwertiger Fotos, um das maschinelle Sehen zu trainieren.
Heute machen wir etwas Ähnliches:
Computer und Roboter trainieren, um in einer 3D-Welt zu agieren.
Anstatt dieses Mal statische Bilder zu sammeln, entwickeln wir Simulationsumgebungen, die auf 3D-Raummodellen basieren, damit Computer die unendlichen Handlungsmöglichkeiten erlernen können.
Was Sie gerade gesehen haben, ist ein kleines Beispiel für das Unterrichten unserer Roboter, ein von meinem Labor geleitetes Projekt namens Behavior.

Wir machen auch aufregende Fortschritte in der robotergestützten Sprachintelligenz.
Mit Hilfe von Eingaben, die auf großen Sprachmodellen basieren, sind meine Studenten und Mitarbeiter eines der ersten Teams, das demonstriert hat, dass ein Roboterarm basierend auf verbalen Anweisungen eine Vielzahl von Aufgaben ausführen kann.
Zum Beispiel das Öffnen dieser Schublade oder das Herausziehen des Telefonkabels. Oder machen Sie ein Sandwich aus Brot, Salat und Tomaten oder legen Sie dem Benutzer sogar eine Serviette hin. Normalerweise hätte ich gerne ein etwas reichhaltigeres Sandwich, aber das ist ein guter Ausgangspunkt.

Anwendungsaussichten räumlicher Intelligenz
In den primitiven Ozeanen der Antike löste die Fähigkeit, die Umwelt zu sehen und zu spüren, die kambrische Explosion der Interaktion mit anderen Lebensformen aus.
Heute erreicht dieses Licht das digitale Denken.

Räumliche Intelligenz ermöglicht es Maschinen, nicht nur untereinander, sondern auch mit Menschen und mit der realen oder virtuellen 3D-Welt zu interagieren.
Wenn diese Zukunft Gestalt annimmt, wird sie tiefgreifende Auswirkungen auf das Leben vieler Menschen haben.
Nehmen wir als Beispiel das Gesundheitswesen. Im letzten Jahrzehnt hat mein Labor erste Versuche unternommen, KI auf Herausforderungen anzuwenden, die sich auf die Patientenergebnisse und die Ermüdung des Gesundheitspersonals auswirken.
Gemeinsam mit Mitarbeitern von Stanford Medicine und anderen Partnerkrankenhäusern testen wir intelligente Sensoren, die erkennen können, ob ein Arzt ein Patientenzimmer betritt, ohne sich ordnungsgemäß die Hände zu waschen. Oder chirurgische Instrumente verfolgen oder Pflegeteams alarmieren, wenn für einen Patienten ein körperliches Risiko besteht, beispielsweise bei einem Sturz.

Wir betrachten diese Technologien als eine Form der Umgebungsintelligenz, wie
zusätzliche Augen.

Aber ich hätte lieber mehr interaktive Hilfe für unsere Patienten, Ärzte und Pflegekräfte, die dringend ein zusätzliches Paar Hände benötigen.

Stellen Sie sich einen autonomen Roboter vor, der medizinische Versorgung transportiert, während sich das Pflegepersonal auf den Patienten konzentriert, oder Augmented Reality nutzt, um Chirurgen durch sicherere, schnellere und weniger invasive Verfahren zu führen.

Stellen Sie sich noch einmal vor, dass schwer gelähmte Patienten Roboter mit ihren Gedanken steuern können. Das ist richtig, Gehirnwellen zu nutzen, um die alltäglichen Aufgaben zu erledigen, die Sie und ich für selbstverständlich halten.

Dies ist eine kürzlich in meinem Labor durchgeführte Pilotstudie. In diesem Video kocht ein Roboterarm, der ausschließlich durch elektrische Signale des Gehirns gesteuert wird, ein japanisches Sukiyaki-Menü. Dabei werden Signale nicht-invasiv durch eine EEG-Kappe erfasst.

Vor fünfhundert Millionen Jahren stürzte die Entstehung des Sehens die dunkle Welt auf den Kopf und löste den tiefgreifendsten Evolutionsprozess aus: die Entwicklung der Intelligenz in der Tierwelt.

Der Fortschritt der KI im letzten Jahrzehnt ist ebenso erstaunlich. Aber ich glaube, dass das volle Potenzial dieser digitalen kambrischen Explosion erst dann voll ausgeschöpft wird, wenn wir Computer und Roboter mit räumlicher Intelligenz ausstatten, so wie es die Natur für uns alle getan hat.

Es ist eine aufregende Zeit, unseren digitalen Begleitern das Denken und die Interaktion mit diesem wunderschönen 3D-Raum, den wir unser Zuhause nennen, beizubringen und gleichzeitig weitere neue Welten zu erschaffen, die wir erkunden können.

Die Verwirklichung dieser Zukunft wird nicht einfach sein, es erfordert von uns allen, tief zu denken und Technologien zu entwickeln, die den Menschen immer in den Mittelpunkt stellen.

Aber wenn wir es richtig machen, werden Computer und Roboter mit räumlicher Intelligenz nicht nur zu nützlichen Werkzeugen, sondern auch zu vertrauenswürdigen Partnern, die uns produktiver machen, unsere Menschlichkeit stärken und unser Leben verbessern und gleichzeitig die Würde des Einzelnen respektieren kollektiver Wohlstand.

Die Zukunft, auf die ich mich am meisten freue, ist eine, in der KI empfindungsfähiger, einsichtsvoller und räumlich bewusster wird und uns bei unserem Streben nach der Schaffung einer besseren Welt unterstützt.

(Vollständiger Text fertig)

Videowiedergabe: https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript

Das obige ist der detaillierte Inhalt vonLi Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055523 in Windows 11 nicht installieren?

4 Wochen vor By DDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1664

CakePHP-Tutorial

1422

Laravel-Tutorial

1316

PHP-Tutorial

1268

C#-Tutorial

1242

Related knowledge

Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Apr 03, 2024 pm 12:04 PM

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Jun 11, 2024 am 09:51 AM

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

$Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24)$ Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

See all articles