


Li Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln
Stanford Li Feifei stellte das neue Konzept „räumliche Intelligenz“ zum ersten Mal vor, nachdem er sein eigenes Unternehmen gegründet hatte.
Dies ist nicht nur ihre unternehmerische Ausrichtung, sondern auch der „Nordstern“, der sie leitet. Sie betrachtet es als „das entscheidende Puzzleteil zur Lösung des Problems der künstlichen Intelligenz“.
Visualisierung wird zu Einsicht; Sehen wird zu Verstehen, was zum Handeln führt.
Basierend auf Li Feifeis 15-minütigem TED-Talk, der vollständig für die Öffentlichkeit zugänglich ist, angefangen beim Ursprung der Evolution des Lebens vor Hunderten von Millionen Jahren bis hin zur Frage, wie Menschen mit was nicht zufrieden sind Die Natur hat ihnen gegeben und entwickelt künstliche Intelligenz, um den Raum im nächsten Schritt intelligenter zu gestalten.
Vor neun Jahren stellte Li Feifei auf derselben Bühne der Welt das neu geborene ImageNet vor – einer der Ausgangspunkte dieser Runde der Deep-Learning-Explosion.
Sie selbst ermutigte auch Internetnutzer: Wenn Sie sich beide Videos ansehen, können Sie in den letzten 10 Jahren ein gutes Verständnis für Computer Vision, räumliche Intelligenz und KI erlangen.
Nun werden wir, ohne die ursprüngliche Bedeutung zu ändern, den Inhalt von Li Feifeis Rede klären. Räumliche Intelligenz, die es der KI ermöglicht, die reale Welt zu verstehen
Die Entwicklung des biologischen Sehens
Lassen Sie mich Ihnen etwas zeigen, um genau zu sein, ich werde Ihnen „nichts“ zeigen.Das ist die Welt vor 540 Millionen Jahren. Reine, endlose Dunkelheit. Es ist nicht dunkel, weil es an Licht mangelt. Aufgrund der fehlenden Sicht ist es dunkel. Obwohl Sonnenlicht bis zu 1.000 Meter unter die Meeresoberfläche vordringen kann und Licht aus hydrothermalen Quellen auch bis zum Meeresboden vordringen kann, der voller Leben ist, gibt es in diesen uralten Gewässern kein einziges Auge.
Keine Netzhaut, keine Hornhaut, keine Linse. All dieses Licht, all dieses Leben bleibt also unsichtbar.
Es gab eine Zeit, in der das Konzept des „Sehens“ noch nicht existierte. Bis dahin war es nie realisiert worden.
Aus Gründen, die wir gerade erst zu verstehen beginnen, tauchten die ersten Organismen auf, die Licht wahrnehmen konnten – Trilobiten. Sie sind die ersten Lebewesen, die in der Lage sind, die Realität zu spüren, die wir für selbstverständlich halten. Sie waren die ersten Lebewesen, die entdeckten, dass es noch etwas anderes als sie selbst gab.
Zum ersten Mal ist die Welt voller „Selbst“.
Es wird angenommen, dass die Fähigkeit zu sehen die kambrische Explosion ausgelöst hat, eine Zeit, in der Tierarten in großer Zahl in den Fossilienbestand eingingen. Was als passive Erfahrung beginnt, der einfache Akt des Lichteinlassens, wird bald aktiver und das Nervensystem beginnt sich zu entwickeln.Aus Vision wird Einsicht. Aus Sehen wird Verstehen. Verstehen führt zum Handeln.
All dies bringt Intelligenz hervor.
Der Aufstieg der Computer Vision
Heute geben wir uns nicht mehr mit den visuellen Fähigkeiten zufrieden, die uns die Natur bietet. Neugier treibt uns dazu, Maschinen zu entwickeln, die mindestens genauso gut sehen können wie wir, wenn nicht sogar besser.
Vor neun Jahren habe ich zu diesem Zeitpunkt einen ersten Fortschrittsbericht zum Thema Computer Vision eingereicht.
Zu dieser Zeit kamen zum ersten Mal drei mächtige Kräfte zusammen:
Eine Klasse von Algorithmen namensNeuronale Netze
- Schnelle, spezialisierte Hardware namens Grafikverarbeitungseinheit oder GPU
- Plus Big Data , wie zum Beispiel die 15 Millionen Bilder, die mein Labor mehrere Jahre lang organisiert hat und die ImageNet heißen.
-
Gemeinsam leiteten sie das moderne Zeitalter der künstlichen Intelligenz ein.
Wir haben von damals bis heute einen ziemlich langen Weg zurückgelegt.
Am Anfang war allein das Beschriften von Bildern ein großer Durchbruch, aber die Geschwindigkeit und Genauigkeit des Algorithmus verbesserten sich schnell.
Dieser Fortschritt wird in der jährlichen ImageNet Challenge gemessen, die von meinem Labor veranstaltet wird. In diesem Diagramm können Sie die Verbesserung der Modellfähigkeiten jedes Jahr sowie einige der Meilensteinmodelle sehen.
Wir gingen noch einen Schritt weiter und entwickelten Algorithmen, die in der Lage sind, visuelle Objekte zu segmentieren oder dynamische Beziehungen zwischen ihnen vorherzusagen, eine Arbeit meiner Studenten und Mitarbeiter.
Da ist noch mehr.
Erinnern Sie sich an den ersten Computer-Vision-Algorithmus, den ich in meiner letzten Rede gezeigt habe: KI kann ein Foto mit menschlicher natürlicher Sprache beschreiben. Das habe ich mit meinem brillanten Schüler Andrej Karpathy gemacht.
Damals sagte ich dreist: „Andrej, können wir den Computer dazu bringen, das Gegenteil zu tun?“ Andrej lächelte und sagte: „Haha, das ist unmöglich.“ ist möglich geworden.
Dies ist einer Reihe von Diffusionsmodellen zu verdanken, die die heutigen generativen KI-Algorithmen antreiben, die menschliche Eingabeaufforderungen in Fotos und Videos umwandeln können, um etwas völlig Neues zu schaffen.
Viele von Ihnen haben gesehen, wie Sora von OpenAI in letzter Zeit beeindruckende Ergebnisse erzielt hat. Vor ein paar Monaten entwickelten meine Studenten und Mitarbeiter jedoch ohne viele GPUs ein KI-Videogenerierungsmodell namens
Walt.
△
(Katastrophe)Walt Veröffentlicht im Dezember 2023Hier gibt es Raum für Verbesserungen, schauen Sie sich die Augen dieser Katze an, sie wurde unter den Wellen nie nass, was für eine Katastrophe~
.
(Homophone Memes ziehen Geld ab!)Räumliche Intelligenz: Nur Sehen reicht nicht aus
Die Vergangenheit ist ein Prolog, wir werden aus diesen Fehlern lernen und eine Zukunft schaffen, die wir uns vorstellen. In dieser Zukunft wollen wir, dass die KI alles in ihrer Macht Stehende tut, um Dinge für uns zu erledigen oder uns dabei zu helfen, Dinge zu tun.
Ich sage seit Jahren, dass Fotografieren nicht dasselbe ist wie Sehen und Verstehen. Heute möchte ich noch einen Punkt hinzufügen: Nur schauen reicht nicht aus.
Suchen Sie nach Aktion und Lernen.
Wenn wir im 3D-Raum und in der Zeit agieren, lernen wir, wir lernen, besser zu sehen und Dinge besser zu machen. Die Natur schafft durch „räumliche Intelligenz“ einen positiven Kreislauf aus Sehen und Handeln.
Um zu demonstrieren, was räumliche Intelligenz ist, schauen Sie sich dieses Foto an.
Wenn Sie den Drang verspüren, etwas zu tun, heben Sie einfach Ihre Hand.
Im Bruchteil einer Sekunde beobachtet Ihr Gehirn die Geometrie dieser Tasse, ihre Position im 3D-Raum, ihre Beziehung zum Tisch, zur Katze und allen anderen Objekten und Sie können vorhersagen, was als nächstes passieren wird.
Der Drang zum Handeln ist allen Lebewesen mit räumlicher Intelligenz innewohnt, die Wahrnehmung mit Handeln verknüpft.
Wenn wir wollen, dass die KI über die aktuellen Fähigkeiten hinausgeht, wollen wir nicht nur eine KI, die sehen und sprechen kann, sondern auch eine KI, die handeln kann.
Tatsächlich machen wir aufregende Fortschritte.
Der neueste Meilenstein in der räumlichen Intelligenz istComputern beizubringen, besser zu sehen, zu lernen, zu handeln und zu lernen, besser zu sehen und zu handeln
.
Und es ist nicht einfach.Die Natur hat Millionen von Jahren damit verbracht, räumliche Intelligenz zu entwickeln. Die Augen erfassen Licht und projizieren 2D-Bilder auf die Netzhaut, und das Gehirn wandelt diese Daten in 3D-Informationen um.
Erst kürzlich hat eine Gruppe von Forschern von Google einen Algorithmus entwickelt, um eine Reihe von Fotos in einen 3D-Raum umzuwandeln.
Meine Studenten und Mitarbeiter gingen noch einen Schritt weiter und entwickelten einen Algorithmus, der ein einzelnes Bild in eine 3D-Form umwandelt.
Ein Forscherteam der University of Michigan hat einen Weg gefunden, Sätze in 3D-Raumlayouts umzuwandeln.
Mein Kollege an der Stanford University und seine Studenten haben einen Algorithmus entwickelt, der aus einem einzigen Bild einen unendlichen Raum an Möglichkeiten generieren kann, den der Betrachter erkunden kann.
Das sind Prototypen zukünftiger Möglichkeiten. Innerhalb dieser Möglichkeit können Menschen unsere gesamte Welt in digitale Form umwandeln und ihren Reichtum und ihre Subtilität simulieren.
Was die Natur implizit in jedem unserer Köpfe tut, verspricht die Technologie der räumlichen Intelligenz, dasselbe für unser kollektives Bewusstsein zu tun.
Mit dem beschleunigten Fortschritt der räumlichen Intelligenz entfaltet sich vor unseren Augen eine neue Ära in diesem positiven Kreislauf. Dieser Zyklus katalysiert das Roboterlernen, eine Schlüsselkomponente jedes verkörperten Intelligenzsystems, das die 3D-Welt verstehen und mit ihr interagieren muss. Vor zehn Jahren ermöglichte das ImageNet meines Labors eine Datenbank mit Millionen hochwertiger Fotos, um das maschinelle Sehen zu trainieren. Heute machen wir etwas Ähnliches:Computer und Roboter trainieren, um in einer 3D-Welt zu agieren.
Anstatt dieses Mal statische Bilder zu sammeln, entwickeln wir Simulationsumgebungen, die auf 3D-Raummodellen basieren, damit Computer die unendlichen Handlungsmöglichkeiten erlernen können. Was Sie gerade gesehen haben, ist ein kleines Beispiel für das Unterrichten unserer Roboter, ein von meinem Labor geleitetes Projekt namens Behavior.
Wir machen auch aufregende Fortschritte in der robotergestützten Sprachintelligenz. Mit Hilfe von Eingaben, die auf großen Sprachmodellen basieren, sind meine Studenten und Mitarbeiter eines der ersten Teams, das demonstriert hat, dass ein Roboterarm basierend auf verbalen Anweisungen eine Vielzahl von Aufgaben ausführen kann. Zum Beispiel das Öffnen dieser Schublade oder das Herausziehen des Telefonkabels. Oder machen Sie ein Sandwich aus Brot, Salat und Tomaten oder legen Sie dem Benutzer sogar eine Serviette hin. Normalerweise hätte ich gerne ein etwas reichhaltigeres Sandwich, aber das ist ein guter Ausgangspunkt.
Anwendungsaussichten räumlicher IntelligenzIn den primitiven Ozeanen der Antike löste die Fähigkeit, die Umwelt zu sehen und zu spüren, die kambrische Explosion der Interaktion mit anderen Lebensformen aus. Heute erreicht dieses Licht das digitale Denken.
Räumliche Intelligenz ermöglicht es Maschinen, nicht nur untereinander, sondern auch mit Menschen und mit der realen oder virtuellen 3D-Welt zu interagieren. Wenn diese Zukunft Gestalt annimmt, wird sie tiefgreifende Auswirkungen auf das Leben vieler Menschen haben. Nehmen wir als Beispiel das Gesundheitswesen. Im letzten Jahrzehnt hat mein Labor erste Versuche unternommen, KI auf Herausforderungen anzuwenden, die sich auf die Patientenergebnisse und die Ermüdung des Gesundheitspersonals auswirken. Gemeinsam mit Mitarbeitern von Stanford Medicine und anderen Partnerkrankenhäusern testen wir intelligente Sensoren, die erkennen können, ob ein Arzt ein Patientenzimmer betritt, ohne sich ordnungsgemäß die Hände zu waschen. Oder chirurgische Instrumente verfolgen oder Pflegeteams alarmieren, wenn für einen Patienten ein körperliches Risiko besteht, beispielsweise bei einem Sturz.
Wir betrachten diese Technologien als eine Form der Umgebungsintelligenz, wiezusätzliche Augen.
Aber ich hätte lieber mehr interaktive Hilfe für unsere Patienten, Ärzte und Pflegekräfte, die dringend ein zusätzliches Paar Hände benötigen.
Stellen Sie sich einen autonomen Roboter vor, der medizinische Versorgung transportiert, während sich das Pflegepersonal auf den Patienten konzentriert, oder Augmented Reality nutzt, um Chirurgen durch sicherere, schnellere und weniger invasive Verfahren zu führen.
Stellen Sie sich noch einmal vor, dass schwer gelähmte Patienten Roboter mit ihren Gedanken steuern können. Das ist richtig, Gehirnwellen zu nutzen, um die alltäglichen Aufgaben zu erledigen, die Sie und ich für selbstverständlich halten.
Dies ist eine kürzlich in meinem Labor durchgeführte Pilotstudie. In diesem Video kocht ein Roboterarm, der ausschließlich durch elektrische Signale des Gehirns gesteuert wird, ein japanisches Sukiyaki-Menü. Dabei werden Signale nicht-invasiv durch eine EEG-Kappe erfasst.
Vor fünfhundert Millionen Jahren stürzte die Entstehung des Sehens die dunkle Welt auf den Kopf und löste den tiefgreifendsten Evolutionsprozess aus: die Entwicklung der Intelligenz in der Tierwelt.
Der Fortschritt der KI im letzten Jahrzehnt ist ebenso erstaunlich. Aber ich glaube, dass das volle Potenzial dieser digitalen kambrischen Explosion erst dann voll ausgeschöpft wird, wenn wir Computer und Roboter mit räumlicher Intelligenz ausstatten, so wie es die Natur für uns alle getan hat.
Es ist eine aufregende Zeit, unseren digitalen Begleitern das Denken und die Interaktion mit diesem wunderschönen 3D-Raum, den wir unser Zuhause nennen, beizubringen und gleichzeitig weitere neue Welten zu erschaffen, die wir erkunden können.
Die Verwirklichung dieser Zukunft wird nicht einfach sein, es erfordert von uns allen, tief zu denken und Technologien zu entwickeln, die den Menschen immer in den Mittelpunkt stellen.
Aber wenn wir es richtig machen, werden Computer und Roboter mit räumlicher Intelligenz nicht nur zu nützlichen Werkzeugen, sondern auch zu vertrauenswürdigen Partnern, die uns produktiver machen, unsere Menschlichkeit stärken und unser Leben verbessern und gleichzeitig die Würde des Einzelnen respektieren kollektiver Wohlstand.
Die Zukunft, auf die ich mich am meisten freue, ist eine, in der KI empfindungsfähiger, einsichtsvoller und räumlich bewusster wird und uns bei unserem Streben nach der Schaffung einer besseren Welt unterstützt.
(Vollständiger Text fertig)
Videowiedergabe: https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript
Das obige ist der detaillierte Inhalt vonLi Feifei verrät die unternehmerische Ausrichtung der „räumlichen Intelligenz': Visualisierung wird zu Einsicht, Sehen wird zu Verstehen und Verstehen führt zu Handeln. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen
