Sehen Sie sich einen 2-stündigen Film in 4 Sekunden an! Alibaba veröffentlicht das universelle multimodale Großmodell mPLUG-Owl3-Hardware-Rezension-php.cn

Heim

Sehen Sie sich einen 2-stündigen Film in 4 Sekunden an! Alibaba veröffentlicht das universelle multimodale Großmodell mPLUG-Owl3

PHPz

Aug 20, 2024 am 10:32 AM

阿里模型电影 modal Mit der Lektüre fertig abs

Nachdem das Alibaba-Team einen zweistündigen Film in 4 Sekunden gesehen hatte, wurde die neue Errungenschaft offiziell vorgestellt:

das allgemeine multimodale Großmodell mPLUG-Owl3, das speziell zum Verstehen mehrerer Bilder und langer Videos verwendet wird.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Konkret reduzierte mPLUG-Owl3 mit LLaVA-Next-Interleave als Benchmark die Latenz des ersten Tokens des Modells um das Sechsfache und die Anzahl der Bilder, die von einem einzelnen A100 modelliert werden können, erhöhte sich um das Achtfache. Erreichen von 400 Mit nur einem Bild können Sie einen 2-stündigen Film in nur 4 Sekunden ansehen.

Mit anderen Worten, die Argumentationseffizienz des Modells wurde erheblich verbessert.

Und ohne Einbußen bei der Genauigkeit des Modells.

mPLUG-Owl3 erreicht SOTA auch in verschiedenen Szenarien mit multimodalen großen Modellen, einschließlich Einzelbild-, Mehrbild- und Videofeldern.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Der Autor des Papiers ist vom Alibaba mPLUG-Team. Sie haben sich intensiv mit multimodalen großen Modellbasen beschäftigt. Zuvor haben sie auch Folgendes vorgeschlagen:

Effiziente multimodale Basis-mPLUG-Serie

Modulare Multi -Modal Large Language Model Base mPLUG -Owl Series

Document Understanding Base mPLUG-DocOwl Series

Lassen Sie uns herausfinden, welche schwarze Technologie diese Version von mPLUG-Owl3 mit sich bringt.

Gameplay Unlock

Das Team demonstrierte mehrere häufige Einsatzmöglichkeiten von mPLUG-Owl3.

Multimodale Abrufverbesserung

Im Allgemeinen ist es eine gängige Praxis, das Wissen, das das Modell nicht gelernt hat, durch das Abrufsystem zu ergänzen. Dies erfordert, dass das Modell das eingehende multimodale Wissen genau versteht und es zur Beantwortung von Fragen verwendet.

Im folgenden Beispiel kann mPLUG-Owl3 nicht nur basierend auf dem abgerufenen Wissen richtig reagieren, sondern auch eine Beurteilung basierend auf dem Wissen, auf dem es basiert, abgeben und eine detaillierte Grundlage für die Beurteilung liefern. Dies ist für das nachgelagerte F&E-Personal für Entwicklung und Fehlerbehebung sehr hilfreich.

Abrufbereich: Hier sind mehrere multimodale Informationen abgerufen, damit Sie eine Entscheidung treffen können.

Frage: Können Sie den Hund auf Bild 5 anhand Ihrer Beobachtungen zu den vier Hundefotos oben einordnen? Geben Sie Gründe an.

Antwort: Aufgrund der Beobachtungen der vier Hundefotos kann der Hund auf Bild 5 als Irish Terrier eingestuft werden. Der Hund in Bild 1 wird als Irish Terrier beschrieben, und der Hund in Bild 5 hat ähnliche körperliche Merkmale wie der Hund in Bild 1...

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Mehrbild-Argumentation

Das passiert oft in der Lebenssituation -

Viele Benutzer führen Gespräche nicht nur über ein Bild, sondern der Benutzer verfügt möglicherweise über mehrere Materialien, und das Modell muss in der Lage sein, die Beziehung zwischen den Inhalten in verschiedenen Materialien richtig zu verstehen.

Im folgenden Beispiel kann mPLUG-Owl3 das gesunde Menschenverstandswissen des Sprachmodells durch das, was es in zwei Bildern sieht, aktivieren und Rückschlüsse auf die beiden Bilder ziehen.

Frage: Kann das Tier links in der Umgebung rechts überleben? Antworten und Erklärungen sind erforderlich.

Antwort (die richtige Antwort ist grün markiert): Die allgemeine Idee ist, dass es nicht überleben kann, weil die Umgebung zu kalt ist.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

In einem anderen Beispiel kann mPLUG-Owl3 nicht nur den Stilunterschied zwischen zwei Bildern erkennen, sondern auch erkennen, dass die Charaktere in den beiden Bildern zwar unterschiedliche Stile haben, es sich aber tatsächlich um denselben Charakter handelt.

Erste Frage: Welche Kunststile sind auf den Bildern dargestellt und wie unterscheiden sie sich?

Antwort: Das erste Bild ist im Pixelstil, das zweite Bild ist im Cartoon-Stil... (Geben Sie den Grund an)

Zweite Frage: Wer erscheint auf beiden Bildern? Was sind ihre Merkmale?

Antwort: Auf beiden Gemälden erscheint ein Mann mit Cowboyhut, und er wird in zwei verschiedenen Stilen dargestellt.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Verstehen langer Videos

Das Ansehen ultralanger Videos ist eine Aufgabe, die die meisten aktuellen Modelle nicht durchgängig bewältigen können. Wenn sie auf dem Agent-Framework basiert, ist es schwierig, die Reaktionsgeschwindigkeit zu garantieren.

mPLUG-Owl3 kann in 4 Sekunden einen 2-stündigen Film ansehen und mit der Beantwortung von Benutzerfragen beginnen.

Ob Benutzer am Anfang, in der Mitte oder am Ende des Films Fragen zu sehr detaillierten Clips stellen, mPLUG-Owl3 kann diese flüssig beantworten.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Wie hast du es gemacht?

Im Gegensatz zu herkömmlichen Modellen muss mPLUG-Owl3 die visuelle Sequenz nicht im Voraus in die Textsequenz des Sprachmodells einfügen.

Mit anderen Worten: Egal was eingegeben wird (Dutzende Bilder oder Stunden Video), es belegt nicht die Sequenzkapazität des Sprachmodells, wodurch der enorme Rechenaufwand und die Videospeichernutzung vermieden werden, die durch lange visuelle Sequenzen verursacht werden.

Manche Leute fragen sich vielleicht: Wie werden visuelle Informationen in das Sprachmodell integriert?

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Um dies zu erreichen, schlug das Team ein leichtes Hyper-Attention-Modul vor, das einen vorhandenen Transformer-Block, der nur Text modellieren kann, zu einem Block erweitern kann, der sowohl Grafik- als auch Text-Feature-Interaktion und Textkonstruktion durchführen kann.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Durch die spärliche Erweiterung von 4 Transformer-Blöcken über das gesamte Sprachmodell kann mPLUG-Owl3 LLM zu sehr geringen Kosten auf multimodales LLM aktualisieren.

Nachdem die visuellen Merkmale aus dem visuellen Encoder extrahiert wurden, werden die Dimensionen durch eine einfache lineare Zuordnung an die Dimensionen des Sprachmodells angepasst.

Anschließend interagieren die visuellen Funktionen nur mit dem Text in diesen 4 Ebenen des Transformer Blocks. Da das visuelle Token keiner Komprimierung unterzogen wurde, können feinkörnige Informationen erhalten bleiben.

Werfen wir einen Blick darauf, wie Hyper Attention konzipiert ist.

Hyperaufmerksamkeit Damit das Sprachmodell visuelle Merkmale wahrnehmen kann, wird eine Cross-Attention-Operation eingeführt, bei der die visuellen Merkmale als Schlüssel und Wert verwendet werden und der verborgene Zustand des Sprachmodells als Abfrage zum Extrahieren der visuellen Merkmale verwendet wird.

In den letzten Jahren wurde auch in anderen Forschungen über die Verwendung von Cross-Attention für die multimodale Fusion nachgedacht, beispielsweise Flamingo und IDEFICS, aber diese Arbeiten erzielten keine gute Leistung.

Im technischen Bericht von mPLUG-Owl3 verglich das Team das Design von Flamingo, um die wichtigsten technischen Punkte von Hyper Attention näher zu erläutern:

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Erstens übernimmt Hyper Attention nicht das Design von Cross-Attention und Selbstaufmerksamkeitskaskaden, jedoch eingebettet in den Selbstaufmerksamkeitsblock.

Sein Vorteil besteht darin, dass die Anzahl der zusätzlich eingeführten neuen Parameter erheblich reduziert wird, wodurch das Modell einfacher zu trainieren ist und die Trainings- und Inferenzeffizienz weiter verbessert werden kann.

Zweitens wählt Hyper Attention LayerNorm, das das Sprachmodell teilt, da die von LayerNorm ausgegebene Verteilung genau die Verteilung ist, für deren Stabilisierung die Aufmerksamkeitsschicht trainiert wurde. Die gemeinsame Nutzung dieser Ebene ist entscheidend für das stabile Lernen der neu eingeführten Cross-Attention.

Tatsächlich verfolgt Hyper Attention eine parallele Cross-Attention- und Self-Attention-Strategie, indem es eine gemeinsame Abfrage zur Interaktion mit visuellen Merkmalen verwendet und die beiden Merkmale durch ein Adaptive Gate zusammenführt.

Dadurch kann Query basierend auf seiner eigenen Semantik selektiv damit verbundene visuelle Funktionen auswählen.

Das Team stellte fest, dass die relative Position des Bildes und des Textes im Originalkontext für das Modell sehr wichtig ist, um multimodale Eingaben besser zu verstehen.

Um diese Eigenschaft zu modellieren, führten sie ein multimodales verschachteltes Rotationspositionskodierungssystem MI-Rope ein, um Positionsinformationen für den visuellen Schlüssel zu modellieren.

Konkret haben sie die Positionsinformationen jedes Bildes im Originaltext vorab aufgezeichnet und verwenden diese Position, um die entsprechende Seileinbettung zu berechnen, und jeder Patch desselben Bildes teilt diese Einbettung.

Darüber hinaus haben sie auch die Aufmerksamkeitsmaske in Cross-Attention eingeführt, sodass der Text vor dem Bild im ursprünglichen Kontext die den nachfolgenden Bildern entsprechenden Merkmale nicht sehen kann.

Zusammenfassend lässt sich sagen, dass diese Designpunkte von Hyper Attention zu weiteren Effizienzsteigerungen bei mPLUG-Owl3 geführt haben und dafür gesorgt haben, dass es weiterhin über erstklassige multimodale Fähigkeiten verfügen kann.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Experimentelle Ergebnisse

Durch die Durchführung von Experimenten mit einer Vielzahl von Datensätzen kann mPLUG-Owl3 in den meisten multimodalen Einzelbild-Benchmarks SOTA-Ergebnisse erzielen und in vielen Tests sogar solche mit größeren Modellgrößen übertreffen .

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Gleichzeitig übertraf mPLUG-Owl3 in der Multi-Image-Bewertung auch LLAVA-Next-Interleave und Mantis, die speziell für Multi-Image-Szenarien optimiert sind.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Darüber hinaus übertrifft es bestehende Modelle auf LongVideoBench (52,1 Punkte), einer Liste, die speziell das Verständnis des Modells für lange Videos bewertet.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

Das Forschungs- und Entwicklungsteam schlug außerdem eine interessante Methode zur Bewertung langer visueller Sequenzen vor.

Wie wir alle wissen, werden in realen Mensch-Computer-Interaktionsszenarien nicht alle Bilder mit multimodalen Inhalten gefüllt, die für das Problem irrelevant sind. Je länger die Sequenz ist, desto schwerwiegender ist dieses Phänomen Ist.

Um die Anti-Interferenz-Fähigkeit des Modells bei der Eingabe langer visueller Sequenzen zu bewerten, erstellten sie einen neuen Bewertungsdatensatz basierend auf MMBench-dev.

Fügen Sie für jedes MMBench-Zyklus-Bewertungsbeispiel irrelevante Bilder ein, unterbrechen Sie die Reihenfolge der Bilder und stellen Sie dann Fragen zu den Originalbildern, um zu sehen, ob das Modell korrekt und stabil reagieren kann. (Für die gleiche Frage werden 4 Stichproben mit unterschiedlicher Reihenfolge der Optionen und Interferenzbilder erstellt und nur eine richtige Antwort wird aufgezeichnet, wenn alle Antworten richtig sind.)

Das Experiment ist entsprechend der Anzahl der Eingaben in mehrere Ebenen unterteilt Bilder.

Es ist ersichtlich, dass Modelle ohne Multi-Graph-Training wie Qwen-VL und mPLUG-Owl2 schnell scheiterten.

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

LLAVA-Next-Interleave und Mantis, die auf mehreren Bildern trainiert wurden, können zu Beginn eine ähnliche Abklingkurve wie mPLUG-Owl3 beibehalten, aber wenn die Anzahl der Bilder das Niveau von 50 erreicht, ist dies bei diesen Modellen möglich nicht mehr richtig beantwortet.

Und mPLUG-Owl3 kann selbst bei 400 Bildern eine Genauigkeit von 40 % beibehalten.

Eines lässt sich jedoch sagen: Obwohl mPLUG-Owl3 bestehende Modelle übertrifft, ist seine Genauigkeit bei weitem nicht ausgezeichnet. Man kann nur sagen, dass diese Bewertungsmethode die Anti-Interferenz-Fähigkeit aller Modelle bei langen Sequenzen offenbart muss in Zukunft weiter verbessert werden.

Weitere Einzelheiten finden Sie im Dokument und im Code.

Papier: https://arxiv.org/abs/2408.04840

Code: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3

Demo (Umarmungsgesicht): https://huggingface.co/spaces/mPLUG/mPLUG-Owl3

demo (Magic Community): https://modelscope.cn/studios/iic/mPLUG-Owl3

7B-Modell (umarmendes Gesicht): https:/ /huggingface.co/mPLUG/mPLUG-Owl3-7B-240728

7B-Modell (Magic Community) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728

– Ende –

Bitte senden eine E-Mail an:

ai@qbitai.com

Geben Sie den Titel an und sagen Sie uns:

Wer sind Sie, woher kommen Sie, den Inhalt Ihrer Einreichung

Fügen Sie den Link zur Homepage des Beitrags/Projekts hinzu und nehmen Sie Kontakt auf Informationen

Wir werden Ihnen (so weit wie möglich) rechtzeitig antworten

Klicken Sie hier, um mir zu folgen und denken Sie daran, ~

„Teilen“, „Gefällt mir“ und „Ansehen“ mit drei Klicks zu markieren

Wir sehen uns jeden Tag für den bahnbrechenden Fortschritt von Wissenschaft und Technik ~

Das obige ist der detaillierte Inhalt vonSehen Sie sich einen 2-stündigen Film in 4 Sekunden an! Alibaba veröffentlicht das universelle multimodale Großmodell mPLUG-Owl3. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Fusionssystem, erklärt

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1667

CakePHP-Tutorial

1426

Laravel-Tutorial

1328

PHP-Tutorial

1273

C#-Tutorial

1255

Related knowledge

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Alibaba Cloud gab bekannt, dass die Yunqi-Konferenz 2024 vom 19. bis 21. September in Hangzhou stattfinden wird. Kostenlose Anmeldung für kostenlose Tickets Aug 07, 2024 pm 07:12 PM

Laut Nachrichten dieser Website vom 5. August gab Alibaba Cloud bekannt, dass die Yunqi-Konferenz 2024 vom 19. bis 21. September in der Stadt Yunqi in Hangzhou stattfinden wird. Es wird ein dreitägiges Hauptforum, 400 Unterforen und parallele Themen geben. sowie knapp vierzehntausend Quadratmeter Ausstellungsfläche. Die Yunqi-Konferenz ist kostenlos und für die Öffentlichkeit zugänglich. Ab sofort kann die Öffentlichkeit kostenlose Tickets über die offizielle Website der Yunqi-Konferenz erwerben. Die Ticket-Website ist auf dieser Website angehängt. https://yunqi.aliyun.com/2024 /ticket-list Berichten zufolge entstand die Yunqi-Konferenz im Jahr 2009 und hieß ursprünglich „First China Website Development Forum“. Im Jahr 2015 entwickelte sie sich zur Alibaba Cloud Developer Conference , wurde sie offiziell in „Yunqi-Konferenz“ umbenannt und verlief weiterhin erfolgreich

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

FisheyeDetNet: der erste Zielerkennungsalgorithmus basierend auf einer Fischaugenkamera Apr 26, 2024 am 11:37 AM

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

$Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24)$ Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

See all articles