Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern-KI-php.cn

Inhaltsverzeichnis

Heim

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

王林

Sep 13, 2023 am 10:57 AM

模型训练

In den letzten Jahren hat das visuelle Vortraining auf großen realen Daten erhebliche Fortschritte gemacht und zeigt ein großes Potenzial für das auf Pixelbeobachtung basierende Roboterlernen. Diese Studien unterscheiden sich jedoch hinsichtlich der Daten, Methoden und Modelle vor dem Training. Daher ist es immer noch eine offene Frage, welche Art von Daten, Pre-Training-Methoden und Modellen die Robotersteuerung besser unterstützen können Drei grundlegende Perspektiven von Trainingsmethoden untersuchten umfassend die Auswirkungen visueller Vortrainingsstrategien auf Roboterbetriebsaufgaben und lieferten einige wichtige experimentelle Ergebnisse, die für das Roboterlernen von Vorteil sind. Darüber hinaus schlugen sie ein visuelles Vortrainingsschema für die Roboterbedienung namens

Vi-PRoM vor, das selbstüberwachtes Lernen und überwachtes Lernen kombiniert.

Ersteres nutzt kontrastives Lernen, um latente Muster aus großen, unbeschrifteten Daten zu erhalten, während letzteres darauf abzielt, visuelle Semantik und zeitliche dynamische Veränderungen zu lernen. Eine Vielzahl von Experimenten zum Roboterbetrieb, die in verschiedenen Simulationsumgebungen und an realen Robotern durchgeführt wurden, haben die Überlegenheit dieser Lösung bewiesen.

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern Papieradresse: https://arxiv.org/pdf/2308.03620.pdf

Projektadresse: https://explore-pretrain-robot.github.io/
Benchmark-Studie

Vorab trainierte Daten

EgoNet ist leistungsfähiger als ImageNet. Trainieren Sie visuelle Encoder anhand verschiedener Datensätze (z. B. ImageNet und EgoNet) durch kontrastive Lernmethoden vor und beobachten Sie ihre Leistung bei Robotermanipulationsaufgaben. Wie aus Tabelle 1 unten ersichtlich ist, erzielte das auf EgoNet vorab trainierte Modell eine bessere Leistung bei Roboterbetriebsaufgaben. Offensichtlich bevorzugen Roboter im Hinblick auf Bedienaufgaben das in Videos enthaltene interaktive Wissen und die zeitlichen Zusammenhänge. Darüber hinaus verfügen die egozentrischen natürlichen Bilder in EgoNet über einen globaleren Kontext zur Welt, was bedeutet, dass umfassendere visuelle Merkmale erlernt werden können. Die Modellstruktur ist besser. ResNet-50 schneidet besser ab. Wie aus Tabelle 2 unten ersichtlich ist, schneiden ResNet-50 und ResNet-101 bei Robotermanipulationsaufgaben besser ab als ResNet-34. Darüber hinaus verbessert sich die Leistung nicht, wenn das Modell von ResNet-50 auf ResNet-101 steigt.

Vortrainingsmethode Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

Entsprechend der Bedeutung des Originaltextes lautet der Inhalt, der neu geschrieben werden muss: „Die Vortrainingsmethode bevorzugt kontrastives Lernen.“ Wie in Tabelle 3 gezeigt Im Folgenden zeigt MoCo-v3 eine gute Leistung bei ImageNet- und EgoNet-Daten in allen Sätzen, was beweist, dass kontrastives Lernen effektiver ist als Maskenbildmodellierung. Darüber hinaus ist die durch kontrastives Lernen erhaltene visuelle Semantik für den Roboterbetrieb wichtiger die durch Maskenbildmodellierung erlernten Strukturinformationen. Umgeschriebener Inhalt: Kontrastives Lernen ist die bevorzugte Methode vor dem Training. Wie aus Tabelle 3 ersichtlich ist, übertrifft MoCo-v3 MAE sowohl bei ImageNet- als auch bei EgoNet-Datensätzen, was darauf hinweist, dass kontrastives Lernen effektiver ist als die Maskenbildmodellierung. Darüber hinaus ist die durch kontrastives Lernen erhaltene visuelle Semantik für den Roboterbetrieb wichtiger als die durch Maskenbildmodellierung gelernten Strukturinformationen.

Einführung in den Algorithmus. Basierend auf der obigen Untersuchung schlägt diese Studie Folgendes vor: Vision-Pre-Training-Lösung für den Roboterbetrieb (Vi-PRoM). Diese Lösung extrahiert eine umfassende visuelle Darstellung der Roboteroperationen, indem ResNet-50 vorab auf dem EgoNet-Datensatz trainiert wird. Konkret nutzen wir zunächst kontrastives Lernen, um durch Selbstüberwachung die Interaktionsmuster zwischen Menschen und Objekten aus dem EgoNet-Datensatz zu ermitteln. Anschließend werden zwei zusätzliche Lernziele vorgeschlagen, nämlich die visuelle semantische Vorhersage und die zeitliche dynamische Vorhersage, um die Darstellung des Encoders weiter zu bereichern. Die folgende Abbildung zeigt den grundlegenden Prozess von Vi-PRoM. Bemerkenswert ist, dass diese Studie keine manuelle Beschriftung erfordert, um visuelle Semantik und zeitliche Dynamik zu lernen

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

Experimentelle Ergebnisse

Diese Forschungsarbeit führte umfangreiche Experimente in zwei Simulationsumgebungen (Franka Kitchen und MetaWorld) durch. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Vortrainingsschema bisherige, hochmoderne Methoden im Roboterbetrieb übertrifft. Die Ergebnisse des Ablationsexperiments sind in der folgenden Tabelle aufgeführt und können die Bedeutung des visuellen semantischen Lernens und des zeitlich dynamischen Lernens für den Roboterbetrieb belegen. Wenn beide Lernziele fehlen, sinkt außerdem die Erfolgsquote von Vi-PRoM erheblich, was die Wirksamkeit der Zusammenarbeit zwischen visuellem semantischem Lernen und zeitlich dynamischem Lernen zeigt.

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

Diese Arbeit untersucht auch die Skalierbarkeit von Vi-PRoM. Wie in der Abbildung unten links dargestellt, verbessert sich in den Simulationsumgebungen Franka Kitchen und MetaWorld die Erfolgsquote von Vi-PRoM mit zunehmender Größe der Demodaten stetig. Nach dem Training an einem größeren Experten-Demonstrationsdatensatz zeigt das Vi-PRoM-Modell seine Skalierbarkeit für Robotermanipulationsaufgaben.

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

Aufgrund der leistungsstarken visuellen Darstellungsfähigkeiten von Vi-PRoM können echte Roboter erfolgreich Schubladen und Schranktüren öffnen

Wie aus den experimentellen Ergebnissen von Franka Kitchen, Vi- PRoM Es weist bei allen fünf Aufgaben eine höhere Erfolgsquote und einen höheren Abschlussgrad der Maßnahmen auf als R3M.

R3M:

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

Vi-PRoM:

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

Auf MetaWorld wurde aufgrund der visuellen Darstellung von Vi eine gute Leistung erlernt. PRoM verfügt über semantische und dynamische Funktionen und kann besser zur Aktionsvorhersage verwendet werden. Im Vergleich zu R3M erfordert Vi-PRoM daher weniger Schritte, um den Vorgang abzuschließen.

R3M:

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

Vi-PRoM:

Umgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern

Das obige ist der detaillierte Inhalt vonUmgeschriebener Titel: Byte führt das visuelle Vorschulungsprogramm Vi-PRoM ein, um die Erfolgsrate und Wirkung des Roboterbetriebs zu verbessern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7569

CakePHP-Tutorial

1386

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

107

Related knowledge

Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Apr 03, 2024 pm 12:04 PM

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Apr 29, 2024 pm 06:55 PM

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Jun 11, 2024 am 09:51 AM

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

See all articles