


Wie Deep-Learning-Technologie das Problem löst, dass Roboter mit verformbaren Objekten umgehen
Übersetzer |. Li Rui
Rezensent |. Für Menschen ist die Verarbeitung verformbarer Objekte nicht viel schwieriger als die Verarbeitung starrer Objekte. Menschen lernen von Natur aus, sie zu formen, zu falten und auf unterschiedliche Weise zu manipulieren und sind dennoch in der Lage, sie zu erkennen.
Aber für Robotik und Systeme der künstlichen Intelligenz ist die Manipulation verformbarer Objekte eine große Herausforderung. Beispielsweise muss ein Roboter eine Reihe von Schritten ausführen, um Teig zu einem Pizzaboden zu formen. Wenn der Teig seine Form ändert, muss er aufgezeichnet und verfolgt werden. Gleichzeitig müssen für jeden Arbeitsschritt die richtigen Werkzeuge ausgewählt werden. Dies sind herausfordernde Aufgaben für aktuelle Systeme der künstlichen Intelligenz, die stabiler sind, wenn sie mit starren Objekten mit vorhersehbareren Zuständen umgehen.
Jetzt verspricht eine neue Deep-Learning-Technik, die von Forschern des MIT, der Carnegie Mellon University und der UC San Diego entwickelt wurde, Robotersysteme beim Umgang mit verformbaren Objekten stabiler zu machen. Die Technologie namens DiffSkill nutzt tiefe neuronale Netze zum Erlernen einfacher Fertigkeiten und ein Planungsmodul, um diese Fertigkeiten zu kombinieren, um Aufgaben zu lösen, die mehrere Schritte und Werkzeuge erfordern.
Verarbeitung verformbarer Objekte durch Reinforcement Learning und Deep Learning
Wenn ein System der künstlichen Intelligenz ein Objekt verarbeiten möchte, muss es in der Lage sein, seinen Zustand zu erkennen, zu definieren und vorherzusagen, wie es in der Zukunft aussehen wird. Für starre Objekte ist dies ein weitgehend gelöstes Problem. Mit einer guten Reihe von Trainingsbeispielen kann ein tiefes neuronales Netzwerk starre Objekte aus verschiedenen Winkeln erkennen. Wenn verformbare Objekte beteiligt sind, werden ihre multiplen Zustandsräume noch komplexer.
Lin Zahlen repräsentieren seine Richtung.
Verformbare Objekte wie Teig oder Stoff haben jedoch unendlich viele Freiheitsgrade, was es schwieriger macht, ihren Zustand genau zu beschreiben, und die Art und Weise, wie sie sich verformen, ist auch schwieriger zu verwenden als starre Objekte
Die Entwicklung differenzierbarer Physiksimulatoren ermöglicht die Anwendung von Gradienten-basierten Methoden zur Lösung deformierbarer Objektmanipulationsaufgaben. Dies unterscheidet sich von herkömmlichen Methoden des verstärkenden Lernens, die versuchen, die Dynamik der Umgebung und der Objekte durch reine Versuch-und-Irrtum-Interaktionen zu lernen.
DiffSkill ist von PlasticineLab inspiriert, einem differenzierbaren Physiksimulator und wurde auf der ICLR-Konferenz 2021 vorgestellt. PlasticineLab zeigt, dass differenzierbare Simulatoren bei kurzfristigen Aufgaben helfen können.
PlasticineLab ist ein Simulator für verformbare Objekte, der auf differenzierbarer Physik basiert. Es eignet sich gut zum Trainieren von auf Gradienten basierenden Modellen
, aber differenzierbare Simulatoren haben immer noch mit dem langfristigen Problem zu kämpfen, dass mehrere Schritte erforderlich sind und unterschiedliche Werkzeuge verwendet werden. Systeme der künstlichen Intelligenz, die auf differenzierbaren Simulatoren basieren, erfordern außerdem Kenntnisse über den vollständigen Simulationszustand und die damit verbundenen physikalischen Parameter der Umgebung. Dies ist besonders einschränkend für reale Anwendungen, bei denen Agenten die Welt typischerweise durch visuelle und Tiefenerfassungsdaten (RGB-D) wahrnehmen.
Lin Dabei lernen Agenten der künstlichen Intelligenz mithilfe differenzierbarer physikalischer Modelle Fertigkeitsabstraktionen und kombinieren diese, um komplexe operative Aufgaben zu erledigen.
Seine bisherige Arbeit konzentrierte sich auf die Nutzung von Verstärkungslernen zur Manipulation verformbarer Objekte wie Stoffe, Seile und Flüssigkeiten. Für DiffSkill entschied er sich wegen der damit verbundenen Herausforderungen für die Teigmanipulation.
Er sagte: „Teigmanipulation ist besonders interessant, weil sie mit einem Robotergreifer nicht einfach zu bewerkstelligen ist, sondern die Verwendung verschiedener Werkzeuge nacheinander erfordert, was Menschen gut können, Roboter jedoch weniger verbreitet sind.“
Nach dem Training DiffSkill Eine Reihe von Teigmanipulationsaufgaben können nur mit RGB-D-Eingabe erfolgreich abgeschlossen werden.
Verwendung neuronaler Netze zum Erlernen abstrakter Fähigkeiten
DiffSkill trainiert die Machbarkeit neuronaler Netze, um Zielzustände aus Anfangszuständen und Parametern vorherzusagen, die aus differenzierbaren Physiksimulatoren erhalten wurden.DiffSkill besteht aus zwei Schlüsselkomponenten: Die erste besteht darin, neuronale Netze zu verwenden Ein „Abstraktor für neuronale Fähigkeiten“ zum Erlernen individueller Fähigkeiten und ein weiterer „Planer“ zur Lösung langfristiger Aufgaben.
DiffSkill verwendet einen differenzierbaren Physiksimulator, um Trainingsbeispiele für Fertigkeitsabstraktoren zu generieren. Diese Beispiele zeigen, wie Sie mit einem einzigen Werkzeug kurzfristige Ziele erreichen können, beispielsweise mit einem Nudelholz zum Ausbreiten von Teig oder mit einem Spatel zum Bewegen von Teig.
Diese Beispiele werden erfahrenen Abstraktoren in Form von RGB-D-Videos präsentiert. Anhand einer Bildbeobachtung muss der Fähigkeitsabstraktor vorhersagen, ob das gewünschte Ziel realisierbar ist. Das Modell lernt und passt seine Parameter an, indem es seine Vorhersagen mit tatsächlichen Ergebnissen eines Physiksimulators vergleicht.
Robotermanipulation verformbarer Objekte wie Teig erfordert langfristige Überlegungen zum Einsatz verschiedener Werkzeuge. Der DiffSkill-Ansatz nutzt differenzierbare Simulatoren, um Fähigkeiten für diese anspruchsvollen Aufgaben zu erlernen und zu kombinieren.
Unterdessen trainiert DiffSkill Variational Autoencoder (VAEs), um latente Raumdarstellungen von Beispielen zu lernen, die von Physiksimulatoren generiert wurden. Variationale Autoencoder (VAE) behalten wichtige Funktionen bei und verwerfen aufgabenirrelevante Informationen. Durch die Umwandlung von hochdimensionalem Bildraum in latenten Raum spielen Variations-Autoencoder (VAEs) eine wichtige Rolle dabei, DiffSkill in die Lage zu versetzen, über längere Sichtfelder zu planen und Ergebnisse aus der Beobachtung sensorischer Daten vorherzusagen.
Eine der wichtigsten Herausforderungen beim Training eines Variational Autoencoders (VAE) besteht darin, sicherzustellen, dass er die richtigen Funktionen lernt und auf die reale Welt verallgemeinert. In der realen Welt unterscheidet sich die Zusammensetzung visueller Daten von den Daten, die von einem physischen Simulator generiert werden. Beispielsweise ist die Farbe des Nudelholzes oder des Schneidebretts für die Aufgabe nicht relevant, wohl aber die Position und der Winkel des Nudelholzes sowie die Position des Teigs.
Derzeit verwenden die Forscher eine Technik namens „Domänen-Randomisierung“, die irrelevante Eigenschaften der Trainingsumgebung, wie Hintergrund und Beleuchtung, randomisiert und wichtige Merkmale wie die Position und Ausrichtung des Werkzeugs beibehält. Dies macht das Training von Variational Autoencodern (VAEs) stabiler, wenn es in der realen Welt angewendet wird.
Lin Xingyu sagte: „Das ist nicht einfach, weil wir alle möglichen Unterschiede zwischen Simulation und realer Welt abdecken müssen (sogenannte sim2real-Lücke). Einfacherer Transfer von der Simulation in die reale Welt. Tatsächlich entwickeln wir ein Folgeprojekt, bei dem Punktwolken als Eingabe verwendet werden Verschiedene Fertigkeitskombinationen und -sequenzen erreicht.
Sobald der Fertigkeitsabstraktor trainiert ist, nutzt DiffSkill das Planermodul, um langfristige Aufgaben zu lösen. Planer müssen die Anzahl und Reihenfolge der erforderlichen Fähigkeiten bestimmen, um vom Ausgangszustand zum Ziel zu gelangen.
Dieser Planer durchläuft mögliche Fähigkeitskombinationen und die Zwischenergebnisse, die sie erzeugen. Hier erweisen sich Variations-Autoencoder als nützlich. Anstatt vollständige Bildergebnisse vorherzusagen, nutzt DiffSkill VAEs, um latente räumliche Ergebnisse für Zwischenschritte zum Endziel vorherzusagen.
Der Planer von DiffSkill sagt Zwischenschritte sehr genau voraus
Lin in verschiedenen zeitlichen Abstraktionen, anstatt darüber nachzudenken, was in der nächsten Sekunde zu tun ist.“
Allerdings ist auch die Kapazität von DiffSkill begrenzt. Beispielsweise sank die Leistung von DiffSkill erheblich, wenn eine der Aufgaben ausgeführt wurde, die eine dreistufige Planung erforderten (obwohl es andere Techniken immer noch übertraf). Lin Xingyu erwähnte auch, dass der Machbarkeitsprädiktor in einigen Fällen zu falsch positiven Ergebnissen führen kann. Die Forscher glauben, dass das Erlernen besserer latenter Räume zur Lösung dieses Problems beitragen kann.
Die Forscher erkunden auch andere Wege, um DiffSkill zu verbessern, einschließlich eines effizienteren Planungsalgorithmus, der für längere Aufgaben verwendet werden kann.
Lin Xingyu äußerte die Hoffnung, dass er DiffSkill eines Tages auf einem echten Pizza-Roboter einsetzen kann. Er sagte: „Davon sind wir noch weit entfernt. Es sind verschiedene Herausforderungen in Bezug auf Kontrolle, Sim2real-Übertragung und Sicherheit entstanden. Aber wir sind jetzt zuversichtlicher, einige langfristige Missionen zu starten.“ #🎜 🎜# Originaltitel:
Diese Deep-Learning-Technik löst eine der schwierigsten Herausforderungen der Robotik, Autor: Ben Dickson
Das obige ist der detaillierte Inhalt vonWie Deep-Learning-Technologie das Problem löst, dass Roboter mit verformbaren Objekten umgehen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grundsätzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente Übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich beträgt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement beträgt 59 Yuan pro Monat und das fortlaufende Jahresabonnement beträgt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erklärte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

Verbessern Sie die Produktivität, Effizienz und Genauigkeit der Entwickler, indem Sie eine abrufgestützte Generierung und ein semantisches Gedächtnis in KI-Codierungsassistenten integrieren. Übersetzt aus EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, Autor JanakiramMSV. Obwohl grundlegende KI-Programmierassistenten natürlich hilfreich sind, können sie oft nicht die relevantesten und korrektesten Codevorschläge liefern, da sie auf einem allgemeinen Verständnis der Softwaresprache und den gängigsten Mustern beim Schreiben von Software basieren. Der von diesen Coding-Assistenten generierte Code eignet sich zur Lösung der von ihnen zu lösenden Probleme, entspricht jedoch häufig nicht den Coding-Standards, -Konventionen und -Stilen der einzelnen Teams. Dabei entstehen häufig Vorschläge, die geändert oder verfeinert werden müssen, damit der Code in die Anwendung übernommen wird

Large Language Models (LLMs) werden auf riesigen Textdatenbanken trainiert und erwerben dort große Mengen an realem Wissen. Dieses Wissen wird in ihre Parameter eingebettet und kann dann bei Bedarf genutzt werden. Das Wissen über diese Modelle wird am Ende der Ausbildung „verdinglicht“. Am Ende des Vortrainings hört das Modell tatsächlich auf zu lernen. Richten Sie das Modell aus oder verfeinern Sie es, um zu erfahren, wie Sie dieses Wissen nutzen und natürlicher auf Benutzerfragen reagieren können. Aber manchmal reicht Modellwissen nicht aus, und obwohl das Modell über RAG auf externe Inhalte zugreifen kann, wird es als vorteilhaft angesehen, das Modell durch Feinabstimmung an neue Domänen anzupassen. Diese Feinabstimmung erfolgt mithilfe von Eingaben menschlicher Annotatoren oder anderer LLM-Kreationen, wobei das Modell auf zusätzliches Wissen aus der realen Welt trifft und dieses integriert

Um mehr über AIGC zu erfahren, besuchen Sie bitte: 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou unterscheidet sich von der traditionellen Fragendatenbank, die überall im Internet zu sehen ist erfordert einen Blick über den Tellerrand hinaus. Large Language Models (LLMs) gewinnen in den Bereichen Datenwissenschaft, generative künstliche Intelligenz (GenAI) und künstliche Intelligenz zunehmend an Bedeutung. Diese komplexen Algorithmen verbessern die menschlichen Fähigkeiten, treiben Effizienz und Innovation in vielen Branchen voran und werden zum Schlüssel für Unternehmen, um wettbewerbsfähig zu bleiben. LLM hat ein breites Anwendungsspektrum und kann in Bereichen wie der Verarbeitung natürlicher Sprache, der Textgenerierung, der Spracherkennung und Empfehlungssystemen eingesetzt werden. Durch das Lernen aus großen Datenmengen ist LLM in der Lage, Text zu generieren

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Maschinelles Lernen ist ein wichtiger Zweig der künstlichen Intelligenz, der Computern die Möglichkeit gibt, aus Daten zu lernen und ihre Fähigkeiten zu verbessern, ohne explizit programmiert zu werden. Maschinelles Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen, von der Bilderkennung und der Verarbeitung natürlicher Sprache bis hin zu Empfehlungssystemen und Betrugserkennung, und es verändert unsere Lebensweise. Im Bereich des maschinellen Lernens gibt es viele verschiedene Methoden und Theorien, von denen die fünf einflussreichsten Methoden als „Fünf Schulen des maschinellen Lernens“ bezeichnet werden. Die fünf Hauptschulen sind die symbolische Schule, die konnektionistische Schule, die evolutionäre Schule, die Bayes'sche Schule und die Analogieschule. 1. Der Symbolismus, auch Symbolismus genannt, betont die Verwendung von Symbolen zum logischen Denken und zum Ausdruck von Wissen. Diese Denkrichtung glaubt, dass Lernen ein Prozess der umgekehrten Schlussfolgerung durch das Vorhandene ist

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

Herausgeber | Rettichhaut Seit der Veröffentlichung des leistungsstarken AlphaFold2 im Jahr 2021 verwenden Wissenschaftler Modelle zur Proteinstrukturvorhersage, um verschiedene Proteinstrukturen innerhalb von Zellen zu kartieren, Medikamente zu entdecken und eine „kosmische Karte“ jeder bekannten Proteininteraktion zu zeichnen. Gerade hat Google DeepMind das AlphaFold3-Modell veröffentlicht, das gemeinsame Strukturvorhersagen für Komplexe wie Proteine, Nukleinsäuren, kleine Moleküle, Ionen und modifizierte Reste durchführen kann. Die Genauigkeit von AlphaFold3 wurde im Vergleich zu vielen dedizierten Tools in der Vergangenheit (Protein-Ligand-Interaktion, Protein-Nukleinsäure-Interaktion, Antikörper-Antigen-Vorhersage) deutlich verbessert. Dies zeigt, dass dies innerhalb eines einzigen einheitlichen Deep-Learning-Frameworks möglich ist
