Heim Technologie-Peripheriegeräte KI Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

Jul 26, 2024 pm 04:07 PM
理论 具身智能 Pengcheng-Labor

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Verkörperte Intelligenz ist der einzige Weg, allgemeine künstliche Intelligenz zu erreichen. Ihr Kern liegt in der Interaktion intelligenter Agenten mit dem digitalen Raum und der physischen Welt. Erledige komplexe Aufgaben. In den letzten Jahren haben multimodale Großmodelle und Robotertechnologie große Fortschritte gemacht, und die verkörperte Intelligenz ist zu einem neuen Schwerpunkt des globalen Technologie- und Industriewettbewerbs geworden. Allerdings fehlt derzeit eine Übersicht, die den aktuellen Stand der Entwicklung der verkörperten Intelligenz umfassend analysieren kann. Daher führte das „Institute of Multi-Agent and Embodied Intelligence“ des „Pengcheng Laboratory“ zusammen mit Forschern des HCP Laboratory der Sun Yat-sen-Universität eine umfassende Analyse der neuesten Fortschritte in der „verkörperten Intelligenz“ durch und leitete „eine globale Ära multimodaler großer Modelle“ ein Die erste Überprüfung der verkörperten Intelligenz.
Diese Überprüfung untersuchte fast 400 Dokumente und führte eine umfassende Analyse der Forschung zur verkörperten Intelligenz aus mehreren Dimensionen durch. In dieser Rezension werden zunächst einige repräsentative „verkörperte Roboter und verkörperte Simulationsplattformen“ vorgestellt und eine eingehende Analyse ihres Forschungsschwerpunkts und ihrer Grenzen bereitgestellt. Anschließend werden vier Hauptforschungsinhalte gründlich analysiert: 1)
Verkörperte Wahrnehmung
, 2)
Verkörperte Interaktion, 3) Verkörperte Intelligenz und 4) Virtual to Reality Transfer, diese Forschungsinhalte decken den neuesten Stand der Technik ab. Kunstmethoden, grundlegende Paradigmen und umfassende Datensätze. Darüber hinaus untersucht die Rezension die Herausforderungen, denen sich verkörperte Agenten in digitalen Räumen und physischen Welten gegenübersehen, und betont deren Bedeutung für die aktive Interaktion in dynamischen digitalen und physischen Umgebungen. Abschließend fasst die Rezension die Herausforderungen und Grenzen der verkörperten Intelligenz zusammen und diskutiert ihre möglichen zukünftigen Richtungen. Mit dieser Rezension soll eine grundlegende Referenz für die Forschung zur verkörperten Intelligenz bereitgestellt und damit verbundene technologische Innovationen gefördert werden. Darüber hinaus wurde in dieser Rezension auch eine Liste mit verkörperten Geheimdienstpapieren auf Github veröffentlicht. Verwandte Papiere und Code-Repositories werden kontinuierlich aktualisiert, also achten Sie bitte darauf. T-Paper-Adresse: https://arxiv.org/pdf/2407.06886
  • 1. Das vergangene und gegenwärtige Leben der verkörperten Intelligenz
Das Konzept der verkörperten Intelligenz wurde erstmals von Alan Turing in „Embodied Turing“ vorgeschlagen 1950 eingeführter Test, um festzustellen, ob ein intelligenter Agent mehr als nur Intelligenz zeigen kann, die abstrakte Probleme in einer virtuellen Umgebung (digitalem Raum) löst (intelligente Agenten sind die Grundlage verkörperter Intelligenz, existieren im digitalen Raum und in der physischen Welt und sind verkörpert in Form verschiedener Einheiten, darunter nicht nur Roboter, sondern auch andere Geräte), können auch mit der Komplexität und Unvorhersehbarkeit der physischen Welt umgehen. Daher wird die Entwicklung verkörperter Intelligenz als grundlegender Weg zur Erlangung allgemeiner künstlicher Intelligenz angesehen. Es ist besonders wichtig, sich mit der Komplexität der verkörperten Intelligenz auseinanderzusetzen, ihren aktuellen Entwicklungsstand einzuschätzen und ihre zukünftige Entwicklung zu berücksichtigen. Heutzutage umfasst verkörperte Intelligenz mehrere Schlüsseltechnologien wie Computer Vision, Verarbeitung natürlicher Sprache und Robotik. Die repräsentativsten sind „verkörperte Wahrnehmung“, „verkörperte Interaktion“, „verkörperte Intelligenz“ und „Virtual-Reality-Migration“. Bei verkörperten Aufgaben müssen verkörperte Agenten die menschlichen Absichten in Sprachanweisungen vollständig verstehen, die Umgebung proaktiv erkunden, multimodale Elemente aus virtuellen und physischen Umgebungen umfassend wahrnehmen und geeignete Operationen ausführen, um komplexe Aufgaben zu erledigen. Der schnelle Fortschritt multimodaler Modelle zeigt eine größere Vielfalt, Flexibilität und Generalisierungsfähigkeiten als herkömmliche Deep-Reinforcement-Learning-Methoden in komplexen Umgebungen. Mit hochmodernen visuellen Encodern vorab trainierte visuelle Darstellungen liefern präzise Schätzungen von Objektkategorien, Posen und Geometrien und ermöglichen es verkörperten Modellen, komplexe und dynamische Umgebungen umfassend wahrzunehmen. Leistungsstarke große Sprachmodelle ermöglichen es Robotern, Anweisungen in menschlicher Sprache besser zu verstehen und bieten eine praktikable Methode zur Abstimmung visueller und sprachlicher Darstellungen für verkörperte Roboter. Weltmodelle weisen erhebliche Simulationsfähigkeiten und ein gutes Verständnis physikalischer Gesetze auf und ermöglichen es verkörperten Modellen, die Physik und reale Umgebungen vollständig zu verstehen. Diese Fortschritte ermöglichen es der verkörperten Intelligenz, komplexe Umgebungen umfassend wahrzunehmen, auf natürliche Weise mit Menschen zu interagieren und Aufgaben zuverlässig auszuführen. Die folgende Abbildung zeigt die typische Architektur eines verkörperten Agenten.

                            Embodied Agent Framework

In dieser Rezension geben wir einen umfassenden Überblick über den aktuellen Fortschritt der verkörperten Intelligenz, einschließlich: (1) E verkörperte Roboter
—— Werkzeug-Hardwarelösung für verkörperte Intelligenz in der physischen Welt; (2)

Verkörperte SimulationsplattformDer Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend – ein digitaler Raum zum effizienten und sicheren Training verkörperter Intelligenz;

- Interagieren Sie effektiv und vernünftig mit der Umgebung und ändern Sie sogar die Umgebung, um bestimmte Aufgaben zu erledigen (5)
Verkörperte Intelligenz - Verwenden Sie multimodale große Modelle, um Abstraktionsanweisungen zu verstehen, sie in eine Reihe von Unteraufgaben aufzuteilen und diese dann Schritt für Schritt auszuführen Schritt für Schritt; (6) Virtual to Reality Transfer – Übertragen und verallgemeinern Sie die im digitalen Raum erlernten Fähigkeiten auf die physische Welt. Die folgende Abbildung zeigt den Systemrahmen der verkörperten Intelligenz vom digitalen Raum bis zur physischen Welt. Ziel dieser Rezension ist es, umfassendes Hintergrundwissen, Forschungstrends und technische Erkenntnisse zur verkörperten Intelligenz bereitzustellen.

                                                                                       Gesamtarchitektur dieser Rezension

2. Verkörperter Roboter

unter anderem Roboter, intelligente Haushaltsgeräte, intelligente Brillen und selbstfahrende Fahrzeuge. Unter ihnen haben Roboter als eine der bekanntesten verkörperten Formen große Aufmerksamkeit erregt. Je nach Anwendungsszenario werden Roboter in verschiedenen Formen entwickelt, um ihre Hardwarefunktionen zur Erledigung spezifischer Aufgaben voll auszunutzen. Wie in der folgenden Abbildung dargestellt, können verkörperte Roboter im Allgemeinen unterteilt werden in: (1) Roboter mit fester Basis, wie z. B. Roboterarme, die häufig in der Laborautomatisierungssynthese, im Bildungswesen, in der Industrie und in anderen Bereichen eingesetzt werden; sind hocheffizient. Sie sind bekannt für ihre Mobilität und werden häufig in den Bereichen Logistik, Lagerhaltung und Sicherheitsinspektionen eingesetzt. (3) Raupenroboter mit starken Geländefähigkeiten und Mobilität haben ihr Potenzial in der Landwirtschaft, im Baugewerbe und bei der Katastrophenhilfe gezeigt. Vierbeiner Der für seine Stabilität und Anpassungsfähigkeit bekannte Roboter eignet sich ideal für die Ortung in komplexem Gelände, bei Rettungseinsätzen und für militärische Anwendungen. (5) Humanoide Roboter, bei denen ihre geschickten Hände der Schlüssel sind, werden häufig in der Dienstleistungsbranche, im Gesundheitswesen und in kollaborativen Umgebungen eingesetzt. (6) Bionische Roboter führen Aufgaben in komplexen und dynamischen Umgebungen aus, indem sie die effektiven Bewegungen und Funktionen natürlicher Organismen simulieren.

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

                                                                                                                                                                          Verschiedene Formen verkörperter Roboter

3. Verkörperte Intelligenz-Simulationsplattformen sind für die verkörperte Intelligenz von entscheidender Bedeutung, da sie eine kostengünstige Möglichkeit bieten Die experimentelle Methode kann die Sicherheit durch die Simulation potenziell gefährlicher Szenarien gewährleisten, ist skalierbar, um Tests in einer Vielzahl von Umgebungen durchzuführen, verfügt über Rapid-Prototyping-Funktionen, kann einer breiteren Forschungsgemeinschaft Komfort bieten und bietet eine kontrollierte Umgebung für präzise Forschung und die Generierung von Daten für die Schulung und Bewertung sowie Bereitstellung eines standardisierten Benchmarks für den Algorithmenvergleich. Damit der Agent mit der Umgebung interagieren kann, muss eine realistische simulierte Umgebung erstellt werden. Dies erfordert die Berücksichtigung der physikalischen Eigenschaften der Umgebung, der Eigenschaften von Objekten und ihrer Wechselwirkungen. Wie in der folgenden Abbildung dargestellt, werden in dieser Überprüfung zwei Simulationsplattformen analysiert: eine allgemeine Plattform, die auf der zugrunde liegenden Simulation basiert, und eine Simulationsplattform, die auf realen Szenarien basiert.

                                                       ​ Simulationsplattform basierend auf realen Szenen

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

4. Verkörperte Wahrnehmung

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

Der „Nordstern“ der zukünftigen visuellen Wahrnehmung ist verkörperungszentriertes visuelles Denken und soziale Intelligenz. Wie in der folgenden Abbildung dargestellt, müssen sich Agenten mit verkörperter Wahrnehmung nicht nur Objekte in Bildern erkennen, sondern sich in der physischen Welt bewegen und mit der Umgebung interagieren, was ein gründlicheres Verständnis des dreidimensionalen Raums und dynamischer Umgebungen erfordert. Verkörperte Wahrnehmung erfordert visuelle Wahrnehmungs- und Denkfähigkeiten, das Verstehen dreidimensionaler Beziehungen in einer Szene sowie das Vorhersagen und Ausführen komplexer Aufgaben auf der Grundlage visueller Informationen. In dieser Rezension werden aktive visuelle Wahrnehmung, visuelle 3D-Lokalisierung, visuelle Sprachnavigation, nicht-visuelle Wahrnehmung (taktile Sensoren) usw. vorgestellt.
                                                                                                         

5. Verkörperte Interaktion
Szenen der Interaktion mit Mensch und Umwelt. Zu den typischen verkörperten Interaktionsaufgaben gehören die verkörperte Beantwortung von Fragen und das verkörperte Erfassen. Wie in der folgenden Abbildung dargestellt, muss der Agent in der verkörperten Frage-und-Antwort-Aufgabe die Umgebung aus der Ich-Perspektive erkunden, um die zur Beantwortung der Frage erforderlichen Informationen zu sammeln. Ein Agent mit autonomen Erkundungs- und Entscheidungsfähigkeiten muss nicht nur überlegen, welche Maßnahmen er ergreifen soll, um die Umgebung zu erkunden, sondern auch entscheiden, wann er mit der Erkundung aufhört, um Fragen zu beantworten, wie in der folgenden Abbildung dargestellt.架 Zusätzlich zum Frage-und-Antwort-Rahmen 问 Neben der Interaktion mit Menschen umfasst die Interaktion auch die Durchführung von Operationen, die auf menschlichen Anweisungen basieren, wie etwa das Ergreifen und Platzieren von Objekten, wodurch intelligente Körper und Menschen sowie Interaktionen zwischen Objekten vervollständigt werden. Wie gezeigt, erfordert verkörpertes Greifen ein umfassendes semantisches Verständnis, Szenenbewusstsein, Entscheidungsfindung und eine robuste Kontrollplanung. Die verkörperte Greifmethode kombiniert das traditionelle kinematische Greifen von Robotern mit groß angelegten Modellen (z. B. großen Sprachmodellen und Basismodellen der visuellen Sprache) und ermöglicht es Agenten, Greifaufgaben unter multisensorischer Wahrnehmung auszuführen, einschließlich visueller aktiver Wahrnehmung, Sprachverständnis und Argumentation.

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

                                                                                                                                                                         Sprachgesteuertes interaktives Crawling-Framework

6. Verkörperter Agent

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

Ein Agent ist definiert als die Fähigkeit, die Umgebung zu spüren und Maßnahmen zu ergreifen, um ein bestimmtes Ziel zu erreichen autonome Einheit. Jüngste Fortschritte bei multimodalen Großmodellen haben die Anwendung von Agenten in realen Szenarien weiter erweitert. Wenn diese multimodalen großen modellbasierten Agenten in physische Einheiten verkörpert werden, sind sie in der Lage, ihre Fähigkeiten effektiv vom virtuellen Raum in die physische Welt zu übertragen und so zu verkörperten Agenten zu werden. Damit verkörperte Agenten in der informationsreichen und komplexen realen Welt agieren können, wurden sie mit leistungsstarken multimodalen Wahrnehmungs-, Interaktions- und Planungsfähigkeiten entwickelt. Wie in der folgenden Abbildung dargestellt, umfassen verkörperte Agenten zum Erledigen von Aufgaben normalerweise die folgenden Prozesse:
(1) Zerlegen Sie abstrakte und komplexe Aufgaben in spezifische Unteraufgaben, dh die Planung verkörperter Aufgaben auf hoher Ebene.
(2) Setzen Sie diese Teilaufgaben schrittweise um, indem Sie die verkörperten Wahrnehmungs- und Interaktionsmodelle effektiv nutzen oder die Strategiefunktionen des Basismodells nutzen, das als verkörperte Aktionsplanung auf niedriger Ebene bezeichnet wird.
Es ist erwähnenswert, dass bei der Missionsplanung erst nachgedacht werden muss, bevor gehandelt wird, und daher oft im digitalen Raum in Betracht gezogen wird. Im Gegensatz dazu muss die Aktionsplanung effektive Wechselwirkungen mit der Umgebung berücksichtigen und diese Informationen an den Missionsplaner zurückgeben, um die Missionsplanung anzupassen. Daher ist es für verkörperte Agenten von entscheidender Bedeutung, ihre Fähigkeiten vom digitalen Raum auf die physische Welt auszurichten und zu verallgemeinern.模 Basierend auf einem multimodalen und großen Modell bezieht sich das Körpergerüst des Körpers


7 (Sim-to-Real-Anpassung) auf den Prozess der Übertragung von Fähigkeiten oder Verhaltensweisen, die in einer simulierten Umgebung erlernt wurden ( digitaler Raum) in die reale Welt (physische Welt). Der Prozess umfasst die Validierung und Verbesserung der Wirksamkeit von in der Simulation entwickelten Algorithmen, Modellen und Steuerungsstrategien, um sicherzustellen, dass sie in der physischen Umgebung stabil und zuverlässig funktionieren. Um eine Anpassung der Simulation an die Realität zu erreichen, sind verkörperte Weltmodelle, Datenerfassungs- und Trainingsmethoden sowie verkörperte Steuerungsalgorithmen drei Schlüsselelemente. Die folgende Abbildung zeigt fünf verschiedene Sim-to-Real-Paradigmen.
                                                                                                                                         Fünf Virtual-to-Reality-Migrationslösungen

8. Herausforderungen und zukünftige Entwicklungsrichtungen

stellte sich einigen Herausforderungen und präsentierte die spannenden zukünftigen Richtungen:

(1) Hochwertiger Roboterdatensatz. Die Beschaffung ausreichender Roboterdaten aus der realen Welt bleibt eine große Herausforderung. Das Sammeln dieser Daten ist zeitaufwändig und ressourcenintensiv. Sich ausschließlich auf simulierte Daten zu verlassen, wird das Problem der Lücke zwischen Simulation und Realität verschärfen. Die Erstellung vielfältiger realer Robotik-Datensätze erfordert eine enge und umfassende Zusammenarbeit zwischen den Institutionen. Darüber hinaus ist die Entwicklung realistischerer und effizienterer Simulatoren von entscheidender Bedeutung, um die Qualität der Simulationsdaten zu verbessern. Um ein universelles verkörpertes Modell zu erstellen, das szenario- und aufgabenübergreifende Anwendungen im Bereich der Robotik erreichen kann, ist es notwendig, umfangreiche Datensätze zu erstellen und hochwertige simulierte Umgebungsdaten zur Unterstützung realer Daten zu verwenden.

(2)Effektive Nutzung menschlicher Demonstrationsdaten. Um menschliche Demonstrationsdaten effizient zu nutzen, müssen von Menschen demonstrierte Aktionen und Verhaltensweisen genutzt werden, um Robotersysteme zu trainieren und zu verbessern. Dieser Prozess umfasst das Sammeln, Verarbeiten und Lernen aus großen, hochwertigen Datensätzen, wobei Menschen die Aufgaben ausführen, die der Roboter lernen muss. Daher ist es wichtig, große Mengen unstrukturierter, multimodaler und multimodaler menschlicher Demonstrationsdaten in Kombination mit Aktionslabeldaten effektiv zu nutzen, um verkörperte Modelle zu trainieren, die in relativ kurzer Zeit eine Vielzahl von Aufgaben erlernen können. Durch die effiziente Nutzung menschlicher Demonstrationsdaten können Robotersysteme ein höheres Maß an Leistung und Anpassungsfähigkeit erreichen und so komplexe Aufgaben in dynamischen Umgebungen besser ausführen.

(3)Komplexe Umgebungserkennung. Unter komplexer Umgebungserkennung versteht man die Fähigkeit verkörperter Agenten, komplexe reale Umgebungen in physischen oder virtuellen Umgebungen wahrzunehmen, zu verstehen und darin zu navigieren. Bei unstrukturierten offenen Umgebungen stützen sich aktuelle Arbeiten in der Regel auf den Aufgabenzerlegungsmechanismus von vorab trainiertem LLM, wobei umfassendes gesundes Menschenverstandswissen für die einfache Aufgabenplanung genutzt wird, es mangelt jedoch an spezifischem Szenenverständnis. Die Verbesserung des Wissenstransfers und der Verallgemeinerung in komplexen Umgebungen ist von entscheidender Bedeutung. Ein wirklich vielseitiges Robotersystem sollte in der Lage sein, Anweisungen in natürlicher Sprache in einer Vielzahl unterschiedlicher und unsichtbarer Szenarien zu verstehen und auszuführen. Dies erfordert die Entwicklung anpassbarer und skalierbarer verkörperter Agentenarchitekturen.

(4)Langstreckenmissionsausführung. Die Ausführung eines einzelnen Befehls erfordert in der Regel, dass der Roboter eine weitreichende Aufgabe ausführt, beispielsweise einen Befehl wie „Küche putzen“, bei dem es darum geht, Gegenstände neu anzuordnen, den Boden zu fegen, Tische abzuwischen und mehr. Für den erfolgreichen Abschluss dieser Aufgaben muss der Roboter in der Lage sein, eine Reihe von Aktionen auf niedriger Ebene über einen längeren Zeitraum zu planen und auszuführen. Obwohl aktuelle Aufgabenplaner auf hoher Ebene erste Erfolge gezeigt haben, scheitern sie in verschiedenen Szenarien häufig aufgrund mangelnder Anpassung an die verkörperten Aufgaben. Die Bewältigung dieser Herausforderung erfordert die Entwicklung effizienter Planer mit starken Wahrnehmungsfähigkeiten und umfassendem Wissen über den gesunden Menschenverstand.

(5)Erkennung kausaler Zusammenhänge. Bestehende datengesteuerte verkörperte Agenten treffen Entscheidungen auf der Grundlage von Korrelationen innerhalb der Daten. Diese Modellierungsmethode kann es dem Modell jedoch nicht ermöglichen, den kausalen Zusammenhang zwischen Wissen, Verhalten und Umwelt wirklich zu verstehen, was zu voreingenommenen Strategien führt. Dies macht es schwierig, sie in realen Umgebungen interpretierbar, robust und zuverlässig zu betreiben. Daher muss verkörperte Intelligenz auf Weltwissen basieren und über autonome kausale Argumentationsfähigkeiten verfügen.

(6)Lernen Sie weiter. Bei Robotikanwendungen ist kontinuierliches Lernen für den Einsatz von Roboterlernstrategien in unterschiedlichen Umgebungen von entscheidender Bedeutung, dieser Bereich bleibt jedoch noch wenig erforscht. Während einige neuere Forschungsarbeiten Unterthemen des kontinuierlichen Lernens untersucht haben, wie z. B. inkrementelles Lernen, schnelle Bewegungsanpassung und Lernen durch Mensch-Computer-Interaktion, sind diese Lösungen normalerweise für eine einzelne Aufgabe oder Plattform konzipiert und haben das zugrunde liegende Modell noch nicht berücksichtigt. Offene Forschungsfragen und mögliche Ansätze umfassen: 1) das Mischen unterschiedlicher Anteile früherer Datenverteilungen bei der Feinabstimmung auf die neuesten Daten, um katastrophales Vergessen zu mildern, 2) die Entwicklung effizienter Prototypen aus früheren Verteilungen oder Kursen für das Inferenzlernen für neue Aufgaben, 3) die Verbesserung der Trainingsstabilität und Stichprobeneffizienz von Online-Lernalgorithmen, 4) Identifizierung prinzipieller Methoden zur nahtlosen Integration von Modellen mit großer Kapazität in Kontrollrahmen, möglicherweise durch hierarchisches Lernen oder langsam-schnelle Kontrolle, um Echtzeit-Schlussfolgerungen zu erreichen.

(7)Einheitlicher Bewertungsmaßstab. Obwohl es viele Benchmarks zur Bewertung von Low-Level-Kontrollstrategien gibt, unterscheiden sich diese häufig erheblich in ihren Bewertungsfähigkeiten. Darüber hinaus sind die in diesen Benchmarks enthaltenen Objekte und Szenen häufig auf den Simulator beschränkt. Um verkörperte Modelle vollständig zu bewerten, sind Benchmarks erforderlich, die mehrere Fähigkeiten unter Verwendung realistischer Simulatoren abdecken. Im Hinblick auf die Aufgabenplanung auf hoher Ebene bewerten viele Benchmarks die Planungsfähigkeiten anhand von Frage-und-Antwort-Aufgaben.然而,更理想的方法是綜合評估高階任務規劃器和低階控制策略的執行能力,特別是在執行長時間任務和衡量成功率方面,而不僅僅依賴對規劃器的單獨評估。這種綜合方法能夠更全面地評估具身智慧系統的能力。

總之,具身智能使智能體能夠感知、認知並與數位空間和物理世界中的各種物體互動,顯示了其在實現通用人工智慧方面的重要意義。本篇綜述全面回顧了具身機器人、具身模擬平台、具身感知、具身交互、具身智能體、虛擬到現實的機器人控制以及未來的研究方向,這對沿著促進具身智能的發展具有重要意義。

關於鵬城實驗室多智能體與具身智能研究所

隸屬鵬城實驗室的多智能體與具身智能研究所匯集了數十名機器人與機器人領域頂尖青年科學家,依托鵬城雲腦、中國算力網等自主可控AI 基礎設施,致力於打造多智能體協同與模擬訓練平台、雲端協同具身多模態大模型等通用基礎平台,賦能工業互聯網、社會治理與服務等重大應用需求。

Das obige ist der detaillierte Inhalt vonDer Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1664
14
PHP-Tutorial
1269
29
C#-Tutorial
1249
24
„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. „Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

PRO |. Warum verdienen große Modelle, die auf MoE basieren, mehr Aufmerksamkeit? PRO |. Warum verdienen große Modelle, die auf MoE basieren, mehr Aufmerksamkeit? Aug 07, 2024 pm 07:08 PM

Im Jahr 2023 entwickeln sich fast alle Bereiche der KI in beispielloser Geschwindigkeit weiter. Gleichzeitig verschiebt die KI ständig die technologischen Grenzen wichtiger Bereiche wie der verkörperten Intelligenz und des autonomen Fahrens. Wird der Status von Transformer als Mainstream-Architektur großer KI-Modelle durch den multimodalen Trend erschüttert? Warum ist die Erforschung großer Modelle auf Basis der MoE-Architektur (Mixture of Experts) zu einem neuen Trend in der Branche geworden? Können Large Vision Models (LVM) ein neuer Durchbruch im allgemeinen Sehvermögen sein? ...Aus dem PRO-Mitglieder-Newsletter 2023 dieser Website, der in den letzten sechs Monaten veröffentlicht wurde, haben wir 10 spezielle Interpretationen ausgewählt, die eine detaillierte Analyse der technologischen Trends und industriellen Veränderungen in den oben genannten Bereichen bieten, um Ihnen dabei zu helfen, Ihre Ziele in der Zukunft zu erreichen Jahr vorbereitet sein. Diese Interpretation stammt aus Week50 2023

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Die Genauigkeitsrate erreicht 60,8 %. Das auf Transformer basierende Modell zur Vorhersage der chemischen Retrosynthese wurde in der Unterzeitschrift „Nature' veröffentlicht Die Genauigkeitsrate erreicht 60,8 %. Das auf Transformer basierende Modell zur Vorhersage der chemischen Retrosynthese wurde in der Unterzeitschrift „Nature' veröffentlicht Aug 06, 2024 pm 07:34 PM

Herausgeber | KX-Retrosynthese ist eine entscheidende Aufgabe in der Arzneimittelforschung und organischen Synthese, und KI wird zunehmend eingesetzt, um den Prozess zu beschleunigen. Bestehende KI-Methoden weisen eine unbefriedigende Leistung und eine begrenzte Vielfalt auf. In der Praxis verursachen chemische Reaktionen häufig lokale molekulare Veränderungen mit erheblichen Überschneidungen zwischen Reaktanten und Produkten. Davon inspiriert schlug das Team von Hou Tingjun an der Zhejiang-Universität vor, die einstufige retrosynthetische Vorhersage als eine Aufgabe zur Bearbeitung molekularer Ketten neu zu definieren und dabei die Zielmolekülkette iterativ zu verfeinern, um Vorläuferverbindungen zu erzeugen. Außerdem wird ein bearbeitungsbasiertes retrosynthetisches Modell EditRetro vorgeschlagen, mit dem qualitativ hochwertige und vielfältige Vorhersagen erzielt werden können. Umfangreiche Experimente zeigen, dass das Modell beim Standard-Benchmark-Datensatz USPTO-50 K eine hervorragende Leistung mit einer Top-1-Genauigkeit von 60,8 % erzielt.

Gurken schälen und Kleidung an Ort und Stelle falten, der einst beliebte Rasierroboter hat sich wieder weiterentwickelt, Qiongches verkörpertes intelligentes Gehirn ist da! Gurken schälen und Kleidung an Ort und Stelle falten, der einst beliebte Rasierroboter hat sich wieder weiterentwickelt, Qiongches verkörpertes intelligentes Gehirn ist da! Jul 11, 2024 pm 12:42 PM

Am 4. Juli kündigte das Embodied-Intelligence-Unternehmen Qiongche Intelligent Noematrix (Stand Nr.: H1-A715) auf der World Artificial Intelligence Conference 2024 die Einführung von Qiongche Embodied Brain NoematrixBrain an, um die Implementierung groß angelegter Embodied-Intelligence-Modelle zu beschleunigen. In Kombination mit dem physischen Roboter demonstrierte Qiongche dem Publikum aus nächster Nähe in einer völlig offenen Umgebung „das Falten von Kleidung, die mit nur einem Wurf gefaltet werden kann“ (unendliche Freiheit der Objektmanipulation, Verständnis komplexer Objekte vergleichbar mit Menschen) und „kann sein.“ nach dem Schneiden gefaltet Bahnbrechende Technologien wie das „Ess-Gurken-Schälen“ (unregelmäßige Oberflächenbearbeitung, Präzision sogar über das menschliche Niveau hinaus) sowie praktische Anwendungen wie die Bodenreinigung zu Hause. Durch diese Echtzeitdemonstrationen und realen Interaktionen wird die Welt des verkörperten Gehirns erschlossen

See all articles