Heim Technologie-Peripheriegeräte KI Metaforscher unternehmen einen neuen Versuch der KI: Sie bringen Robotern das physische Navigieren bei, ohne Karten oder Training

Metaforscher unternehmen einen neuen Versuch der KI: Sie bringen Robotern das physische Navigieren bei, ohne Karten oder Training

Apr 09, 2023 pm 08:31 PM
人工智能 ai模型 meta

Die Abteilung für künstliche Intelligenz von Meta Platforms erklärte kürzlich, dass sie KI-Modellen mithilfe einer kleinen Menge an Trainingsdaten beibringen, wie man das Laufen in der physischen Welt lernt, und dabei schnelle Fortschritte gemacht haben.

Diese Forschung kann die Zeit, in der KI-Modelle visuelle Navigationsfähigkeiten erwerben, erheblich verkürzen. Bisher war zum Erreichen solcher Ziele wiederholtes „Reinforcement Learning“ unter Verwendung großer Datensätze erforderlich.

Meta-KI-Forscher sagten, dass diese Erforschung der visuellen KI-Navigation erhebliche Auswirkungen auf die virtuelle Welt haben wird. Die Grundidee des Projekts ist nicht kompliziert: der KI dabei zu helfen, sich genauso wie Menschen durch den physischen Raum zu bewegen, einfach durch Beobachtung und Erkundung.

Die KI-Abteilung von Meta erklärte: „Wenn wir beispielsweise möchten, dass uns eine AR-Brille beim Auffinden von Schlüsseln hilft, müssen wir einen Weg finden, der KI dabei zu helfen, den Aufbau unbekannter und sich ständig ändernder Umgebungen zu verstehen Da sich die Menschen auf hochpräzise voreingestellte Karten verlassen, die viel Rechenleistung verbrauchen, können sie sich problemlos um die Ecken des Couchtisches bewegen, ohne dass es zu Kollisionen kommt Im Fall der „verkörperten KI“ wird das KI-System durch den interaktiven Mechanismus in der 3D-Simulation trainiert. In diesem Bereich hat Meta nach eigenen Angaben ein vielversprechendes „Punktziel-Navigationsmodell“ etabliert, das in neuen Umgebungen ohne Karten oder GPS-Sensoren navigieren kann.

Das Modell nutzt eine Technologie namens visuelle Messung, die es der KI ermöglicht, ihre aktuelle Position anhand visueller Eingaben zu verfolgen. Meta sagte, dass diese Datenerweiterungstechnologie schnell effektive neuronale Modelle trainieren kann, ohne dass eine manuelle Datenanmerkung erforderlich ist. Meta erwähnte auch, dass sie Tests auf ihrer eigenen Habitat 2.0-KI-Trainingsplattform (die die Benchmark-Aufgabe „Realistic PointNav“ verwendet, um Simulationen im virtuellen Raum durchzuführen) mit einer Erfolgsquote von 94 % abgeschlossen haben.

Metaforscher unternehmen einen neuen Versuch der KI: Sie bringen Robotern das physische Navigieren bei, ohne Karten oder TrainingMeta erklärte: „Obwohl unsere Methode nicht alle Szenarien im Datensatz vollständig gelöst hat, hat diese Forschung zunächst gezeigt, dass die Fähigkeit, in realen Umgebungen zu navigieren, nicht unbedingt eine explizite Zuordnung erfordert.“

In Um das KI-Navigationstraining weiter zu verbessern, ohne auf Karten angewiesen zu sein, hat Meta einen Trainingsdatensatz namens Habitat-Web erstellt, der mehr als 100.000 verschiedene von Menschen demonstrierte Objekt-Ziel-Navigationsmethoden enthält. Der Habitat-Simulator, der in einem Webbrowser läuft, kann problemlos eine Verbindung zum Mechanical Turk-Dienst von Amazon.com herstellen, sodass Benutzer virtuelle Roboter sicher aus der Ferne bedienen können. Meta sagte, die resultierenden Daten würden als Schulungsmaterial verwendet, um KI-Agenten dabei zu helfen, „Ergebnisse auf dem neuesten Stand der Technik“ zu erzielen. Das Scannen des Raums, um die gesamten räumlichen Eigenschaften zu verstehen, das Überprüfen, ob sich in Ecken Hindernisse befinden usw. sind alles effiziente Verhaltensweisen bei der Objektsuche, die KI von Menschen lernen kann.

Darüber hinaus hat das Meta AI-Team auch einen sogenannten „Plug-and-Play“-Modulansatz entwickelt, der Robotern helfen kann, durch ein einzigartiges „Zero-Sample-Experience-Learning-Framework“ eine Generalisierung in einer Vielzahl von semantischen Navigationsaufgaben und Zielmodi zu erreichen. . Auf diese Weise können KI-Agenten weiterhin grundlegende Navigationsfähigkeiten erwerben, ohne dass ressourcenintensive Karten und Schulungen erforderlich sind, und können verschiedene Aufgaben in einer 3D-Umgebung ohne zusätzliche Anpassungen ausführen.

Metaforscher unternehmen einen neuen Versuch der KI: Sie bringen Robotern das physische Navigieren bei, ohne Karten oder TrainingMeta erklärt, dass diese Agenten während des Trainings kontinuierlich nach Bildzielen suchen. Sie erhalten ein Foto, das an einem zufälligen Ort in der Umgebung aufgenommen wurde, und versuchen dann mithilfe der autonomen Navigation, den Ort zu finden. Meta-Forscher sagten: „Unsere Methode reduziert die Trainingsdaten auf 1/12,5 und die Erfolgsquote ist 14 % höher als die neueste Transfer-Learning-Technologie, sagte Holger Mueller, Analyst bei Constellation Research, in einem Interview mit der neuesten Meta-Methode.“ Es wird erwartet, dass die Entwicklung eine Schlüsselrolle in seinen Metaverse-Entwicklungsplänen spielt. Er glaubt, dass die KI in der Lage sein muss, diesen neuen Raum zu verstehen, wenn die virtuelle Welt in Zukunft zur Norm werden kann, und die Kosten für das Verständnis sollten nicht zu hoch sein.

Mueller fügte hinzu: „Die Fähigkeit der KI, die physische Welt zu verstehen, muss durch softwarebasierte Methoden erweitert werden. Meta geht derzeit diesen Weg und hat Fortschritte bei der verkörperten KI gemacht, indem es ein System entwickelt, das seine Umgebung ohne Schulung autonom verstehen kann. Ich freue mich darauf, erste praktische Anwendungen davon zu sehen.“

Diese realen Anwendungsfälle sind möglicherweise nicht mehr weit von uns entfernt. Meta sagte, der nächste Schritt bestehe darin, diese Ergebnisse von der Navigation auf den mobilen Betrieb zu übertragen und KI-Agenten zu entwickeln, die bestimmte Aufgaben ausführen können (z. B. die Identifizierung einer Brieftasche und deren Rückgabe an ihren Besitzer).

Das obige ist der detaillierte Inhalt vonMetaforscher unternehmen einen neuen Versuch der KI: Sie bringen Robotern das physische Navigieren bei, ohne Karten oder Training. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Bytedance Cutting führt SVIP-Supermitgliedschaft ein: 499 Yuan für ein fortlaufendes Jahresabonnement, das eine Vielzahl von KI-Funktionen bietet Bytedance Cutting führt SVIP-Supermitgliedschaft ein: 499 Yuan für ein fortlaufendes Jahresabonnement, das eine Vielzahl von KI-Funktionen bietet Jun 28, 2024 am 03:51 AM

Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grundsätzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente Übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich beträgt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement beträgt 59 Yuan pro Monat und das fortlaufende Jahresabonnement beträgt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erklärte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

Kontexterweiterter KI-Codierungsassistent mit Rag und Sem-Rag Kontexterweiterter KI-Codierungsassistent mit Rag und Sem-Rag Jun 10, 2024 am 11:08 AM

Verbessern Sie die Produktivität, Effizienz und Genauigkeit der Entwickler, indem Sie eine abrufgestützte Generierung und ein semantisches Gedächtnis in KI-Codierungsassistenten integrieren. Übersetzt aus EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, Autor JanakiramMSV. Obwohl grundlegende KI-Programmierassistenten natürlich hilfreich sind, können sie oft nicht die relevantesten und korrektesten Codevorschläge liefern, da sie auf einem allgemeinen Verständnis der Softwaresprache und den gängigsten Mustern beim Schreiben von Software basieren. Der von diesen Coding-Assistenten generierte Code eignet sich zur Lösung der von ihnen zu lösenden Probleme, entspricht jedoch häufig nicht den Coding-Standards, -Konventionen und -Stilen der einzelnen Teams. Dabei entstehen häufig Vorschläge, die geändert oder verfeinert werden müssen, damit der Code in die Anwendung übernommen wird

Kann LLM durch Feinabstimmung wirklich neue Dinge lernen: Die Einführung neuen Wissens kann dazu führen, dass das Modell mehr Halluzinationen hervorruft Kann LLM durch Feinabstimmung wirklich neue Dinge lernen: Die Einführung neuen Wissens kann dazu führen, dass das Modell mehr Halluzinationen hervorruft Jun 11, 2024 pm 03:57 PM

Large Language Models (LLMs) werden auf riesigen Textdatenbanken trainiert und erwerben dort große Mengen an realem Wissen. Dieses Wissen wird in ihre Parameter eingebettet und kann dann bei Bedarf genutzt werden. Das Wissen über diese Modelle wird am Ende der Ausbildung „verdinglicht“. Am Ende des Vortrainings hört das Modell tatsächlich auf zu lernen. Richten Sie das Modell aus oder verfeinern Sie es, um zu erfahren, wie Sie dieses Wissen nutzen und natürlicher auf Benutzerfragen reagieren können. Aber manchmal reicht Modellwissen nicht aus, und obwohl das Modell über RAG auf externe Inhalte zugreifen kann, wird es als vorteilhaft angesehen, das Modell durch Feinabstimmung an neue Domänen anzupassen. Diese Feinabstimmung erfolgt mithilfe von Eingaben menschlicher Annotatoren oder anderer LLM-Kreationen, wobei das Modell auf zusätzliches Wissen aus der realen Welt trifft und dieses integriert

Das neue erschwingliche Meta Quest 3S VR-Headset erscheint bei FCC, was auf eine baldige Markteinführung hindeutet Das neue erschwingliche Meta Quest 3S VR-Headset erscheint bei FCC, was auf eine baldige Markteinführung hindeutet Sep 04, 2024 am 06:51 AM

Die Meta Connect 2024-Veranstaltung findet vom 25. bis 26. September statt. Bei dieser Veranstaltung wird das Unternehmen voraussichtlich ein neues erschwingliches Virtual-Reality-Headset vorstellen. Gerüchten zufolge handelt es sich bei dem VR-Headset um das Meta Quest 3S, das offenbar auf der FCC-Liste aufgetaucht ist. Dieser Vorschlag

Das erste Open-Source-Modell, das das GPT4o-Niveau übertrifft! Llama 3.1 durchgesickert: 405 Milliarden Parameter, Download-Links und Modellkarten sind verfügbar Das erste Open-Source-Modell, das das GPT4o-Niveau übertrifft! Llama 3.1 durchgesickert: 405 Milliarden Parameter, Download-Links und Modellkarten sind verfügbar Jul 23, 2024 pm 08:51 PM

Machen Sie Ihre GPU bereit! Llama3.1 ist endlich erschienen, aber die Quelle ist nicht offiziell von Meta. Heute gingen die durchgesickerten Nachrichten über das neue Llama-Großmodell auf Reddit viral. Zusätzlich zum Basismodell enthält es auch Benchmark-Ergebnisse von 8B, 70B und den maximalen Parameter von 405B. Die folgende Abbildung zeigt die Vergleichsergebnisse jeder Version von Llama3.1 mit OpenAIGPT-4o und Llama38B/70B. Es ist ersichtlich, dass selbst die 70B-Version in mehreren Benchmarks GPT-4o übertrifft. Bildquelle: https://x.com/mattshumer_/status/1815444612414087294 Offensichtlich Version 3.1 von 8B und 70

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Das stärkste Modell Llama 3.1 405B wird offiziell veröffentlicht, Zuckerberg: Open Source leitet eine neue Ära ein Das stärkste Modell Llama 3.1 405B wird offiziell veröffentlicht, Zuckerberg: Open Source leitet eine neue Ära ein Jul 24, 2024 pm 08:23 PM

Gerade jetzt wurde das lang erwartete Llama 3.1 offiziell veröffentlicht! Meta gab offiziell bekannt, dass „Open Source eine neue Ära einläutet“. Im offiziellen Blog sagte Meta: „Bis heute sind große Open-Source-Sprachmodelle hinsichtlich Funktionalität und Leistung meist hinter geschlossenen Modellen zurückgeblieben. Jetzt läuten wir eine neue Ära ein, die von Open Source angeführt wird. Wir haben MetaLlama3.1405B öffentlich veröffentlicht.“ , von dem wir glauben, dass es sich um das größte und leistungsfähigste Open-Source-Basismodell der Welt handelt, die Gesamtzahl der Downloads aller Llama-Versionen hat gerade 300 Millionen Mal überschritten, und wir haben gerade erst damit begonnen, eine zu schreiben Artikel. Langer Artikel „OpenSourceAIIsthePathForward“,

SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen Jul 17, 2024 pm 06:37 PM

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

See all articles