Heim Technologie-Peripheriegeräte KI Google trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick

Google trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick

Jan 16, 2024 am 11:24 AM
四足机器人 理论 interaktives System

Einfache und effektive Interaktion zwischen Menschen und vierbeinigen Robotern ist der Weg, leistungsfähige intelligente Assistenzroboter zu schaffen, die auf eine Zukunft hinweisen, in der Technologie unser Leben auf eine Weise verbessert, die über unsere Vorstellungskraft hinausgeht. Der Schlüssel für solche Mensch-Roboter-Interaktionssysteme besteht darin, dem vierbeinigen Roboter die Fähigkeit zu geben, auf Befehle in natürlicher Sprache zu reagieren.

Groß angelegte Sprachmodelle (LLM) haben sich in letzter Zeit rasant entwickelt und das Potenzial für eine Planung auf hoher Ebene gezeigt. Allerdings ist es für LLM immer noch schwierig, Anweisungen auf niedriger Ebene zu verstehen, wie z. B. Gelenkwinkelziele oder Motordrehmomente, insbesondere bei Robotern mit Beinen, die von Natur aus instabil sind und hochfrequente Steuersignale benötigen. Daher gehen die meisten vorhandenen Arbeiten davon aus, dass das LLM mit einer High-Level-API ausgestattet wurde, die das Verhalten des Roboters bestimmt, was die Ausdrucksfähigkeiten des Systems grundlegend einschränkt.

Im CoRL 2023-Papier „SayTap: Language to Quadrupedal Locomotion“ haben Google DeepMind und die Universität Tokio eine neue Methode vorgeschlagen, die Fußkontaktmuster als Verbindung zwischen menschlichen Anweisungen in natürlicher Sprache und Ausgabebefehlen auf niedriger Ebene verwendet. Motion-Controller-Brücke.

Google trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick

  • Papieradresse: https://arxiv.org/abs/2306.07580
  • Projektwebsite: https://saytap.github.io/

Fußkontaktmuster (Fuß Kontaktmuster) bezieht sich auf die Reihenfolge und Art und Weise, in der ein Vierbeiner bei der Bewegung seine Füße auf den Boden setzt. Darauf aufbauend entwickelten sie ein interaktives Vierbeiner-Robotersystem, das es Nutzern ermöglicht, flexibel verschiedene Bewegungsverhaltensweisen zu entwickeln. Beispielsweise können Nutzer dem Roboter mit einfacher Sprache Befehle zum Gehen, Laufen, Springen oder zum Ausführen anderer Aktionen geben.

Zu ihren Beiträgen gehören ein LLM-Prompt-Design, eine Belohnungsfunktion und eine Methode, die es dem SayTap-Controller ermöglicht, realisierbare Kontaktmusterverteilungen zu verwenden.

Untersuchungen zeigen, dass der SayTap-Controller mehrere Bewegungsmodi erreichen kann und diese Fähigkeiten auch auf echte Roboterhardware übertragen werden können.

SayTap-Methode

SayTap-Methode verwendet eine Kontaktmodusvorlage, bei der es sich um eine 4-Fuß-Berührung des Bodens handelt. Von oben nach unten gibt jede Zeile der Matrix das Fußkontaktmuster des linken Vorfußes (FL), des rechten Vorfußes (FR), des linken Rückfußes (RL) bzw. des rechten Rückfußes (RR) an. Die Steuerfrequenz von SayTap beträgt 50 Hz, was bedeutet, dass jede 0 oder 1 0,02 Sekunden dauert. Diese Studie definiert das gewünschte Fußkontaktmuster als zyklisches Schiebefenster der Größe L_w und der Form 4 x L_w. Dieses Schiebefenster extrahiert die vierfachen Erdungsflags aus der Kontaktmustervorlage, die angeben, ob der Roboterfuß zwischen den Zeiten t + 1 und t + L_w auf dem Boden oder in der Luft war. Die folgende Abbildung gibt einen Überblick über die SayTap-Methode.

Google trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick

Übersicht über die SayTap-Methode

SayTap führt gewünschte Fußkontaktmuster als neue Schnittstelle zwischen Benutzerbefehlen in natürlicher Sprache und Bewegungssteuerungen ein. Der Bewegungscontroller wird verwendet, um Hauptaufgaben auszuführen (z. B. das Einhalten einer bestimmten Geschwindigkeit) und den Roboterfuß zu bestimmten Zeiten auf den Boden zu setzen, damit das erreichte Fußkontaktmuster dem gewünschten Kontaktmuster möglichst nahe kommt.

Zu diesem Zweck verwendet der Bewegungscontroller bei jedem Zeitschritt als Eingabe das gewünschte Fußkontaktmuster sowie propriozeptive Daten (wie Gelenkpositionen und Geschwindigkeiten) und aufgabenbezogene Eingaben (wie benutzerspezifische Geschwindigkeitsbefehle). ). DeepMind nutzte Reinforcement Learning, um den Motion Controller zu trainieren und stellte ihn als tiefes neuronales Netzwerk dar. Während des Trainings des Controllers verwendeten die Forscher einen Zufallsgenerator, um die gewünschten Fußkontaktmuster abzutasten, und optimierten dann die Richtlinie, um Roboteraktionen auf niedriger Ebene auszugeben, die die gewünschten Fußkontaktmuster erreichen. Zur Testzeit wird LLM verwendet, um Benutzerbefehle in Fußkontaktmuster zu übersetzen.

Google trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick

SayTap nutzt Fußkontaktmuster als Brücke zwischen Benutzerbefehlen in natürlicher Sprache und Steuerbefehlen auf niedriger Ebene. SayTap unterstützt sowohl einfache und direkte Anweisungen (z. B. „Langsam vorwärts joggen“) als auch vage Benutzerbefehle (z. B. „Gute Nachrichten, wir machen dieses Wochenende ein Picknick!“) Durch Bewegungssteuerungen, die auf Verstärkungslernen basieren, vier Die Der Fußroboter reagiert entsprechend den Befehlen

Untersuchungen zeigen, dass LLM mithilfe entsprechend gestalteter Eingabeaufforderungen in der Lage ist, Benutzerbefehle genau in bestimmte Formate von Fußkontaktmustervorlagen abzubilden, selbst wenn die Benutzerbefehle unstrukturiert oder unscharf sind Im Training verwendeten die Forscher einen Zufallsmustergenerator, um mehrere Kontaktmustervorlagen zu generieren, die unterschiedliche Musterlängen T haben und auf dem Fuß-Boden-Kontaktverhältnis eines bestimmten Gangtyps G in einem Zyklus basieren, sodass die Bewegung Der Controller ist in der Lage, über einen weiten Bereich von Bewegungsmusterverteilungen zu lernen und bessere Generalisierungsfähigkeiten zu erreichen.

Mit einer einfachen Eingabeaufforderung von Teilkontaktmodus-Kontextbeispielen kann LLM verschiedene menschliche Befehle genau übersetzen in Kontaktmodi, auch verallgemeinernd auf Situationen, in denen es keine explizite Spezifikation gibt, wie sich der Roboter verhalten soll.

SayTap-Eingabeaufforderung ist einfach und kompakt. Enthält vier Komponenten:

(1) eine allgemeine Beschreibung die Aufgaben, die der LLM erledigen sollte;
(2) eine Gangdefinition, um den LLM daran zu erinnern, auf das Grundwissen über den Vierbeinergang und deren Zusammenhang mit Emotionen zu achten;

(4) Demonstrationsbeispiel, damit LLM Situationen im Kontext lernen kann
Die Forscher stellen außerdem fünf Geschwindigkeiten ein, damit der Roboter vorwärts oder rückwärts, schnell oder langsam fahren oder still bleiben kann

Einfache und direkte Befehle befolgen

Die Animation unten zeigt ein Beispiel für die erfolgreiche Ausführung eines direkten und klaren Befehls durch SayTap. Der Befehl ist in den drei Kontextbeispielen nicht enthalten, kann LLM jedoch dabei unterstützen, das im Vorfeld erlernte interne Wissen auszudrücken. Trainingsphase. Dabei wird das „Gangdefinitionsmodul“ in der Eingabeaufforderung verwendet, das die zweite Eingabeaufforderung im obigen Eingabeaufforderungsmodul ist.

Befolgen Sie unstrukturierte oder mehrdeutige Befehle

Google trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick

Google trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick

Aber noch interessanter ist die Fähigkeit von SayTap, mit unstrukturierten und mehrdeutigen Anweisungen umzugehen. Es bedarf nur einiger Hinweise, um bestimmte Gangarten mit allgemeinen emotionalen Eindrücken zu verknüpfen, etwa wenn der Roboter auf und ab hüpft, nachdem er etwas Aufregendes gehört hat (z. B. „Lass uns ein Picknick machen!“). Darüber hinaus kann er Szenen präzise darstellen, wenn ihm zum Beispiel mitgeteilt wird, dass der Boden sehr heiß ist, und sich so schnell bewegt, dass seine Füße den Boden so wenig wie möglich berühren.

Google trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick


Zusammenfassung und zukünftige Arbeiten

SayTap ist ein interaktives System für vierbeinige Roboter, das es Benutzern ermöglicht, flexibel verschiedene Fortbewegungsverhalten zu formulieren. SayTap führt gewünschte Fußkontaktmuster als Schnittstelle zwischen natürlicher Sprache und Low-Level-Controllern ein. Die neue Schnittstelle ist sowohl unkompliziert als auch flexibel und ermöglicht es dem Roboter, sowohl direkte Anweisungen als auch Befehle zu befolgen, die nicht explizit angeben, wie sich der Roboter verhalten soll.

DeepMind-Forscher sagten, dass eine wichtige zukünftige Forschungsrichtung darin besteht, zu testen, ob Befehle, die bestimmte Gefühle implizieren, es LLM ermöglichen können, den gewünschten Gang auszugeben. Im Gangdefinitionsmodul der oben genannten Ergebnisse lieferten die Forscher einen Satz, der glückliche Gefühle mit dem springenden Gang verknüpfte. Die Bereitstellung weiterer Informationen könnte die Fähigkeit von LLM verbessern, Befehle zu interpretieren, beispielsweise implizite Gefühle zu entschlüsseln. In experimentellen Untersuchungen ermöglichte die Verbindung zwischen glücklichen Emotionen und einem hüpfenden Gang dem Roboter, sich energisch zu verhalten und dabei vagen menschlichen Anweisungen zu folgen. Eine weitere interessante zukünftige Forschungsrichtung ist die Einführung multimodaler Eingaben wie Video und Audio. Theoretisch sind die aus diesen Signalen übersetzten Fußkontaktmuster auch für den hier neu vorgeschlagenen Workflow geeignet und dürften weitere interessante Anwendungsfälle eröffnen.

Originallink: https://blog.research.google/2023/08/saytap-lingual-to-quadrupedal.html

Das obige ist der detaillierte Inhalt vonGoogle trainiert mithilfe eines großen Modells einen Roboterhund, vage Anweisungen zu verstehen, und freut sich auf ein Picknick. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. „Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen Jul 17, 2024 pm 06:37 PM

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor Jun 22, 2024 am 07:16 AM

Autor |. Herausgeber Bai Fan, Chinesische Universität Hongkong |. Kürzlich haben die Chinesische Universität Hongkong und Zhiyuan gemeinsam die M3D-Arbeitsreihe vorgeschlagen, darunter M3D-Data, M3D-LaMed und M3D-Bench, um medizinische 3D-Bilder zu fördern aus allen Aspekten von Datensätzen, Modellen und Auswertungen. Entwicklung von Analytics. (1) M3D-Data ist derzeit der größte medizinische 3D-Bilddatensatz, einschließlich M3D-Cap (120.000 3D-Bild- und Textpaare), M3D-VQA (510.000 Frage- und Antwortpaare), M3D-Seg (150.000 3DMask), M3D-RefSeg ( 3K-Inferenzsegmentierung) insgesamt vier Unterdatensätze. (2) M3D-LaMed ist derzeit das vielseitigste medizinische multimodale 3D-Großmodell, das dies kann

See all articles