Heim Technologie-Peripheriegeräte KI DynRefer übertrifft die CVPR 2024-Methode und erreicht mehrere SOTAs bei multimodalen Erkennungsaufgaben auf regionaler Ebene

DynRefer übertrifft die CVPR 2024-Methode und erreicht mehrere SOTAs bei multimodalen Erkennungsaufgaben auf regionaler Ebene

Jun 20, 2024 pm 08:31 PM
产业 DynRefer

Um ein hochpräzises multimodales Verständnis auf regionaler Ebene zu erreichen, schlägt dieser Artikel ein dynamisches Auflösungsschema zur Simulation des menschlichen visuellen kognitiven Systems vor.

Der Autor dieses Artikels stammt vom LAMP-Labor der Universität der Chinesischen Akademie der Wissenschaften. Der Erstautor Zhao Yuzhong ist Doktorand der Universität der Chinesischen Akademie der Wissenschaften im Jahr 2023 und der Co-Autor Liu Feng ist im Jahr 2020 direkter Doktorand der Universität der Chinesischen Akademie der Wissenschaften. Ihre Hauptforschungsrichtungen sind visuelle Sprachmodelle und visuelle Objektwahrnehmung.

Einführung

DynRefer verbessert die multimodalen Erkennungsfähigkeiten auf regionaler Ebene erheblich, indem es den visuellen kognitiven Prozess des Menschen simuliert. Durch die Einführung des dynamischen Auflösungsmechanismus des menschlichen Auges kann DynRefer gleichzeitig die Aufgaben der Regionserkennung, der Erkennung von Regionsattributen und der Beschriftung auf Regionsebene mit einem einzigen Modell erledigen und bei allen oben genannten Aufgaben SOTA-Leistung erzielen. Unter ihnen wurden 115,7 CIDEr bei der Untertitelungsaufgabe auf Regionsebene des RefCOCOg-Datensatzes erreicht, was deutlich höher ist als bei den CVPR 2024-Methoden wie RegionGPT, GlaMM, Osprey, Alpha-CLIP usw.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • Papiertitel: DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
  • Papierlink: https://arxiv.org/abs/2405.16071
  • Papiercode: https ://github.com/callsys/DynRefer

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Motivation

Die multimodale Aufgabe auf Regionsebene dient der Konvertierung bestimmter Bildregionen in Sprachbeschreibungen, die den menschlichen Vorlieben entsprechen. Der Mensch verfügt über eine auflösungsadaptive Fähigkeit, wenn er multimodale Aufgaben auf regionaler Ebene erledigt, d. h. der Interessenbereich hat eine hohe Auflösung und der Nichtaufmerksamkeitsbereich eine niedrige Auflösung. Aktuelle multimodale große Sprachmodelle auf regionaler Ebene verwenden jedoch häufig ein Codierungsschema mit fester Auflösung, dh das gesamte Bild wird codiert und anschließend werden regionale Merkmale mithilfe von RoI Align extrahiert. Diesem Ansatz fehlt die Fähigkeit zur Auflösungsanpassung im visuellen kognitiven System des Menschen und er weist eine geringe Kodierungseffizienz und Fähigkeit für Bereiche von Interesse auf. Um ein hochpräzises multimodales Verständnis auf regionaler Ebene zu erreichen, schlagen wir ein dynamisches Auflösungsschema zur Simulation des menschlichen visuellen kognitiven Systems vor, wie in der folgenden Abbildung dargestellt.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

区 Abbildung 1: Vergleich traditioneller regionaler multimodaler Methoden (links) und der Dynrefer-Methode (rechts).

Methode

1. Bild mit dynamischer Auflösung simulieren (Aufbau mit mehreren Ansichten).
Da das gängige vorab trainierte visuelle Sprachmodell (CLIP) nur Eingaben mit einheitlicher Auflösung empfangen kann, simulieren wir ein Bild mit dynamischer Auflösung, indem wir mehrere Ansichten mit einheitlicher Auflösung erstellen. Das Bild hat im Referenzbereich eine hohe Auflösung und im Nicht-Referenzbereich eine niedrige Auflösung. Der spezifische Prozess ist in Abbildung 2 dargestellt. Das Originalbild x wird zugeschnitten und in mehreren Kandidatenansichten skaliert. Der Zuschneidebereich wird als
berechnet, wobei . Hier repräsentiert den Begrenzungsrahmen des Referenzbereichs, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA repräsentiert die Größe des gesamten Bildes und t repräsentiert den Interpolationskoeffizienten. Während des Trainings wählen wir zufällig n Ansichten aus Kandidatenansichten aus, um Bilder zu simulieren, die durch Blicke und schnelle Augenbewegungen erzeugt werden. Diese n Ansichten entsprechen dem Interpolationskoeffizienten t, der 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ist. Wir behalten die Ansicht fest bei, die nur den Referenzbereich enthält (d. h. 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA). Es wurde experimentell nachgewiesen, dass diese Ansicht dazu beiträgt, regionale Details zu bewahren, was für alle regionalen multimodalen Aufgaben von entscheidender Bedeutung ist. 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
                                                                                                                                                                                    oben) und Inferenz (unten).

2. Stochastische Multi-View-Einbettung. Der spezifische Prozess ist in Abbildung 3 dargestellt. Die abgetasteten n Ansichten werden über eingefrorenes CLIP in räumliche Merkmale codiert und dann vom RoI-Align-Modul verarbeitet, um Regionseinbettungen zu erhalten, d. h. 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Dies ist auf der linken Seite von Abbildung 3 dargestellt. Diese Regionseinbettungen sind aufgrund von räumlichen Fehlern, die durch Zuschneiden, Größenänderung und RoI-Ausrichtung entstehen, nicht räumlich ausgerichtet. Inspiriert durch die verformbare Faltungsoperation schlagen wir ein Ausrichtungsmodul vor, um die Verzerrung zu reduzieren, indem 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA an 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ausgerichtet wird, wobei DynRefer übertrifft die CVPR 2024-Methode und erreicht mehrere SOTAs bei multimodalen Erkennungsaufgaben auf regionaler Ebene die Regionseinbettung der Ansichtskodierung ist, die nur die Referenzregion enthält. Für jede Region, die 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA einbettet, wird sie zunächst mit 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA verkettet und dann wird eine 2D-Offset-Karte über eine Faltungsschicht berechnet. Die räumlichen Merkmale von 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA werden dann basierend auf dem 2D-Offset erneut abgetastet. Schließlich werden die ausgerichteten Regionseinbettungen entlang der Kanaldimension verkettet und durch lineare Schichten verschmolzen. Die Ausgabe wird durch ein visuelles Resampling-Modul, d. h. Q-Former, weiter komprimiert, wodurch eine regionale Darstellung des Referenzbereichs 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA des Originalbilds x (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA in Abbildung 3) extrahiert wird.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                                                                                                                                                             Abbildung 3: DynRefer-Netzwerkstruktur

3. Vision-Sprache-Ausrichtung. Die vom stochastischen Multi-View-Einbettungsmodul berechnete Regionsdarstellung 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA wird von drei Decodern 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA dekodiert, wie in Abbildung 3 (rechts) dargestellt, und jeweils von drei multimodalen Aufgaben überwacht:

i ) Bildregionsbezeichnung Generation. Wir verwenden einen einfachen, abfragebasierten Erkennungsdecoder für die Generierung von Regionsbezeichnungen. Der Decoder 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ist in Abbildung 3 (rechts) dargestellt. Der Tagging-Prozess wird abgeschlossen, indem die Konfidenz eines vordefinierten Tags berechnet wird, wobei das Tag als Abfrage, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA als Schlüssel und Wert verwendet wird. Wir analysieren Etiketten aus Ground-Truth-Untertiteln, um den Erkennungsdecoder zu überwachen. ii) Kontrastives Lernen von Region und Text. Ähnlich wie der Region-Tag-Decoder ist der Decoder 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA als abfragebasierter Erkennungsdecoder definiert. Der Decoder berechnet Ähnlichkeitswerte zwischen Untertiteln und Regionsmerkmalen und überwacht dabei den SigLIP-Verlust. iii) Sprachmodellierung. Wir verwenden ein vorab trainiertes großes Sprachmodell 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA, um die regionale Darstellung 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA in eine Sprachbeschreibung umzuwandeln.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Abbildung 4: Leistung des Dual-View-DynRefer-Modells (n=2) bei multimodalen Aufgaben auf Regionsebene. Unter verschiedenen Interpolationskoeffizienten t, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Ansicht eins ist festgelegt (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA), Ansicht zwei ist zufällig ausgewählt oder festgelegt.

4. Während des Inferenzprozesses führt das trainierte DynRefer-Modell multimodale Aufgaben an Bildern mit dynamischer Auflösung aus. Durch Anpassen der Interpolationskoeffizienten 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA der abgetasteten n Ansichten können wir eine regionale Darstellung mit dynamischen Auflösungseigenschaften erhalten. Um die Eigenschaften bei unterschiedlichen dynamischen Auflösungen zu bewerten, haben wir ein Dual-View-DynRefer-Modell (n=2) trainiert und es anhand von vier multimodalen Aufgaben ausgewertet. Wie aus der Kurve in Abbildung 4 ersichtlich ist, erzielt die Attributerkennung bessere Ergebnisse für Ansichten ohne Kontextinformationen (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA). Dies lässt sich dadurch erklären, dass für solche Aufgaben häufig detaillierte regionale Informationen erforderlich sind. Für Untertitelungsaufgaben auf Regionsebene und dichte Untertitel ist eine kontextreiche Ansicht (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) erforderlich, um die Referenzregion vollständig zu verstehen. Es ist wichtig zu beachten, dass Ansichten mit zu viel Kontext (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) die Leistung bei allen Aufgaben beeinträchtigen, weil sie zu viele Informationen einbringen, die für die Region nicht relevant sind. Wenn der Aufgabentyp bekannt ist, können wir anhand der Aufgabenmerkmale geeignete Ansichten testen. Wenn der Aufgabentyp unbekannt ist, erstellen wir zunächst eine Reihe von Kandidatenansichten unter verschiedenen Interpolationskoeffizienten t, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Aus der Kandidatenmenge werden n Ansichten über einen Greedy-Suchalgorithmus abgetastet. Die Zielfunktion der Suche ist definiert als:

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAwobei 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA den Interpolationskoeffizienten der i-ten Ansicht darstellt, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA die i-te Ansicht darstellt, pHASH (・) die Wahrnehmungsbild-Hash-Funktion darstellt und 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA das XOR darstellt Betrieb. Um die Informationen von Ansichten aus einer globalen Perspektive zu vergleichen, verwenden wir die Funktion „pHASH (・)“, um die Ansichten aus dem räumlichen Bereich in den Frequenzbereich umzuwandeln und sie anschließend in Hash-Codes zu kodieren. Für diesen Artikel 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA reduzieren wir die Gewichtung kontextreicher Ansichten, um zu vermeiden, dass zu viele redundante Informationen eingefügt werden.

Experiment

Untertitel auf Regionsebene

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Bei der Aufgabe der regionalen Untertitelgenerierung verwendet DynRefer ein kleineres Modell (4.2B vs. 7B) sowohl für RefCOCOg- als auch für VG-Datensätze Mit den METEOR- und CIDEr-Indikatoren übertrifft es viele Methoden in CVPR 2024 deutlich, wie RegionGPT, GlaMM, Alpha-CLIP und Osprey usw., was den enormen Leistungsvorteil von DynRefer demonstriert.

Dichte Untertitel

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Bei der Aufgabe der dichten Untertitelgenerierung am VG1.2-Datensatz verbesserte DynRefer den mAP im Vergleich zur vorherigen SOTA-Methode GRiT um 7,1 %.

Offene Vokabelattributerkennung

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

In der regionalen Attributerkennungsaufgabe erreichte DynRefer auch SOTA-Leistung.

Regionserkennung im offenen Wortschatz

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

In der Regionserkennungsaufgabe verbessert DynRefer 15 % mAP und 8,8 % Genauigkeit im Vergleich zu RegionGPT von CVPR 24 und ist 15,7 % mAP höher als ASM von ICLR 24.

Ablationsexperiment

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • Zeile 1-6: Zufällige dynamische Mehrfachansicht ist besser als feste Ansicht.
  • Zeile 6-10: Die Auswahl von Ansichten durch Maximierung der Informationen ist besser als die zufällige Auswahl von Ansichten.
  • Zeile 10-13: Durch Multitasking-Training können bessere regionale Darstellungen erlernt werden.

Visualisierung

Die folgenden Bilder zeigen die Inferenzergebnisse von DynRefer. DynRefer kann ein Modell verwenden, um gleichzeitig regionale Untertitel, Tags, Attribute und Kategorien auszugeben.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Das obige ist der detaillierte Inhalt vonDynRefer übertrifft die CVPR 2024-Methode und erreicht mehrere SOTAs bei multimodalen Erkennungsaufgaben auf regionaler Ebene. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1667
14
PHP-Tutorial
1273
29
C#-Tutorial
1255
24
Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Aug 09, 2024 pm 04:01 PM

Aber vielleicht kann er den alten Mann im Park nicht besiegen? Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt. Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann. Papieradresse: https://arxiv.org/pdf/2408.03906 Wie gut ist der DeepMind-Roboter beim Tischtennisspielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern: Sowohl Vorhand als auch Rückhand: Der Gegner nutzt unterschiedliche Spielstile, und auch der Roboter hält aus: Aufschlagannahme mit unterschiedlichem Spin: Allerdings scheint die Intensität des Spiels nicht so intensiv zu sein wie Der alte Mann im Park. Für Roboter, Tischtennis

Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Aug 21, 2024 pm 07:33 PM

Am 21. August fand in Peking die Weltroboterkonferenz 2024 im großen Stil statt. Die Heimrobotermarke „Yuanluobot SenseRobot“ von SenseTime hat ihre gesamte Produktfamilie vorgestellt und kürzlich den Yuanluobot AI-Schachspielroboter – Chess Professional Edition (im Folgenden als „Yuanluobot SenseRobot“ bezeichnet) herausgebracht und ist damit der weltweit erste A-Schachroboter für heim. Als drittes schachspielendes Roboterprodukt von Yuanluobo hat der neue Guoxiang-Roboter eine Vielzahl spezieller technischer Verbesserungen und Innovationen in den Bereichen KI und Maschinenbau erfahren und erstmals die Fähigkeit erkannt, dreidimensionale Schachfiguren aufzunehmen B. durch mechanische Klauen an einem Heimroboter, und führen Sie Mensch-Maschine-Funktionen aus, z. B. Schach spielen, jeder spielt Schach, Überprüfung der Notation usw.

Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Sep 02, 2024 pm 01:56 PM

Der Schulstart steht vor der Tür und nicht nur die Schüler, die bald ins neue Semester starten, sollten auf sich selbst aufpassen, sondern auch die großen KI-Modelle. Vor einiger Zeit war Reddit voller Internetnutzer, die sich darüber beschwerten, dass Claude faul werde. „Sein Niveau ist stark gesunken, es kommt oft zu Pausen und sogar die Ausgabe wird sehr kurz. In der ersten Woche der Veröffentlichung konnte es ein komplettes 4-seitiges Dokument auf einmal übersetzen, aber jetzt kann es nicht einmal eine halbe Seite ausgeben.“ !

Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Aug 22, 2024 pm 10:35 PM

Auf der World Robot Conference in Peking ist die Präsentation humanoider Roboter zum absoluten Mittelpunkt der Szene geworden. Am Stand von Stardust Intelligent führte der KI-Roboterassistent S1 drei große Darbietungen mit Hackbrett, Kampfkunst und Kalligraphie auf Ein Ausstellungsbereich, der sowohl Literatur als auch Kampfkunst umfasst, zog eine große Anzahl von Fachpublikum und Medien an. Durch das elegante Spiel auf den elastischen Saiten demonstriert der S1 eine feine Bedienung und absolute Kontrolle mit Geschwindigkeit, Kraft und Präzision. CCTV News führte einen Sonderbericht über das Nachahmungslernen und die intelligente Steuerung hinter „Kalligraphie“ durch. Firmengründer Lai Jie erklärte, dass hinter den seidenweichen Bewegungen die Hardware-Seite die beste Kraftkontrolle und die menschenähnlichsten Körperindikatoren (Geschwindigkeit, Belastung) anstrebt. usw.), aber auf der KI-Seite werden die realen Bewegungsdaten von Menschen gesammelt, sodass der Roboter stärker werden kann, wenn er auf eine schwierige Situation stößt, und lernen kann, sich schnell weiterzuentwickeln. Und agil

Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Bei dieser ACL-Konferenz haben die Teilnehmer viel gewonnen. Die sechstägige ACL2024 findet in Bangkok, Thailand, statt. ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, wenn es um akademischen Einfluss im Bereich NLP geht, und ist außerdem eine von der CCF-A empfohlene Konferenz. Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal gibt es 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards. Die Konferenz verlieh außerdem drei Resource Paper Awards (ResourceAward) und einen Social Impact Award (

Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Sep 03, 2024 pm 05:18 PM

Tiefe Integration von Vision und Roboterlernen. Wenn zwei Roboterhände reibungslos zusammenarbeiten, um Kleidung zu falten, Tee einzuschenken und Schuhe zu packen, gepaart mit dem humanoiden 1X-Roboter NEO, der in letzter Zeit für Schlagzeilen gesorgt hat, haben Sie vielleicht das Gefühl: Wir scheinen in das Zeitalter der Roboter einzutreten. Tatsächlich sind diese seidigen Bewegungen das Produkt fortschrittlicher Robotertechnologie + exquisitem Rahmendesign + multimodaler großer Modelle. Wir wissen, dass nützliche Roboter oft komplexe und exquisite Interaktionen mit der Umgebung erfordern und die Umgebung als Einschränkungen im räumlichen und zeitlichen Bereich dargestellt werden kann. Wenn Sie beispielsweise möchten, dass ein Roboter Tee einschenkt, muss der Roboter zunächst den Griff der Teekanne ergreifen und sie aufrecht halten, ohne den Tee zu verschütten, und ihn dann sanft bewegen, bis die Öffnung der Kanne mit der Öffnung der Tasse übereinstimmt , und neigen Sie dann die Teekanne in einem bestimmten Winkel. Das

Distributed Artificial Intelligence Conference DAI 2024 Call for Papers: Agent Day, Richard Sutton, der Vater des Reinforcement Learning, wird teilnehmen! Yan Shuicheng, Sergey Levine und DeepMind-Wissenschaftler werden Grundsatzreden halten Distributed Artificial Intelligence Conference DAI 2024 Call for Papers: Agent Day, Richard Sutton, der Vater des Reinforcement Learning, wird teilnehmen! Yan Shuicheng, Sergey Levine und DeepMind-Wissenschaftler werden Grundsatzreden halten Aug 22, 2024 pm 08:02 PM

Einleitung zur Konferenz Mit der rasanten Entwicklung von Wissenschaft und Technologie ist künstliche Intelligenz zu einer wichtigen Kraft bei der Förderung des sozialen Fortschritts geworden. In dieser Zeit haben wir das Glück, die Innovation und Anwendung der verteilten künstlichen Intelligenz (DAI) mitzuerleben und daran teilzuhaben. Verteilte Künstliche Intelligenz ist ein wichtiger Zweig des Gebiets der Künstlichen Intelligenz, der in den letzten Jahren immer mehr Aufmerksamkeit erregt hat. Durch die Kombination des leistungsstarken Sprachverständnisses und der Generierungsfähigkeiten großer Modelle sind plötzlich Agenten aufgetaucht, die auf natürlichen Sprachinteraktionen, Wissensbegründung, Aufgabenplanung usw. basieren. AIAgent übernimmt das große Sprachmodell und ist zu einem heißen Thema im aktuellen KI-Kreis geworden. Au

Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht Aug 08, 2024 am 07:02 AM

Heute Nachmittag begrüßte Hongmeng Zhixing offiziell neue Marken und neue Autos. Am 6. August veranstaltete Huawei die Hongmeng Smart Xingxing S9 und die Huawei-Konferenz zur Einführung neuer Produkte mit umfassendem Szenario und brachte die Panorama-Smart-Flaggschiff-Limousine Xiangjie S9, das neue M7Pro und Huawei novaFlip, MatePad Pro 12,2 Zoll, das neue MatePad Air und Huawei Bisheng mit Mit vielen neuen Smart-Produkten für alle Szenarien, darunter die Laserdrucker der X1-Serie, FreeBuds6i, WATCHFIT3 und der Smart Screen S5Pro, von Smart Travel über Smart Office bis hin zu Smart Wear baut Huawei weiterhin ein Smart-Ökosystem für alle Szenarien auf, um Verbrauchern ein Smart-Erlebnis zu bieten Internet von allem. Hongmeng Zhixing: Huawei arbeitet mit chinesischen Partnern aus der Automobilindustrie zusammen, um die Modernisierung der Smart-Car-Industrie voranzutreiben

See all articles