ICLR 2024 Mündlich: Rauschkorrelationslernen in langen Videos, Einzelkartentraining dauert nur 1 Tag-KI-php.cn

Heim

Technologie-Peripheriegeräte

ICLR 2024 Mündlich: Rauschkorrelationslernen in langen Videos, Einzelkartentraining dauert nur 1 Tag

王林

Mar 05, 2024 pm 10:58 PM

产业 Lernen der Videodarstellung

In einem Vortrag auf dem Weltwirtschaftsforum 2024 schlug Turing-Preisträger Yann LeCun vor, dass Modelle, die zur Verarbeitung von Videos verwendet werden, lernen sollten, Vorhersagen in einem abstrakten Darstellungsraum und nicht in einem bestimmten Pixelraum zu treffen [1]. Das multimodale Lernen der Videodarstellung mit Hilfe von Textinformationen kann Funktionen extrahieren, die für das Videoverständnis oder die Inhaltsgenerierung von Vorteil sind, was eine Schlüsseltechnologie zur Erleichterung dieses Prozesses darstellt.

Das weit verbreitete Rauschkorrelationsphänomen zwischen aktuellen Videos und Textbeschreibungen behindert jedoch das Erlernen der Videodarstellung erheblich. Daher schlagen Forscher in diesem Artikel eine robuste Lernlösung für lange Videos vor, die auf der Theorie der optimalen Übertragung basiert, um dieser Herausforderung zu begegnen. Dieses Papier wurde von ICLR 2024, der führenden Konferenz für maschinelles Lernen, für Oral angenommen.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

Papiertitel: Multi-granularity Correspondence Learning from Long-term Noisy Videos
Papieradresse: https://openreview.net/pdf?id=9Cu8MRmhq2
Projektadresse: https: //lin-yijie.github.io/projects/Norton
Codeadresse: https://github.com/XLearning-SCU/2024-ICLR-Norton

Hintergrund und Herausforderungen

Das Lernen von Videodarstellungen ist eines der heißesten Probleme in der multimodalen Forschung. Ein umfangreiches Vortraining in Videosprache hat bei einer Vielzahl von Videoverständnisaufgaben bemerkenswerte Ergebnisse erzielt, z. B. beim Abrufen von Videos, bei der Beantwortung visueller Fragen, bei der Segmentierung und Lokalisierung von Segmenten usw. Derzeit konzentrieren sich die meisten Vorbereitungsarbeiten zur Videosprache hauptsächlich auf das Segmentverständnis kurzer Videos und ignorieren die langfristigen Beziehungen und Abhängigkeiten, die in langen Videos bestehen.

Wie in Abbildung 1 unten dargestellt, besteht die Hauptschwierigkeit beim Lernen langer Videos darin, die zeitliche Dynamik im Video zu kodieren. Aktuelle Lösungen konzentrieren sich hauptsächlich auf die Entwicklung maßgeschneiderter Videonetzwerk-Encoder zur Erfassung langfristiger Abhängigkeiten [2]. ist aber normalerweise mit einem großen Ressourcenaufwand verbunden.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

^{Abbildung 1: Beispiel für lange Videodaten [2]. Das Video enthält eine komplexe Handlung und eine reichhaltige zeitliche Dynamik. Jeder Satz kann nur ein kurzes Fragment beschreiben, und das Verständnis des gesamten Videos erfordert die Fähigkeit zur langfristigen Korrelationsbegründung.}

Da lange Videos normalerweise die automatische Spracherkennung (ASR) verwenden, um entsprechende Textuntertitel zu erhalten, kann der dem gesamten Video entsprechende Textabsatz (Absatz) basierend auf dem ASR-Textzeitstempel in mehrere kurze Texttitel unterteilt werden ( Untertitel) und ein langes Video (Video) kann entsprechend in mehrere Videoclips (Clip) unterteilt werden. Die Strategie der späten Fusion oder Ausrichtung von Videoclips und Titeln ist effizienter als die direkte Codierung des gesamten Videos und eine optimale Lösung für das langfristige Lernen zeitlicher Assoziationen.

Allerdings besteht verrauschte Korrespondenz [3-4], NC) zwischen Videoclips und Textsätzen weithin, d. Wie in Abbildung 2 unten dargestellt, treten zwischen Video und Text Probleme mit der Korrelation von Rauschen mit mehreren Granularitäten auf.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

^{Abbildung 2: Rauschkorrelation mit mehreren Granularitäten. In diesem Beispiel wird der Videoinhalt basierend auf dem Texttitel in 6 Teile unterteilt. (Links) Eine grüne Zeitleiste zeigt an, dass der Text an den Inhalt des Videos angepasst werden kann, während eine rote Zeitleiste angibt, dass der Text nicht an den Inhalt des gesamten Videos angepasst werden kann. Der grüne Text in t5 gibt den Teil an, der sich auf den Videoinhalt v5 bezieht. (Rechtes Bild) Die gepunktete Linie zeigt die ursprünglich angegebene Ausrichtungsbeziehung an, die rote Linie zeigt die falsche Ausrichtungsbeziehung in der ursprünglichen Ausrichtung an und die grüne zeigt die tatsächliche Ausrichtungsbeziehung an. Die durchgezogene Linie stellt das Ergebnis der Neuausrichtung durch den Dynamic Time Wraping-Algorithmus dar, der auch die Herausforderung der Rauschkorrelation nicht gut bewältigt.}

Grobkörniger NC (zwischen Clip-Beschriftung). Grobkörniges NC umfasst zwei Kategorien: asynchron (Asynchron) und irrelevant (Irrelevant). Der Unterschied besteht darin, ob der Videoclip oder Titel einem vorhandenen Titel oder Videoclip entsprechen kann. „Asynchron“ bezieht sich auf die zeitliche Fehlausrichtung zwischen dem Videoclip und dem Titel, z. B. t1 in Abbildung 2. Dadurch kommt es zu einer Diskrepanz zwischen der Abfolge von Aussagen und Handlungen, wie der Erzähler vor und nach der tatsächlichen Ausführung der Handlungen erklärt. „Irrelevant“ bezieht sich auf bedeutungslose Titel, die nicht den Videoclips zugeordnet werden können (z. B. t2 und t6), oder auf irrelevante Videoclips. Laut relevanter Forschung der Oxford Visual Geometry Group [5] sind nur etwa 30 % der Videoclips und Titel im HowTo100M-Datensatz visuell ausgerichtet und nur 15 % sind ursprünglich ausgerichtet
Feinkörniges NC ( Rahmenwort) . Bei einem Videoclip ist möglicherweise nur ein Teil der Textbeschreibung relevant. In Abbildung 2 steht der Titel t5 „Zucker darüber streuen“ in engem Zusammenhang mit dem visuellen Inhalt v5, die Aktion „Beobachten Sie, wie sich die Glasur ablöst“ hat jedoch keinen Bezug zum visuellen Inhalt. Irrelevante Wörter oder Videobilder können die Extraktion wichtiger Informationen behindern und die Ausrichtung zwischen Segmenten und Titeln beeinträchtigen.

Methode

Dieses Papier schlägt eine geräuschrobuste Timing Optimal Transport (Norton) vor, durch Video-Absatz-Ebenen-Vergleichslernen und Segment-Titel-Ebenen-Vergleich Lernen, Lernvideo Darstellungen aus mehreren Granularitäten im Post-Fusion-Verfahren, wodurch der Trainingsaufwand erheblich gespart wird.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

1) Video - Absatzvergleich. Wie in Abbildung 3 dargestellt, verwenden Forscher eine Fein-zu-Grob-Strategie, um Assoziationslernen mit mehreren Granularitäten durchzuführen. Zunächst wird die Rahmen-Wort-Korrelation verwendet, um die Segment-Titel-Korrelation zu erhalten, und eine weitere Aggregation wird verwendet, um die Video-Absatz-Korrelation zu erhalten, und schließlich wird die Langzeitkorrelation durch kontrastives Lernen auf Videoebene erfasst. Für die Multigranularitäts-Rauschenkorrelationsherausforderung lautet die spezifische Antwort wie folgt:

für feinkörniges NC. Die Forscher verwenden die Log-Summe-Exp-Näherung als Soft-Maximum-Operator, um Schlüsselwörter und Schlüsselbilder in der Frame-Wort- und Wort-Frame-Ausrichtung zu identifizieren, die Extraktion wichtiger Informationen auf feinkörnige interaktive Weise zu realisieren und Ähnlichkeiten zwischen Segmenttiteln zu akkumulieren. Sex.
Für grobkörnige asynchrone NC. Als Abstandsmaß zwischen Videoclips und Titeln verwendeten die Forscher die optimale Übertragungsentfernung. Gegeben ist eine Videoclip-Texttitel-Ähnlichkeitsmatrix , wobei die Anzahl der Clips und Titel darstellt. Das optimale Übertragungsziel besteht darin, die Gesamtausrichtungsähnlichkeit zu maximieren, die natürlich asynchrone oder eins-zu-viele-Timings verarbeiten kann (z. B. t3 und). v4, v5 entsprechend) komplexe Ausrichtungssituation.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

wobei

eine gleichmäßige Verteilung ist, die jedem Segment und Titel das gleiche Gewicht verleiht, ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

der Übertragungszuweisungs- oder Neuausrichtungsmoment, der durch den Sinkhorn-Algorithmus gelöst werden kann.

Orientiert an grobkörniger irrelevanter NC. Inspiriert von SuperGlue [6] beim Feature-Matching entwerfen wir einen adaptiven, ausrichtbaren Hinweis-Bucket, um zu versuchen, irrelevante Segmente und Titel zu filtern. Der Prompt-Bucket ist ein Vektor mit demselben Wert in einer Zeile und einer Spalte, gespleißt auf der Ähnlichkeitsmatrix , und sein Wert stellt die Ähnlichkeitsschwelle dar, ob er ausgerichtet werden kann. Tip Buckets lassen sich nahtlos in den Optimal Transport Sinkhorn Solver integrieren.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

Die Messung des Sequenzabstands durch optimale Übertragung statt der direkten Modellierung langer Videos kann den Rechenaufwand deutlich reduzieren. Die endgültige Funktion zum Verlust von Videoabsätzen lautet wie folgt, wobei ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

die Ähnlichkeitsmatrix zwischen dem ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

ten langen Video und dem ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

ten Textabsatz darstellt.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

2) Snippet - Titelvergleich . Dieser Verlust stellt die Genauigkeit der Segment-zu-Titel-Ausrichtung bei Video-Absatzvergleichen sicher. Da selbstüberwachtes kontrastives Lernen fälschlicherweise semantisch ähnliche Proben als negative Proben optimiert, nutzen wir die optimale Übertragung, um potenzielle falsch negative Proben zu identifizieren und zu korrigieren:

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

wobei

alle Videoclips und Titel in der Trainingsstapelnummer, die Identität, darstellt Matrix ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

stellt das Standardausrichtungsziel im Kreuzentropieverlust des kontrastiven Lernens dar, ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

stellt das Neuausrichtungsziel nach Einbeziehung des optimalen Übertragungskorrekturziels ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

dar und

ist der Gewichtungskoeffizient.

Experiment

Dieser Artikel zielt darauf ab, die Rauschkorrelation zu überwinden, um die Fähigkeit des Modells zu verbessern, lange Videos zu verstehen. Wir haben es durch spezifische Aufgaben wie Videoabruf, Frage und Antwort sowie Aktionssegmentierung überprüft. Einige experimentelle Ergebnisse sind wie folgt.

1) Langes Video abrufen

Das Ziel dieser Aufgabe besteht darin, das entsprechende lange Video anhand eines Textabsatzes abzurufen. Anhand des YouCookII-Datensatzes testeten die Forscher zwei Szenarien: Beibehaltung des Hintergrunds und Entfernung des Hintergrunds, je nachdem, ob textunabhängige Videoclips beibehalten werden sollen. Sie verwenden drei Ähnlichkeitsmesskriterien: Caption Average, DTW und OTAM. „Caption Average“ findet für jeden Titel im Textabsatz einen optimalen Videoclip und ruft schließlich das lange Video mit der größten Anzahl an Übereinstimmungen ab. DTW und OTAM akkumulieren den Abstand zwischen Video- und Textabsätzen in chronologischer Reihenfolge. Die Ergebnisse sind in den Tabellen 1 und 2 unten aufgeführt.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

^{Tabelle 1, 2 Vergleich der Leistung beim Abruf langer Videos im YouCookII-Datensatz.}

2) Rauschkorrelations-Robustheitsanalyse

Videos in HowTo100M, durchgeführt von der Oxford Visual Geometry Group. Manuelle Neuannotation wurde durchgeführt, um jeden Texttitel mit dem richtigen Zeitstempel neu zu kommentieren. Der resultierende HTM-Align-Datensatz [5] enthält 80 Videos und 49.000 Texte. Der Videoabruf dieses Datensatzes überprüft hauptsächlich, ob das Modell die Rauschkorrelation überpasst. Die Ergebnisse sind in Tabelle 9 unten aufgeführt.

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

^{[3][4]——Eingehende Fortsetzung der Dateninkongruenz/Fehlerkorrelation, Untersuchung des Multigranularitäts-Rauschenkorrelationsproblems, mit dem man konfrontiert ist Durch das multimodale Video-Text-Vortraining kann die vorgeschlagene Lernmethode für lange Videos mit geringerem Ressourcenaufwand auf eine breitere Palette von Videodaten ausgeweitet werden.}

Mit Blick auf die Zukunft können Forscher die Korrelation zwischen mehreren Modalitäten weiter untersuchen. Beispielsweise können Videos häufig visuelle, Text- und Audiosignale enthalten. Sie können versuchen, externe große Sprachmodelle (LLM) oder multimodale Modelle zu kombinieren (BLIP). -2) Den Textkorpus bereinigen und neu organisieren und die Möglichkeit untersuchen, Rauschen als positiven Anreiz für das Modelltraining zu nutzen, anstatt nur die negativen Auswirkungen von Rauschen zu unterdrücken.

Referenzen:

1. Diese Seite, „Yann LeCun: Generative Modelle eignen sich nicht für die Verarbeitung von Videos, KI muss Vorhersagen im abstrakten Raum treffen“, 23.01.2024.

2. Sun, Y., Xue, H., Song, R., Liu, B., Yang, H. & Fu, J. (2022). mit multimodalem zeitlichem Kontrastlernen, 35, 38032-38045.

3. Huang, Z., Niu, G., Liu, X., Ding, W., Xiao, ., Wu, H., & Peng, , Yang, M., Yu, J., Hu, P., Zhang, C., & Peng, X. (2023). Tagungsband der internationalen IEEE/CVF-Konferenz zum Thema Computer Vision der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (S. 2906–2916). . Superglue: Learning Feature Matching mit graphischen neuronalen Netzen. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (S. 4938-4947).

Das obige ist der detaillierte Inhalt vonICLR 2024 Mündlich: Rauschkorrelationslernen in langen Videos, Einzelkartentraining dauert nur 1 Tag. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7467

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Aug 09, 2024 pm 04:01 PM

Aber vielleicht kann er den alten Mann im Park nicht besiegen? Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt. Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann. Papieradresse: https://arxiv.org/pdf/2408.03906 Wie gut ist der DeepMind-Roboter beim Tischtennisspielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern: Sowohl Vorhand als auch Rückhand: Der Gegner nutzt unterschiedliche Spielstile, und auch der Roboter hält aus: Aufschlagannahme mit unterschiedlichem Spin: Allerdings scheint die Intensität des Spiels nicht so intensiv zu sein wie Der alte Mann im Park. Für Roboter, Tischtennis

Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Aug 21, 2024 pm 07:33 PM

Am 21. August fand in Peking die Weltroboterkonferenz 2024 im großen Stil statt. Die Heimrobotermarke „Yuanluobot SenseRobot“ von SenseTime hat ihre gesamte Produktfamilie vorgestellt und kürzlich den Yuanluobot AI-Schachspielroboter – Chess Professional Edition (im Folgenden als „Yuanluobot SenseRobot“ bezeichnet) herausgebracht und ist damit der weltweit erste A-Schachroboter für heim. Als drittes schachspielendes Roboterprodukt von Yuanluobo hat der neue Guoxiang-Roboter eine Vielzahl spezieller technischer Verbesserungen und Innovationen in den Bereichen KI und Maschinenbau erfahren und erstmals die Fähigkeit erkannt, dreidimensionale Schachfiguren aufzunehmen B. durch mechanische Klauen an einem Heimroboter, und führen Sie Mensch-Maschine-Funktionen aus, z. B. Schach spielen, jeder spielt Schach, Überprüfung der Notation usw.

Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Sep 02, 2024 pm 01:56 PM

Der Schulstart steht vor der Tür und nicht nur die Schüler, die bald ins neue Semester starten, sollten auf sich selbst aufpassen, sondern auch die großen KI-Modelle. Vor einiger Zeit war Reddit voller Internetnutzer, die sich darüber beschwerten, dass Claude faul werde. „Sein Niveau ist stark gesunken, es kommt oft zu Pausen und sogar die Ausgabe wird sehr kurz. In der ersten Woche der Veröffentlichung konnte es ein komplettes 4-seitiges Dokument auf einmal übersetzen, aber jetzt kann es nicht einmal eine halbe Seite ausgeben.“ !

Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Aug 22, 2024 pm 10:35 PM

Auf der World Robot Conference in Peking ist die Präsentation humanoider Roboter zum absoluten Mittelpunkt der Szene geworden. Am Stand von Stardust Intelligent führte der KI-Roboterassistent S1 drei große Darbietungen mit Hackbrett, Kampfkunst und Kalligraphie auf Ein Ausstellungsbereich, der sowohl Literatur als auch Kampfkunst umfasst, zog eine große Anzahl von Fachpublikum und Medien an. Durch das elegante Spiel auf den elastischen Saiten demonstriert der S1 eine feine Bedienung und absolute Kontrolle mit Geschwindigkeit, Kraft und Präzision. CCTV News führte einen Sonderbericht über das Nachahmungslernen und die intelligente Steuerung hinter „Kalligraphie“ durch. Firmengründer Lai Jie erklärte, dass hinter den seidenweichen Bewegungen die Hardware-Seite die beste Kraftkontrolle und die menschenähnlichsten Körperindikatoren (Geschwindigkeit, Belastung) anstrebt. usw.), aber auf der KI-Seite werden die realen Bewegungsdaten von Menschen gesammelt, sodass der Roboter stärker werden kann, wenn er auf eine schwierige Situation stößt, und lernen kann, sich schnell weiterzuentwickeln. Und agil

Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Bei dieser ACL-Konferenz haben die Teilnehmer viel gewonnen. Die sechstägige ACL2024 findet in Bangkok, Thailand, statt. ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, wenn es um akademischen Einfluss im Bereich NLP geht, und ist außerdem eine von der CCF-A empfohlene Konferenz. Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal gibt es 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards. Die Konferenz verlieh außerdem drei Resource Paper Awards (ResourceAward) und einen Social Impact Award (

Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht Aug 08, 2024 am 07:02 AM

Heute Nachmittag begrüßte Hongmeng Zhixing offiziell neue Marken und neue Autos. Am 6. August veranstaltete Huawei die Hongmeng Smart Xingxing S9 und die Huawei-Konferenz zur Einführung neuer Produkte mit umfassendem Szenario und brachte die Panorama-Smart-Flaggschiff-Limousine Xiangjie S9, das neue M7Pro und Huawei novaFlip, MatePad Pro 12,2 Zoll, das neue MatePad Air und Huawei Bisheng mit Mit vielen neuen Smart-Produkten für alle Szenarien, darunter die Laserdrucker der X1-Serie, FreeBuds6i, WATCHFIT3 und der Smart Screen S5Pro, von Smart Travel über Smart Office bis hin zu Smart Wear baut Huawei weiterhin ein Smart-Ökosystem für alle Szenarien auf, um Verbrauchern ein Smart-Erlebnis zu bieten Internet von allem. Hongmeng Zhixing: Huawei arbeitet mit chinesischen Partnern aus der Automobilindustrie zusammen, um die Modernisierung der Smart-Car-Industrie voranzutreiben

Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Sep 03, 2024 pm 05:18 PM

Tiefe Integration von Vision und Roboterlernen. Wenn zwei Roboterhände reibungslos zusammenarbeiten, um Kleidung zu falten, Tee einzuschenken und Schuhe zu packen, gepaart mit dem humanoiden 1X-Roboter NEO, der in letzter Zeit für Schlagzeilen gesorgt hat, haben Sie vielleicht das Gefühl: Wir scheinen in das Zeitalter der Roboter einzutreten. Tatsächlich sind diese seidigen Bewegungen das Produkt fortschrittlicher Robotertechnologie + exquisitem Rahmendesign + multimodaler großer Modelle. Wir wissen, dass nützliche Roboter oft komplexe und exquisite Interaktionen mit der Umgebung erfordern und die Umgebung als Einschränkungen im räumlichen und zeitlichen Bereich dargestellt werden kann. Wenn Sie beispielsweise möchten, dass ein Roboter Tee einschenkt, muss der Roboter zunächst den Griff der Teekanne ergreifen und sie aufrecht halten, ohne den Tee zu verschütten, und ihn dann sanft bewegen, bis die Öffnung der Kanne mit der Öffnung der Tasse übereinstimmt , und neigen Sie dann die Teekanne in einem bestimmten Winkel. Das

Getestet 7 Artefakte zur Videogenerierung auf „Sora-Ebene'. Wer hat die Fähigkeit, den „Eisernen Thron' zu besteigen? Aug 05, 2024 pm 07:19 PM

Herausgeber des Machine Power Report: Yang Wen Wer kann der King of AI-Videokreis werden? In der amerikanischen Fernsehserie „Game of Thrones“ gibt es einen „Eisernen Thron“. Der Legende nach wurde es vom riesigen Drachen „Schwarzer Tod“ erschaffen, der Tausende von von Feinden weggeworfenen Schwertern zum Schmelzen brachte und so höchste Autorität symbolisierte. Um auf diesem eisernen Stuhl zu sitzen, begannen die großen Familien zu kämpfen und zu kämpfen. Seit der Entstehung von Sora wurde im KI-Videokreis ein energisches „Game of Thrones“ gestartet. Zu den Hauptakteuren in diesem Spiel zählen RunwayGen-3 und Luma von der anderen Seite des Ozeans sowie die einheimischen Kuaishou Keling, ByteDream, und Zhimo. Spectrum Qingying, Vidu, PixVerseV2 usw. Heute werden wir bewerten und sehen, wer qualifiziert ist, auf dem „Eisernen Thron“ des KI-Videokreises zu sitzen. -1- Vincent Video

See all articles