Inhaltsverzeichnis
Das System besteht aus drei Hauptkomponenten:
Experimentelle Ergebnisse Das Bildbeschreibungsmodell kann Beschreibungen für Eingabebilder und zugeschnittene Bilder von erkannten Objekten generieren.
Heim Technologie-Peripheriegeräte KI Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort' sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort' sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Aug 24, 2023 pm 07:21 PM
模型 训练

Mit der Unterstützung großer Sprachmodelle (LLM) wurden bedeutende Ergebnisse bei multimodalen Aufgaben in Kombination mit Vision erzielt, wie z. B. Bildbeschreibung, visuelle Fragebeantwortung (VQA) und Objekterkennung mit offenem Vokabular

Allerdings nutzt das aktuelle visuelle Sprachmodell (VLM) grundsätzlich nur die visuellen Informationen im Bild, um die Aufgabe abzuschließen, und schneidet bei Datensätzen wie Informeek und OK-VQA, die externes Wissen zur Unterstützung der Fragenbeantwortung erfordern, oft schlecht ab.

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Kürzlich hat Google eine neue autonome visuelle Informationssuchmethode AVIS veröffentlicht, die große Sprachmodelle (LLM) verwendet, um Strategien für die Verwendung externer Tools dynamisch zu formulieren, einschließlich des Aufrufs von APIs, der Analyse von Ausgabeergebnissen, der Entscheidungsfindung und anderen Bild-Fragen und Antworten vermitteln wichtiges Wissen.

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Bitte klicken Sie auf den folgenden Link, um das Papier zu lesen: https://arxiv.org/pdf/2306.08129.pdf

AVIS integriert hauptsächlich drei Arten von Tools:

1 Bild-Tools zum Extrahieren visueller Informationen

2. Web-Suchtools zum Abrufen von Wissen und Fakten aus der offenen Welt

3. Bildsuchtools, mit denen visuell ähnliche Bilder abgerufen und dann verwendet werden können Sie basieren auf großen Schritten. Der Planer des Sprachmodells wählt bei jedem Schritt ein Tool und Abfrageergebnisse aus, um dynamisch Antworten auf Fragen zu generieren.

Simulation menschlicher EntscheidungsfindungIst die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Viele visuelle Probleme in Infoseek- und OK-VQA-Datensätzen sind selbst für Menschen recht schwierig und erfordern normalerweise die Unterstützung verschiedener externer Tools. Daher entschieden sich die Forscher, zunächst eine Benutzerumfrage durchzuführen und Menschen zu beobachten Lösungen für komplexe Sehprobleme.

Zunächst stellen wir den Benutzern eine Reihe verfügbarer Tools zur Verfügung, darunter PALI, PALM und Websuche. Als nächstes zeigen wir das Eingabebild, die Frage, den erkannten Objektausschnitt, verknüpfte Wissensdiagrammentitäten aus den Bildsuchergebnissen, ähnliche Bildtitel, verwandte Produkttitel und Bildbeschreibungen

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht Als nächstes zeichnen die Forscher die Benutzeroperationen und -ausgaben auf. und verwendet zwei Methoden, um das System zur Antwort zu führen:

1 Erstellen Sie ein Übergangsdiagramm, indem Sie die Reihenfolge der vom Benutzer getroffenen Entscheidungen analysieren, die verschiedene Zustände und die Menge der verfügbaren Operationen in jedem Zustand enthält.

Umgeschriebener Inhalt: AVIS-Konvertierungsdiagramm Das neu gestaltete AVIS-Konvertierungsdiagramm ist eine grafische Darstellung zur Veranschaulichung des AVIS-Konvertierungsprozesses. Dieses Diagramm veranschaulicht die verschiedenen Phasen und Schritte von AVIS anschaulich und stellt sie dem Benutzer auf leicht verständliche Weise dar. Durch dieses Konvertierungsdiagramm können Benutzer das Funktionsprinzip und den Betriebsprozess von AVIS besser verstehen. Das Design dieses Diagramms ist prägnant und klar, sodass Benutzer den AVIS-Konvertierungsprozess schnell verstehen können. Sowohl Anfänger als auch erfahrene Benutzer können den Konvertierungsprozess mithilfe dieses AVIS-Konvertierungsdiagramms leicht verstehen und anwenden.

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifachtIm Startzustand kann das System beispielsweise nur drei Vorgänge ausführen: PALI-Beschreibung, PALI-VQA oder Zielerkennung.

Um die Leistung und Effektivität des Systems zu verbessern, können Beispiele menschlicher Entscheidungsfindung verwendet werden, um den Planer und Denker bei der Interaktion mit relevanten Kontextinstanzen anzuleiten.

Gesamtrahmen

Der AVIS-Ansatz übernimmt eine dynamische Entscheidung -Entwicklung von Strategien zur Beantwortung von Anfragen nach visuellen Informationen

Das System besteht aus drei Hauptkomponenten:

Der Inhalt, der neu geschrieben werden muss, ist: 1. Planer (Planer), der zur Bestimmung nachfolgender Vorgänge verwendet wird, einschließlich geeigneter API-Aufrufe und Abfragen, die verarbeitet werden müssen

2. Arbeitsspeicher (Arbeitsspeicher), Erhaltene Ergebnisinformationen aus der API-Ausführung.

3. Der Reasoner wird zur Verarbeitung der Ausgabe des API-Aufrufs verwendet und kann bestimmen, ob die erhaltenen Informationen ausreichen, um die endgültige Antwort zu generieren, oder ob ein zusätzlicher Datenabruf erforderlich ist.

Sie müssen entscheiden, welches Tool verwendet wird jedes Mal zu verwenden Neben den an das System gesendeten Abfragen führt der Planer eine Reihe von Vorgängen basierend auf dem aktuellen Status durch. Der Planer stellt auch mögliche Folgemaßnahmen bereit

Um das Problem zu lösen dass der Suchraum aufgrund zu vieler potenzieller Aktionsräume zu groß ist. Das Problem besteht darin, dass der Planer auf das Übergangsdiagramm zurückgreifen muss, um irrelevante Aktionen zu eliminieren, mit Ausnahme von Aktionen, die zuvor ausgeführt und im Arbeitsspeicher gespeichert wurden.

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Dann stellt der Planer eine Reihe von Kontextbeispielen aus den Benutzerforschungsdaten zusammen, kombiniert mit den Aufzeichnungen früherer Tool-Interaktionen, der Planer formuliert Eingabeaufforderungen und gibt sie in das Sprachmodell ein, und das LLM gibt eine strukturierte Antwort zurück , bestimmt das nächste zu aktivierende Tool und die abzusendende Abfrage.

Der gesamte Designprozess kann durch mehrere Aufrufe an den Planer gesteuert werden, um dynamische Entscheidungen voranzutreiben und Schritt für Schritt Antworten zu generieren.

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Forscher verwenden Reasoner, um die Ausgabe der Werkzeugausführung zu analysieren, nützliche Informationen zu extrahieren und entscheiden Kategorie der Tool-Ausgabe: informativ, nicht informativ oder endgültige Antwort

Wenn der Reasoner ein Ergebnis von „Antwort bereitstellen“ zurückgibt, wird es direkt als Endergebnis ausgegeben und die Aufgabe beendet, wenn das Ergebnis keine Informationen enthält. Es kehrt zur Planung zurück und wählt eine andere Aktion basierend auf dem aktuellen Status aus. Wenn der Denker die Ausgabe des Tools für nützlich hält, ändert es den Status und überträgt die Kontrolle zurück an den Planer, um im neuen Status eine neue Entscheidung zu treffen.

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

AVIS verwendet eine dynamische Entscheidungsstrategie, um auf Suchanfragen mit visuellen Informationen zu reagieren.

Experimentelle Ergebnisse Das Bildbeschreibungsmodell kann Beschreibungen für Eingabebilder und zugeschnittene Bilder von erkannten Objekten generieren.

Objekterkennung mithilfe eines Objektdetektors, der auf einer Obermenge des Open Images-Datensatzes trainiert wurde und von der kategoriespezifischen Google Lens-API unter Verwendung eines hohen Konfidenzschwellenwerts bereitgestellt wird, wobei nur die Erkennungsfelder mit dem höchsten Rang im Eingabebild beibehalten werden.

Verwenden Sie die Google-Bildsuche, um Informationen zum Bildzuschnitt in Bezug auf erkannte Boxen zu erhalten.

Bei der Entscheidungsfindung behandelt der Planer die Verwendung jeder Information als separaten Vorgang, da jede Information Hunderte von Token enthalten kann, die erforderlich sind komplexe Verarbeitung und Argumentation.

In einigen Fällen können Bilder Textinhalte wie Straßennamen oder Markennamen enthalten. Sie können die Funktion zur optischen Zeichenerkennung (OCR) in der Google Lens-API verwenden, um diese Texte zu extrahieren.

Mithilfe der Google-Such-API für Websuchen können Sie eine Textabfrage eingeben und die Ausgabe relevanter Dokumentlinks und -ausschnitte erhalten Gleichzeitig kann ein Knowledge-Graph-Panel mit direkten Antworten und bis zu fünf Fragen im Zusammenhang mit der Eingabeabfrage bereitgestellt werden. Experimentelle Ergebnisse. Die Forscher führten Experimente mit dem AVIS-Framework zur Auswertung von Infoseek- und OK-VQA-Datensätzen durch Aus den Ergebnissen geht hervor, dass selbst sehr robuste visuelle Sprachmodelle wie OFA- und PALI-Modelle nach einer Feinabstimmung des Infoseek-Datensatzes keine hohe Genauigkeit erreichen können. Ohne Feinabstimmung erreichte die AVIS-Methode erfolgreich eine Genauigkeit von 50,7 % das fein abgestimmte PALI-Modell.

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Die meisten Frage- und Antwortbeispiele in OK-VQA basieren eher auf gesundem Menschenverstand als auf detailliertem Wissen, sodass der Leistungsunterschied möglicherweise darauf zurückzuführen ist. PALI ist in der Lage, das in den Modellparametern kodierte allgemeine Wissen zu nutzen, ohne auf die Unterstützung von externem Wissen angewiesen zu sein. Ein Schlüsselmerkmal von AVIS ist die Fähigkeit, Entscheidungen dynamisch zu treffen, anstatt eine feste Reihenfolge auszuführen Beispiel Das Beispiel zeigt die Flexibilität von AVIS bei der Verwendung verschiedener Tools in verschiedenen Phasen.

Es ist erwähnenswert, dass das Reasoner-Design in diesem Artikel es AVIS ermöglicht, irrelevante Informationen zu identifizieren, zum vorherigen Status zurückzukehren und die Suche zu wiederholen.

Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

Im zweiten Beispiel zur Pilztaxonomie traf AVIS beispielsweise zunächst die falsche Entscheidung, indem es das Blattobjekt auswählte, da es für das Problem irrelevant war, AVIS zu einer Neuplanung veranlasste und das Objekt dann erfolgreich auswählte Das hing mit dem Problem zusammen. Falsche Objekte im Zusammenhang mit Truthahnschwanzpilzen, wodurch die richtige Antwort gefunden wurde: Stereum Werkzeuge Intensive Sehprobleme.

Bei diesem Ansatz entscheiden sich die Forscher dafür, aus Benutzerstudien gesammelte menschliche Entscheidungsdaten als Anker zu verwenden, einen strukturierten Rahmen zu übernehmen und einen LLM-basierten Planer zu verwenden, um dynamisch über die Werkzeugauswahl und die Abfragebildung zu entscheiden. Ist die Feinabstimmung der „wissensbasierten Bildfrage und -antwort sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht

The Der LLM-gesteuerte Reasoner kann wichtige Informationen aus der Ausgabe des ausgewählten Tools verarbeiten und extrahieren, indem er den Planer und den Reasoner iterativ verwendet, um verschiedene Tools auszuwählen, bis alle notwendigen Informationen zur Beantwortung der visuellen Frage gesammelt sind

Das obige ist der detaillierte Inhalt vonIst die Feinabstimmung der „wissensbasierten Bildfrage und -antwort' sinnlos? Google veröffentlicht das Suchsystem AVIS: Nur wenige Stichproben übertreffen das überwachte PALI, und die Genauigkeit wird verdreifacht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Apr 03, 2024 pm 12:04 PM

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Jun 11, 2024 am 09:51 AM

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Apr 29, 2024 pm 06:55 PM

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

See all articles