Inhaltsverzeichnis
Technische Einführung
Anwendungsumsetzung und Perspektiven
Teamvorstellung
Heim Technologie-Peripheriegeräte KI Die innovative „Meta-Tipp'-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Die innovative „Meta-Tipp'-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Jan 17, 2024 pm 12:48 PM
模型 训练

Das Text-to-Image (T2I)-Diffusionsmodell zeichnet sich durch die Generierung hochauflösender Bilder aus, da es vorab auf großformatige Bild-Text-Paare trainiert wird.

Dies führt zu einer natürlichen Frage: Können Diffusionsmodelle zur Lösung visueller Wahrnehmungsaufgaben verwendet werden?

Kürzlich haben Teams von ByteDance und der Fudan-Universität ein Diffusionsmodell zur Bewältigung visueller Aufgaben vorgeschlagen.

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Papieradresse: https://arxiv.org/abs/2312.14733

Open-Source-Projekt: https://github.com/fudan-zvg/meta-prompts

Der Schlüssel Für das Team Insight ist die Einführung lernbarer Meta-Hinweise in vorab trainierte Diffusionsmodelle, um Merkmale zu extrahieren, die für bestimmte Wahrnehmungsaufgaben geeignet sind.

Technische Einführung

Das Team wendet das Text-zu-Bild-Diffusionsmodell als Merkmalsextrahierer auf visuelle Wahrnehmungsaufgaben an.

Zunächst wird das Eingabebild vom VQVAE-Encoder komprimiert, die Auflösung auf 1/8 der Originalgröße reduziert und eine Latentraum-Feature-Darstellung generiert. Es ist zu beachten, dass die Parameter des VQVAE-Encoders fest sind und nicht am nachfolgenden Training beteiligt sind.

Der nächste Schritt besteht darin, die Daten ohne zusätzliches Rauschen zur Merkmalsextraktion an UNet zu senden. Um sich besser an verschiedene Aufgaben anzupassen, empfängt UNet modulierte Zeitschritt-Einbettungen und mehrere Meta-Hinweise gleichzeitig, um formkonsistente Merkmale zu generieren.

Während des gesamten Prozesses führt diese Methode eine wiederholte Verfeinerung durch, um den Merkmalsausdruck zu verbessern. Dies ermöglicht eine bessere interaktive Fusion von Features aus verschiedenen Ebenen innerhalb von UNet. Im zweiten Zyklus werden die Parameter von UNet durch spezifische lernbare zeitliche Modulationsmerkmale angepasst.

Abschließend werden die von UNet generierten Multiskalenfunktionen in einen Decoder eingegeben, der speziell für die Zielsichtaufgabe entwickelt wurde.

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Erlernbares Meta-Prompt-Design

Das stabile Diffusionsmodell übernimmt die UNet-Architektur, um Textprompts durch Kreuzaufmerksamkeit in Bildfunktionen zu integrieren und so ein vincentisches Diagramm zu realisieren. Diese Integration stellt sicher, dass die Bildgenerierung kontextuell und semantisch korrekt ist.

Die Vielfalt der visuellen Wahrnehmungsaufgaben geht jedoch über diese Kategorie hinaus, da das Bildverständnis mit unterschiedlichen Herausforderungen konfrontiert ist und es oft an Textinformationen als Orientierungshilfe mangelt, was textgesteuerte Methoden manchmal unpraktisch macht.

Um dieser Herausforderung zu begegnen, verfolgt das technische Team eine vielfältigere Strategie: Anstatt sich auf externe Textaufforderungen zu verlassen, entwerfen wir interne lernbare Meta-Eingabeaufforderungen, sogenannte Meta-Eingabeaufforderungen, die zur Anpassung in Diffusionsmodelle integriert werden zu Wahrnehmungsaufgaben.

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Meta-Eingabeaufforderungen werden in Form einer Matrix ausgedrückt, die die Anzahl der Meta-Eingabeaufforderungen und die Dimension darstellt. Wahrnehmungsdiffusionsmodelle mit Meta-Eingabeaufforderungen machen externe Texteingabeaufforderungen wie Datensatzkategoriebezeichnungen oder Bildtitel überflüssig und erfordern keinen vorab trainierten Textencoder, um die endgültigen Texteingabeaufforderungen zu generieren.

Meta-Eingabeaufforderungen können basierend auf Zielaufgaben und Datensätzen durchgängig trainiert werden, um speziell angepasste Anpassungsbedingungen für die Entrauschung von UNet festzulegen. Diese Meta-Eingabeaufforderungen enthalten umfangreiche semantische Informationen, die an bestimmte Aufgaben angepasst sind. Zum Beispiel:

- In der semantischen Segmentierungsaufgabe demonstrieren Meta-Eingabeaufforderungen effektiv die Fähigkeit, Kategorien zu identifizieren, und dieselben Meta-Eingabeaufforderungen neigen dazu, Funktionen derselben Kategorie zu aktivieren.

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

- In der Tiefenschätzungsaufgabe zeigen Meta-Eingabeaufforderungen die Fähigkeit, Tiefe wahrzunehmen, und der Aktivierungswert ändert sich mit der Tiefe, sodass Eingabeaufforderungen sich auf Objekte in der gleichen Entfernung konzentrieren können.

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

- Bei der Posenschätzung weisen Meta-Eingabeaufforderungen unterschiedliche Fähigkeiten auf, insbesondere die Wahrnehmung von Schlüsselpunkten, was bei der Erkennung menschlicher Posen hilfreich ist.

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Zusammengenommen unterstreichen diese qualitativen Ergebnisse die Wirksamkeit der vom technischen Team vorgeschlagenen Meta-Eingabeaufforderungen bei der Aktivierung aufgabenbezogener Fähigkeiten in verschiedenen Aufgaben.

Als Alternative zu Text-Eingabeaufforderungen füllen Meta-Eingabeaufforderungen gut die Lücke zwischen Text-zu-Bild-Diffusionsmodellen und visuellen Wahrnehmungsaufgaben.

Meta-Cue-basierte Feature-Reorganisation

Diffusionsmodell generiert durch sein inhärentes Design Multiskalen-Features bei der Entrauschung von UNet, die sich auf feinere Detailinformationen auf niedriger Ebene konzentrieren, wenn sie sich der Ausgabeebene nähern.

Während diese Detailgenauigkeit auf niedriger Ebene für Aufgaben ausreicht, bei denen Textur und Feinkörnigkeit im Vordergrund stehen, erfordern visuelle Wahrnehmungsaufgaben häufig das Verständnis von Inhalten, die sowohl Details auf niedriger Ebene als auch semantische Interpretation auf hoher Ebene umfassen.

Daher müssen nicht nur umfangreiche Features generiert werden, es ist auch sehr wichtig zu bestimmen, welche Kombination dieser Multiskalen-Features die beste Darstellung für die aktuelle Aufgabe bieten kann.

Hier kommen Meta-Eingabeaufforderungen ins Spiel –

Diese Eingabeaufforderungen bewahren Kontextwissen, das für den während des Trainings verwendeten Datensatz spezifisch ist. Dieses Kontextwissen ermöglicht es Meta-Eingabeaufforderungen, als Filter für die Feature-Rekombination zu fungieren, den Feature-Auswahlprozess zu leiten und aus den vielen von UNet generierten Features die relevantesten Features für die Aufgabe herauszufiltern.

Das Team verwendet einen Punktproduktansatz, um den Reichtum der Multiskalenfunktionen von UNet mit der Aufgabenanpassungsfähigkeit von Meta-Eingabeaufforderungen zu kombinieren.

Berücksichtigen Sie Funktionen mit mehreren Maßstäben. und stellen die Höhe und Breite der Feature-Map dar. Meta-Eingabeaufforderungen. Die neu angeordneten Merkmale auf jeder Skala werden wie folgt berechnet:

Schließlich werden diese durch Meta-Eingabeaufforderungen gefilterten Merkmale dann in einen aufgabenspezifischen Decoder eingegeben.

Wiederkehrende Verfeinerung basierend auf lernbaren zeitlichen Modulationsmerkmalen

Im Diffusionsmodell bildet der iterative Prozess des Hinzufügens von Rauschen und der anschließenden mehrstufigen Rauschunterdrückung den Rahmen der Bilderzeugung.

Inspiriert von diesem Mechanismus entwarf das technische Team einen einfachen wiederkehrenden Verfeinerungsprozess für visuelle Wahrnehmungsaufgaben – anstatt Rauschen zu den Ausgabemerkmalen hinzuzufügen, werden die Ausgabemerkmale von UNet in einer Schleife direkt in UNet eingegeben.

Um gleichzeitig das inkonsistente Problem zu lösen, dass sich beim Durchlaufen des Modells durch die Schleife die Verteilung der Eingabemerkmale ändert, die Parameter von UNet jedoch unverändert bleiben, führte das technische Team für jedes einzelne erlernbare und einzigartige Zeitschritteinbettungen ein Schleife zum Modulieren von UNet-Parametern.

Dadurch wird sichergestellt, dass das Netzwerk anpassungsfähig bleibt und auf die Variabilität der Eingabemerkmale in verschiedenen Schritten reagiert, der Merkmalsextraktionsprozess optimiert und die Leistung des Modells bei visuellen Erkennungsaufgaben verbessert wird.

Die Ergebnisse zeigen, dass diese Methode bei mehreren Wahrnehmungsaufgabendatensätzen optimale Ergebnisse erzielt hat.

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Die innovative „Meta-Tipp-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!

Anwendungsumsetzung und Perspektiven

Die in diesem Artikel vorgeschlagenen Methoden und Technologien haben breite Anwendungsaussichten und können die technologische Entwicklung und Innovation in mehreren Bereichen fördern:

  1. Verbesserungen bei visuellen Wahrnehmungsaufgaben: Diese Forschung kann die Leistung verschiedener visueller Wahrnehmungsaufgaben verbessern, wie z. B. Bildsegmentierung, Tiefenschätzung und Posenschätzung. Diese Verbesserungen können auf Bereiche wie autonomes Fahren, medizinische Bildanalyse und Roboter-Vision-Systeme angewendet werden.
  2. Verbesserte Computer-Vision-Modelle: Die vorgeschlagene Technologie kann Computer-Vision-Modelle genauer und effizienter bei der Handhabung komplexer Szenen machen, insbesondere wenn keine expliziten Textbeschreibungen vorhanden sind. Dies ist besonders wichtig für Anwendungen wie das Verstehen von Bildinhalten.
  3. Fachübergreifende Anwendungen: Die Methoden und Ergebnisse dieser Studie können bereichsübergreifende Forschung und Anwendungen inspirieren, beispielsweise im Kunstschaffen, in der virtuellen Realität und in der erweiterten Realität, um die Qualität und Interaktivität von Bildern und Videos zu verbessern .
  4. Langfristige Aussichten: Mit der Weiterentwicklung der Technologie können diese Methoden weiter verbessert werden, was zu einer fortschrittlicheren Bilderzeugungs- und Inhaltsverständnistechnologie führt.

Teamvorstellung

Das Team für intelligente Kreation ist das KI- und Multimedia-Technologiezentrum von ByteDance, das Computer Vision, Audio- und Videobearbeitung, Spezialeffektverarbeitung und andere technische Bereiche abdeckt und sich dabei auf die umfangreichen Geschäftsszenarien, Infrastrukturressourcen und Technik des Unternehmens stützt Zusammenarbeit Die Atmosphäre realisiert einen geschlossenen Kreislauf modernster Algorithmen-Engineering-Systeme-Produkte mit dem Ziel, den internen Unternehmen des Unternehmens modernstes Inhaltsverständnis, Inhaltserstellung, interaktive Erlebnis- und Konsumfunktionen sowie Branchenlösungen in verschiedenen Formen zu bieten.

Derzeit hat das intelligente Kreationsteam seine technischen Fähigkeiten und Dienste über Volcano Engine, eine Cloud-Service-Plattform von ByteDance, für Unternehmen geöffnet. Weitere Stellen im Zusammenhang mit großen Modellalgorithmen sind offen. Klicken Sie zum Anzeigen auf 「Originaltext lesen」.

Das obige ist der detaillierte Inhalt vonDie innovative „Meta-Tipp'-Strategie des Byte Fudan-Teams hat die Leistung des Diffusionsmodell-Bildverständnisses verbessert und ein beispielloses Niveau erreicht!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Crossplay haben?
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Apr 03, 2024 pm 12:04 PM

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Apr 29, 2024 pm 06:55 PM

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Jun 11, 2024 am 09:51 AM

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

See all articles