Gib mir ein Bild und erstelle ein 30-Sekunden-Video!-KI-php.cn

Inhaltsverzeichnis

Die Papieradresse ist unten angegeben. Interessierte Kinder können einen Blick darauf werfen ~ https://arxiv.org/abs/2203.09494

Leistungsstark bei mehreren Sehaufgaben

Heim

Technologie-Peripheriegeräte

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 am 08:43 AM

框架视觉

Hat die KI wieder Fortschritte gemacht?

Und es ist die Art, die aus einem Bild ein kontinuierliches 30-Sekunden-Video generiert. ... Information .

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Dies ist ein allgemeiner Rahmen für Bildmodellierungs- und Sehaufgaben, der auf der probabilistischen Bildvorhersage basiert, die kürzlich von DeepMind – Transframer – vorgeschlagen wurde.

Einfach ausgedrückt geht es darum, Transframer zu verwenden, um die Wahrscheinlichkeit eines Frames vorherzusagen.

Diese Frames können von einem oder mehreren annotierten Kontextframes abhängig gemacht werden, bei denen es sich um vorherige Videoframes, Zeitstempel oder mit einer Kamera markierte Ansichtsszenen handeln kann.

Transframer-Architektur

Werfen wir zunächst einen Blick darauf, wie diese magische Transframer-Architektur funktioniert.

Die Papieradresse ist unten angegeben. Interessierte Kinder können einen Blick darauf werfen ~ https://arxiv.org/abs/2203.09494

Um die Vorhersageverteilung auf dem Ziel abzuschätzen image benötigen wir ein Ausdrucksgenerierungsmodell, das vielfältige, qualitativ hochwertige Ausgaben erzeugen kann.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Obwohl die Ergebnisse von DC Transformer auf einer einzelnen Bilddomäne die Anforderungen erfüllen können, sind sie nicht auf den von uns benötigten Mehrbildtextsatz {(In,an)}n angewiesen.

Deshalb haben wir DC Transformer erweitert, um eine bedingte Bild- und Anmerkungsvorhersage zu ermöglichen.

Wir ersetzen DC Transformer durch einen Encoder im Vision-Transformer-Stil, der mit einem einzelnen DCT-Bild arbeitet und eine U-Net-Architektur mit mehreren Frames verwendet, um einen Satz annotierter Frames sowie teilweise verborgene Ziel-DCT-Bilder zu verarbeiten.

Sehen wir uns an, wie die Transframer-Architektur funktioniert.

(a) Transframer nimmt als Eingabe die DCT-Bilder (a1 und a2) sowie das teilweise ausgeblendete Ziel-DCT-Bild (aT) und zusätzliche Anmerkungen, die vom Multi-Frame-U-Net-Encoder verarbeitet werden. Als nächstes wird die U-Net-Ausgabe durch Queraufmerksamkeit an den DC-Transformer-Decoder weitergeleitet, der automatisch eine Regression durchführt, um eine DCT-Token-Sequenz (grüne Buchstaben) zu generieren, die dem verborgenen Teil des Zielbilds entspricht. (b) Der Multi-Frame-U-Net-Block besteht aus einem NF-Net-Faltungsblock und einem Multi-Frame-Selbstaufmerksamkeitsblock, die Informationen zwischen Eingabeframes und Rest-MLP im Transformer-Stil austauschen.

Werfen wir einen Blick auf Multi-Frame U-Net, das Bildeingaben verarbeitet.

Die Eingabe in U-Net ist eine Sequenz bestehend aus N DCT-Frames und teilweise ausgeblendeten Ziel-DCT-Frames, und Anmerkungsinformationen werden in Form von Vektoren bereitgestellt, die jedem Eingabeframe zugeordnet sind.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Die Kernkomponente von U-Net ist ein Rechenblock, der zunächst einen gemeinsamen NF-ResNet-Faltungsblock auf jeden Eingaberahmen anwendet und dann einen Selbstaufmerksamkeitsblock im Transformer-Stil anwendet, um rahmenübergreifende Informationen zu aggregieren. (Abbildung 2 b)

Der NF-ResNet-Block besteht aus gruppierten Faltungen sowie Squeeze- und Anregungsschichten und zielt darauf ab, die Leistung von TPU zu verbessern.

Unten vergleicht Abbildung (a) die Sparsamkeit absoluter und restlicher DCT-Darstellungen von RoboNet- (128 x 128) und KITTI-Videos.

Da RoboNet aus statischen Videos mit nur wenigen beweglichen Elementen besteht, nimmt die Spärlichkeit der Restbilddarstellung deutlich zu.

Und KITTI-Videos haben normalerweise eine bewegliche Kamera, was in aufeinanderfolgenden Bildern fast überall zu Unstimmigkeiten führt.

Aber in diesem Fall werden auch die Vorteile kleiner Sparsity abgeschwächt.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Leistungsstark bei mehreren Sehaufgaben

Durch Tests an einer Reihe von Datensätzen und Aufgaben zeigen die Ergebnisse, dass Transframer für eine Vielzahl von Aufgaben eingesetzt werden kann.

Einschließlich Videomodellierung, Synthese neuer Ansichten, semantische Segmentierung, Objekterkennung, Tiefenschätzung, Vorhersage des optischen Flusses usw.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Videomodellierung

Prognostizieren Sie das nächste Bild anhand einer Folge von Eingabevideobildern über Transframer.

Die Forscher trainierten die Leistung von Transframer bei der Videogenerierung anhand von zwei Datensätzen: KITTI bzw. RoboNet.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Für KITTI zeigen die Ergebnisse bei 5 Kontext-Frames und 25 Beispiel-Frames, dass sich die Leistung des Transframer-Modells bei allen Metriken verbessert, wobei die Verbesserungen bei LPIPS und FVD am offensichtlichsten sind.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Auf RoboNet erhielten die Forscher 2 Kontextrahmen und 10 Abtastrahmen, trainierten sie mit einer Auflösung von 64 x 64 bzw. 128 x 128 und erzielten schließlich sehr gute Ergebnisse.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Ansichtssynthese

In Bezug auf die Ansichtssynthese stellen wir Kameraansichten als Kontext- und Zielanmerkungen bereit, wie in Tabelle 1 (Zeile 3) beschrieben, und proben einheitlich mehrere kontextbezogene Ansichten ab auf das angegebene Maximum.

Model Transframer wird anhand des ShapeNet-Benchmarks bewertet und übertrifft PixelNeRF und SRN deutlich, indem es 1-2 kontextbezogene Ansichten bereitstellt.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Darüber hinaus ist nach der Auswertung des Objectron-Datensatzes ersichtlich, dass das Modell bei einer einzelnen Eingabeansicht eine kohärente Ausgabe erzeugt, jedoch einige Merkmale fehlen, wie z. B. gekreuzte Stuhlbeine.

Wenn 1 Kontextansicht angegeben ist, ist die mit einer Auflösung von 128×128 synthetisierte Ansicht wie folgt:

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Wenn 2 weitere Kontextansichten angegeben sind, mit einer Auflösung von 128×128 Die synthetisierte Ansicht ist wie folgt:

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Mehrere Vision-Aufgaben

Verschiedene Computer-Vision-Aufgaben werden normalerweise mithilfe komplexer Architekturen und Verlustfunktionen bearbeitet.

Hier trainierten die Forscher gemeinsam das Transframer-Modell an 8 verschiedenen Aufgaben und Datensätzen unter Verwendung derselben Verlustfunktion.

Die 8 Aufgaben sind: Vorhersage des optischen Flusses eines einzelnen Bildes, Objektklassifizierung, -erkennung und -segmentierung, semantische Segmentierung (auf 2 Datensätzen), Vorhersage zukünftiger Bilder und Tiefenschätzung.

Gib mir ein Bild und erstelle ein 30-Sekunden-Video!

Die Ergebnisse zeigen, dass Transframer lernt, unterschiedliche Samples in völlig unterschiedlichen Aufgaben zu generieren, und in einigen Aufgaben, wie z. B. Stadtansichten, erzeugt das Modell qualitativ hochwertige Ergebnisse.

Allerdings ist die Qualität der Modellausgabe bei Aufgaben wie der Vorhersage zukünftiger Frames und der Erkennung von Begrenzungsrahmen unterschiedlich, was darauf hindeutet, dass die Modellierung in dieser Umgebung anspruchsvoller ist.

Das obige ist der detaillierte Inhalt vonGib mir ein Bild und erstelle ein 30-Sekunden-Video!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Will R.E.P.O. Crossplay haben?

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7554

CakePHP-Tutorial

1382

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

So bewerten Sie die Kosteneffizienz der kommerziellen Unterstützung für Java-Frameworks Jun 05, 2024 pm 05:25 PM

Die Bewertung des Kosten-/Leistungsverhältnisses des kommerziellen Supports für ein Java-Framework umfasst die folgenden Schritte: Bestimmen Sie das erforderliche Maß an Sicherheit und Service-Level-Agreement-Garantien (SLA). Die Erfahrung und das Fachwissen des Forschungsunterstützungsteams. Erwägen Sie zusätzliche Services wie Upgrades, Fehlerbehebung und Leistungsoptimierung. Wägen Sie die Kosten für die Geschäftsunterstützung gegen Risikominderung und Effizienzsteigerung ab.

Wie ist die Lernkurve von PHP-Frameworks im Vergleich zu anderen Sprach-Frameworks? Jun 06, 2024 pm 12:41 PM

Die Lernkurve eines PHP-Frameworks hängt von Sprachkenntnissen, Framework-Komplexität, Dokumentationsqualität und Community-Unterstützung ab. Die Lernkurve von PHP-Frameworks ist im Vergleich zu Python-Frameworks höher und im Vergleich zu Ruby-Frameworks niedriger. Im Vergleich zu Java-Frameworks haben PHP-Frameworks eine moderate Lernkurve, aber eine kürzere Einstiegszeit.

Wie wirken sich die Lightweight-Optionen von PHP-Frameworks auf die Anwendungsleistung aus? Jun 06, 2024 am 10:53 AM

Das leichte PHP-Framework verbessert die Anwendungsleistung durch geringe Größe und geringen Ressourcenverbrauch. Zu seinen Merkmalen gehören: geringe Größe, schneller Start, geringer Speicherverbrauch, verbesserte Reaktionsgeschwindigkeit und Durchsatz sowie reduzierter Ressourcenverbrauch. Praktischer Fall: SlimFramework erstellt eine REST-API, nur 500 KB, hohe Reaktionsfähigkeit und hoher Durchsatz

Leistungsvergleich von Java-Frameworks Jun 04, 2024 pm 03:56 PM

Laut Benchmarks sind Quarkus (schneller Start, geringer Speicher) oder Micronaut (TechEmpower ausgezeichnet) für kleine, leistungsstarke Anwendungen die ideale Wahl. SpringBoot eignet sich für große Full-Stack-Anwendungen, weist jedoch etwas langsamere Startzeiten und Speichernutzung auf.

Best Practices für die Dokumentation des Golang-Frameworks Jun 04, 2024 pm 05:00 PM

Das Verfassen einer klaren und umfassenden Dokumentation ist für das Golang-Framework von entscheidender Bedeutung. Zu den Best Practices gehört die Befolgung eines etablierten Dokumentationsstils, beispielsweise des Go Coding Style Guide von Google. Verwenden Sie eine klare Organisationsstruktur, einschließlich Überschriften, Unterüberschriften und Listen, und sorgen Sie für eine Navigation. Bietet umfassende und genaue Informationen, einschließlich Leitfäden für den Einstieg, API-Referenzen und Konzepte. Verwenden Sie Codebeispiele, um Konzepte und Verwendung zu veranschaulichen. Halten Sie die Dokumentation auf dem neuesten Stand, verfolgen Sie Änderungen und dokumentieren Sie neue Funktionen. Stellen Sie Support und Community-Ressourcen wie GitHub-Probleme und Foren bereit. Erstellen Sie praktische Beispiele, beispielsweise eine API-Dokumentation.

So wählen Sie das beste Golang-Framework für verschiedene Anwendungsszenarien aus Jun 05, 2024 pm 04:05 PM

Wählen Sie das beste Go-Framework basierend auf Anwendungsszenarien aus: Berücksichtigen Sie Anwendungstyp, Sprachfunktionen, Leistungsanforderungen und Ökosystem. Gängige Go-Frameworks: Gin (Webanwendung), Echo (Webdienst), Fiber (hoher Durchsatz), gorm (ORM), fasthttp (Geschwindigkeit). Praktischer Fall: Erstellen einer REST-API (Fiber) und Interaktion mit der Datenbank (gorm). Wählen Sie ein Framework: Wählen Sie fasthttp für die Schlüsselleistung, Gin/Echo für flexible Webanwendungen und gorm für die Datenbankinteraktion.

Detaillierte praktische Erklärung der Golang-Framework-Entwicklung: Fragen und Antworten Jun 06, 2024 am 10:57 AM

Bei der Go-Framework-Entwicklung treten häufige Herausforderungen und deren Lösungen auf: Fehlerbehandlung: Verwenden Sie das Fehlerpaket für die Verwaltung und Middleware zur zentralen Fehlerbehandlung. Authentifizierung und Autorisierung: Integrieren Sie Bibliotheken von Drittanbietern und erstellen Sie benutzerdefinierte Middleware zur Überprüfung von Anmeldeinformationen. Parallelitätsverarbeitung: Verwenden Sie Goroutinen, Mutexe und Kanäle, um den Ressourcenzugriff zu steuern. Unit-Tests: Verwenden Sie Gotest-Pakete, Mocks und Stubs zur Isolierung sowie Code-Coverage-Tools, um die Angemessenheit sicherzustellen. Bereitstellung und Überwachung: Verwenden Sie Docker-Container, um Bereitstellungen zu verpacken, Datensicherungen einzurichten und Leistung und Fehler mit Protokollierungs- und Überwachungstools zu verfolgen.

Was sind die häufigsten Missverständnisse im Lernprozess des Golang-Frameworks? Jun 05, 2024 pm 09:59 PM

Beim Go-Framework-Lernen gibt es fünf Missverständnisse: übermäßiges Vertrauen in das Framework und eingeschränkte Flexibilität. Wenn Sie die Framework-Konventionen nicht befolgen, wird es schwierig, den Code zu warten. Die Verwendung veralteter Bibliotheken kann zu Sicherheits- und Kompatibilitätsproblemen führen. Die übermäßige Verwendung von Paketen verschleiert die Codestruktur. Das Ignorieren der Fehlerbehandlung führt zu unerwartetem Verhalten und Abstürzen.

See all articles