Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur-KI-php.cn

Heim

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

王林

Jul 12, 2024 pm 06:49 PM

入门 Intelligente Zukunft

Im Handumdrehen hat das Jahr 2024 bereits die Hälfte hinter sich. Es ist nicht schwer festzustellen, dass es im Bereich der KI, insbesondere der AIGC, einen immer offensichtlicheren Trend gibt: Der Wenshengtu-Track ist in eine Phase stetiger Weiterentwicklung und beschleunigter kommerzieller Umsetzung eingetreten, gleichzeitig ist jedoch die Generierung nur statischer Bilder nicht mehr möglich Befriedigung der Nachfrage der Menschen nach generativen KI-Funktionen. Die Nachfrage nach dynamischer Videoerstellung war noch nie so hoch.

Daher ist der Wensheng-Videotrack weiterhin heiß begehrt, insbesondere seit OpenAI Anfang des Jahres Sora veröffentlichte, das Videogenerierungsmodell mit Diffusion Transformer (DiT) als zugrundeliegender Architektur hat eine rasante Periode eingeläutet. Auf diesem Weg starten in- und ausländische Hersteller von Videogenerationsmodellen stillschweigend einen Technologiewettbewerb.

In China taucht weiterhin ein im März letzten Jahres gegründetes generatives KI-Startup-Unternehmen, das sich auf den Aufbau visueller multimodaler Grundmodelle und Anwendungen konzentriert, im Blickfeld der Menschen auf. Es ist HiDream.ai. Sein selbst entwickeltes visuelles multimodales Grundmodell realisiert die Generierung und Konvertierung zwischen verschiedenen Modalitäten, unterstützt Wensheng-Bilder, Wensheng-Videos, Wensheng-Videos und Wensheng 3D und hat die One-Stop-KI-Bild- und Videogenerierung eingeführt Plattform „Pixeling“ ist für die Öffentlichkeit zum Einstieg gedacht.

Experience-Adresse: www.hidreamai.com

Seit der Einführung des großen Zhixiang-Modells im August 2023 hat es mehrere Iterationen und Verfeinerungen durchlaufen und das Basismodell optimiert, um das Modell tiefgreifend zu erforschen und zu erweitern Wensheng-Diagramm und Vincent Video sowie andere AIGC-Funktionen. Insbesondere im Bereich der Videogenerierung wurde die unterstützte Generierungszeit von anfänglich 4 Sekunden auf 15 Sekunden erhöht und auch die Bildwirkung ist sichtbar besser.

Jetzt wurde das große Modell von Zhixiang erneut aktualisiert. Die einzigartige DiT-Architektur basiert auf nativen chinesischen Versionen und bietet leistungsfähigere, stabilere und benutzerfreundlichere Bild- und Videogenerierungsfunktionen, einschließlich

mehr ästhetischer und künstlerischer Bildgenerierung , Einbetten von Text in Bilder, Generierung von Videos auf Minutenebene usw..

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Die Demonstration all dieser neuen Fähigkeiten zur Bild- und Videogenerierung ist untrennbar mit der technologischen Anhäufung und kontinuierlichen Innovation von Zhixiang Future im Bereich der multimodalen visuellen Generierung verbunden. „Der Generierungseffekt verbessert sich weiter.“ Die interaktive Generierungstechnologie ermöglicht eine präzise und kontrollierbare multimodale Inhaltsgenerierung und baut leistungsstarke Prototypfunktionen auf, die den Benutzern ein besseres kreatives Erlebnis auf seinen Plattformen Vincent Picture und Vincent Video ermöglichen.

Dieses

Intelligent Elephant Large Model 2.0-Gesamtupgrade weist im Vergleich zur Version 1.0 qualitative Änderungen in der zugrunde liegenden Architektur, den Trainingsdaten und Trainingsstrategien auf

, die Text, Bilder, Videos und 3D mit sich bringen. Ein weiterer Sprung in den Multimodus-Fähigkeiten und eine spürbare Verbesserung des interaktiven Erlebnisses.

Man kann sagen, dass das verbesserte Smart Elephant-Modell umfassende Verbesserungen im Bereich der Bild- und Videogenerierung eingeleitet und der One-Stop-AIGC-Generierungsplattform für multimodale Großunternehmen eine stärkere Antriebskraft verliehen hat Modellerstellung.

Die Fähigkeiten von Vincent Picture haben sich erneut weiterentwickelt. Daher hat Zhixiang in Zukunft hohe Erwartungen an Wenshengtu gesetzt und wird in seinem eigenen Tempo vielfältigere Funktionen, realistischere visuelle Effekte und ein benutzerfreundlicheres Erlebnis fördern.

Nach einer Reihe gezielter Anpassungen und Optimierungen wurde die Vincentian-Diagrammfähigkeit von Zhixiang Large Model 2.0 im Vergleich zu früheren Versionen deutlich verbessert und ist anhand mehrerer externer Präsentationseffekte leicht zu erkennen.

Zuallererst sind die von

Zhixiang Large Model 2.0 erzeugten Bilder schöner und künstlerischer

. Das aktuelle vinzentinische Großmodell kann in intuitiveren Aspekten wie dem semantischen Verständnis, der Erzeugung von Bildstrukturen und Bilddetails sehr gut abschneiden, ist jedoch in teilweise sensorischen Aspekten wie Textur, Schönheit und Kunstfertigkeit möglicherweise nicht zufriedenstellend. Daher steht das Streben nach Schönheit im Mittelpunkt dieses Vincent Picture-Upgrades. Was ist der Effekt? Wir können uns die folgenden zwei Beispiele ansehen.

Die Eingabeaufforderung für das erste Beispiel lautet „ein kleines Mädchen mit einem riesigen Hut mit vielen Burgen, Blumen, Bäumen, Vögeln, bunt, Nahaufnahme, Details, Illustrationsstil“ auf dem Hut.

Die Eingabeaufforderung im zweiten Beispiel lautet „Nahaufnahme von grünen Pflanzenblättern, dunkles Thema, Wassertropfendetails, Handyhintergrund“.

Die beiden erzeugten Bilder sehen in Bezug auf Komposition, Ton und Detailreichtum auffällig aus, was die Gesamtschönheit des Bildes erheblich verstärkt.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Die erzeugten Bilder sehen nicht nur schöner aus,

die Korrelation der generierten Bilder ist auch stärker

. Dies ist auch ein Aspekt, dem jeder große Aufmerksamkeit schenkt, nachdem die Bilderzeugung ein bestimmtes Stadium erreicht hat. Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Um die Relevanz generierter Bilder zu verbessern, konzentriert sich das große Modell von Intelligent Image auf die Stärkung des Verständnisses einiger komplexer Logiken, wie z. B. unterschiedlicher räumlicher Anordnungen, Positionsbeziehungen, verschiedener Objekttypen und der Anzahl generierter Objekte usw., diese sind ein wichtiger Faktor, um eine höhere Relevanz zu erreichen. Nach einiger Schulung kann das große Modell von Intelligent Elephant problemlos Bildgenerierungsaufgaben mit mehreren Objekten, Verteilung an mehreren Standorten und komplexer räumlicher Logik bewältigen und die tatsächlichen Bedürfnisse der Benutzer im wirklichen Leben besser erfüllen.

Schauen wir uns die folgenden Beispiele aus drei Generationen an, die ein tiefes Verständnis verschiedener Objekte und räumlicher Positionsbeziehungen erfordern. Die Ergebnisse zeigen, dass Vincent Diagram nun problemlos mit langen und kurzen Textaufforderungen mit komplexer Logik umgehen kann.

Die Eingabeaufforderung für das erste Beispiel lautet: „Auf dem Küchentisch stehen drei Körbe voller Obst. Der mittlere Korb ist mit grünen Äpfeln gefüllt. Der linke Korb ist mit Erdbeeren gefüllt. Der rechte Korb ist mit Blaubeeren gefüllt.“ Hinter dem Korb befindet sich ein weißer Hund. Der Hintergrund ist eine türkisfarbene Wand mit dem bunten Text „Pixeling v2“.

Die Eingabeaufforderung des zweiten Beispiels lautet „rechts ist eine Katze, links ist ein Hund und in der Mitte liegt ein grüner Würfel auf einer blauen Kugel“.

Die Eingabeaufforderung für das dritte Beispiel lautet: „Auf dem Mond reitet ein Astronaut auf einer Kuh, trägt einen rosa Tutu-Rock und hält einen blauen Regenschirm. Rechts von der Kuh befindet sich eine Kuh, die einen Pinguin mit Zylinderhut trägt.“ . Der Text „HiDream.Al“ steht unten.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Gleichzeitig ist die Generierung von in Bildern eingebettetem Text präziser und effizienter, eine Funktion, die bei Postern oder Marketingtexten häufiger zum Einsatz kommt.

In Bezug auf die technische Umsetzung erfordert die Generierung von in Bilder eingebettetem Text ein großes Modell, um die Beschreibung des visuellen Erscheinungsbilds und den präzisen Textinhalt in der Eingabeaufforderung genau zu verstehen, um eine genaue Darstellung des Textinhalts zu erreichen und gleichzeitig die Gesamtschönheit sicherzustellen und Kunstfertigkeit des Bildes.

In einem exklusiven Interview mit dieser Website erwähnte Dr. Yao Ting, CTO von Zhixiang Future, dass frühere Versionen solche Aufgaben oft nicht generieren konnten, es aber immer noch Probleme gab. in Bezug auf generierte Zeichen oder Genauigkeit fehlen alle. Jetzt sind diese Probleme gut gelöst. Das große Modell von Zhixiang hat die Einbettung von Langtexten in Bilder realisiert, die bis zu Dutzende von Wörtern umfassen können.

Die drei generierten Beispiele von links nach rechts unten zeigen gute Texteinbettungseffekte, insbesondere auf der rechten Seite des Bildes, wo mehr als zwanzig Wörter und Satzzeichen präzise eingebettet sind.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Man kann sagen, dass die Vincentian-Diagrammfunktion des Intelligent Elephant-Modells branchenweit führende Ergebnisse erzielt und eine wichtige Grundlage für die Videogenerierung gelegt hat.

Die Videoerzeugung hat das Minutenniveau erreicht

Wenn das aktualisierte Intelligent Image Model 2.0 stetige Fortschritte in Richtung vinzentinischer Grafiken erzielt hat, dann hat es einen Sprung nach vorne in Richtung vinzentinischer Videos gemacht .

Im Dezember letzten Jahres durchbrach das Vincent-Video des großen Zhixiang-Modells die 4-Sekunden-Grenze und unterstützte die Generationszeit von mehr als 15 Sekunden. Ein halbes Jahr später hat sich Wensheng Video in Bezug auf Dauer, Natürlichkeit der Bilder, Inhalt und Konsistenz der Charaktere deutlich verbessert, und dies ist der selbst entwickelten, ausgereiften DiT-Architektur zu verdanken.

Im Vergleich zu U-Net ist die DiT-Architektur flexibler und kann die Qualität der Bild- und Videoerzeugung verbessern. Das Aufkommen von Sora bestätigt dies auf intuitivere Weise. Diffusionsmodelle, die diese Art von Architektur verwenden, zeigen eine natürliche Tendenz zur Generierung qualitativ hochwertiger Bilder und Videos und bieten relative Vorteile bei der Anpassbarkeit und Steuerbarkeit der generierten Inhalte. Für das Intelligent Elephant Large Model 2.0 weist die verwendete DiT-Architektur einige einzigartige Merkmale auf.

Wir wissen, dass die zugrunde liegende Implementierung der DiT-Architektur auf Transformer basiert. Das Intelligence Model 2.0 übernimmt vollständig selbst entwickelte Module in der gesamten Transformer-Netzwerkstruktur, der Trainingsdatenzusammensetzung und der Trainingsstrategie, insbesondere im Netzwerktraining Die Strategie ist gut durchdacht.

Zuallererst übernimmt die Transformer-Netzwerkstruktur einen effizienten räumlich-zeitlichen gemeinsamen Aufmerksamkeitsmechanismus, der nicht nur die Eigenschaften von Videos sowohl im räumlichen als auch im zeitlichen Bereich berücksichtigt, sondern auch das Problem löst, mit dem der herkömmliche Aufmerksamkeitsmechanismus nicht mithalten kann die Geschwindigkeit während des eigentlichen Trainingsprozesses.

Zweitens stellt die Generierung von Totalen in KI-Videoaufgaben höhere Anforderungen an die Quelle und Überprüfung der Trainingsdaten. Daher unterstützt das große Modell von Zhixiang das Training von Videoclips von bis zu mehreren Minuten oder sogar zehn Minuten und ermöglicht so die direkte Ausgabe von minutenlangen Videos. Gleichzeitig ist es auch schwierig, Videoinhalte auf Minutenebene zu beschreiben. Zhixiang Future hat unabhängig ein Untertitelungsmodell entwickelt, um Videobeschreibungen zu generieren und eine detaillierte und genaue Beschreibungsausgabe zu erzielen.

Was schließlich die Trainingsstrategie betrifft, verwendet das Intelligent Elephant Model 2.0 aufgrund der begrenzten Videodaten mit langen Objektiven Videoclips unterschiedlicher Länge für das gemeinsame Training von Video- und Bilddaten und ändert die Abtastung von Videos dynamisch unterschiedliche Längen und anschließendes Long-Shot-Training. Gleichzeitig wird während des Trainings ein Verstärkungslernen durchgeführt, um die Modellleistung weiter zu optimieren.

Daher bietet die leistungsfähigere selbst entwickelte DiT-Architektur technische Unterstützung für die weitere Verbesserung des Wensheng-Videoeffekts.

Jetzt wurde die Videodauer, die vom Intelligent Elephant Large Model 2.0 unterstützt wird, von etwa 15 Sekunden auf Minuten erhöht und erreicht damit ein hohes Niveau in der Branche.

Neben der Videodauer, die das Minutenniveau erreicht, sind variable Dauer und Größe auch ein großes Highlight dieses Wensheng-Video-Feature-Upgrades.

Das aktuelle Videogenerierungsmodell hat normalerweise eine feste Generierungsdauer, die Benutzer nicht wählen können. Zukünftig wird Zhixiang den Benutzern die Wahl der Generierungsdauer ermöglichen, sodass sie die Dauer festlegen oder dynamische Urteile basierend auf dem Inhalt der Eingabeaufforderung treffen können. Wenn es komplexer ist, wird ein längeres Video generiert, und wenn es relativ einfach ist, wird ein kürzeres Video generiert. Durch einen solchen dynamischen Prozess können die kreativen Bedürfnisse des Benutzers adaptiv erfüllt werden. Auch die Größe des generierten Videos kann je nach Bedarf angepasst werden, was es sehr benutzerfreundlich macht.

Darüber hinaus Das allgemeine Erscheinungsbild des Bildes ist besser geworden, die Aktionen oder Bewegungen von Objekten im generierten Video sind natürlicher und flüssiger, die Details werden präziser wiedergegeben und es unterstützt 4K Ultra-Clear Bildqualität.

In nur einem halben Jahr kann die verbesserte Vincent Video-Funktion im Vergleich zu früheren Versionen als „wiedergeboren“ bezeichnet werden. Allerdings befinden sich nach Ansicht von Dr. Yao Ting die meisten Videogenerationen, sei es Intelligent Future oder andere, noch im Single-Lens-Stadium. Im Vergleich zu den Stufen L1 bis L5 im Bereich des autonomen Fahrens liegt Vincent Video ungefähr auf der Stufe L2. Mit Hilfe dieser Verbesserung der Grundmodellfunktionen möchte Zhixiang in Zukunft die Erzeugung von Videos mit mehreren Objektiven in höherer Qualität vorantreiben und hat außerdem einen wichtigen Schritt in Richtung Erkundung der L3-Stufe getan.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Zhixiang Future gab an, dass die iterierte Vincent-Videofunktion Mitte Juli eingeführt wird. Jeder kann sich darauf freuen!

Geschrieben am Ende

Es ist seit weniger als anderthalb Jahren etabliert, sei es die kontinuierliche Iteration grundlegender Modellfähigkeiten oder die Verbesserung des tatsächlichen Erlebnisses vinzentinischer Bilder und Vincentian-Videos, Intelligent Image wird in Zukunft visueller sein und schreitet stetig und schnell in diese Richtung voran und hat eine große Anzahl von C-Seiten- und B-Seiten-Benutzern gewonnen.

Wir haben erfahren, dass die monatlichen Besuche von C-End-Benutzern von Zhixiang Future Millionen überstiegen und die Gesamtzahl der generierten KI-Bilder und -Videos ebenfalls 10 Millionen überstieg. Niedrigschwellige und gute Anwendungen sind die Merkmale des Intelligent Elephant-Modells. Auf dieser Grundlage entsteht die erste AIGC-Anwendungsplattform, die für die Öffentlichkeit am besten geeignet ist.

Auf der B-Seite arbeitet Zhixiang Future aktiv mit China Mobile, Lenovo Group, iFlytek, Shanghai Film Group, Ciwen Group, Digital China, CCTV, Evernote, Tiangong Yicai, Hangzhou Lingban und anderen Unternehmen zusammen. Erreichen Sie eine strategische Zusammenarbeit Vereinbarung zur Vertiefung der Anwendungsszenarien des Modells, zur Ausweitung der Modellfähigkeiten auf weitere Branchen, darunter Betreiber, intelligente Terminals, Film- und Fernsehproduktion, E-Commerce, Förderung des Kulturtourismus und Markenmarketing, und schließlich die Nutzung des Modells im Potenzial des Kommerzialisierungsprozesses und zur Schaffung von Werten .

Derzeit hat Zhixiang Large Model etwa 100 Top-Unternehmenskunden und hat AIGC-Dienste für 30000 + Klein- und Kleinstunternehmenskunden bereitgestellt.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Vor der Veröffentlichung von Zhixiang Large Model 2.0 hat sich Zhixiang Future mit der China Mobile Migu Group zusammengetan, um die landesweite AIGC-Anwendung „AI One Word to Make a Movie“ auf den Markt zu bringen, die nicht nur normalen Benutzern Null bietet -basierte KI-Funktionen zur Erstellung von Videoklingeltönen helfen Unternehmenskunden auch dabei, reichhaltige Marken- und Marketingvideoinhalte zu generieren, sodass Unternehmen ihre eigenen Klingeltonmarken haben können, was uns das enorme Potenzial der Videogenerierung und Integration in Branchenszenarien erkennen lässt.

Darüber hinaus ist das KI-Ökosystem auch für große Modellhersteller eine wichtige Entwicklungsposition. Diesbezüglich hat Zhixiang in Zukunft eine offene Haltung und wird mit Großkunden wie Lenovo Group, iFlytek und Digital China sowie kleinen Entwicklungsteams und unabhängigen Entwicklern zusammenarbeiten, um ein breites KI-Ökosystem einschließlich Videogenerierung aufzubauen mehr Benutzer.

2024 gilt als das erste Jahr groß angelegter Modellanwendungen und ist ein wichtiger Entwicklungsknotenpunkt für alle Hersteller. Zukünftig wird Zhixiang ausführliche Artikel über leistungsfähigere Prototypfunktionen veröffentlichen.

Einerseits die Stärkung des Verständnisses und der Generierungsfähigkeiten von Bildern, Videos und 3D-Multimodalitäten in einem einheitlichen Rahmen, beispielsweise durch die weitere Optimierung der zugrunde liegenden Architektur, Algorithmen und Daten im Bereich der Videogenerierung Um Verbesserungen in Bezug auf Dauer und Qualität zu erzielen, ist es zu einem unverzichtbaren Bestandteil der künftigen allgemeinen künstlichen Intelligenz geworden. Andererseits wurden Anstrengungen in verschiedene Richtungen unternommen, z. B. in Bezug auf Benutzererfahrung, innovative Anwendungen und Branchenökologie beeinflussen.

Erobern Sie die Spitzenposition auf dem Weg zur Videogenerierung, Zhixiang ist bestens für die Zukunft gerüstet.

Das obige ist der detaillierte Inhalt vonSchönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Fusionssystem, erklärt

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1667

CakePHP-Tutorial

1426

Laravel-Tutorial

1328

PHP-Tutorial

1273

C#-Tutorial

1255

Related knowledge

Generieren Sie PPT mit einem Klick! Kimi: Lassen Sie zuerst die „PPT-Wanderarbeiter' populär werden Aug 01, 2024 pm 03:28 PM

Kimi: In nur einem Satz, in nur zehn Sekunden ist ein PPT fertig. PPT ist so nervig! Um ein Meeting abzuhalten, benötigen Sie einen PPT; um einen wöchentlichen Bericht zu schreiben, müssen Sie einen PPT vorlegen, auch wenn Sie jemanden des Betrugs beschuldigen PPT. Das College ähnelt eher dem Studium eines PPT-Hauptfachs. Man schaut sich PPT im Unterricht an und macht PPT nach dem Unterricht. Als Dennis Austin vor 37 Jahren PPT erfand, hatte er vielleicht nicht damit gerechnet, dass PPT eines Tages so weit verbreitet sein würde. Wenn wir über unsere harte Erfahrung bei der Erstellung von PPT sprechen, treiben uns Tränen in die Augen. „Es dauerte drei Monate, ein PPT mit mehr als 20 Seiten zu erstellen, und ich habe es Dutzende Male überarbeitet. Als ich das PPT sah, musste ich mich übergeben.“ war PPT.“ Wenn Sie ein spontanes Meeting haben, sollten Sie es tun

Ein Diffusionsmodell-Tutorial, das Ihre Zeit wert ist, von der Purdue University Apr 07, 2024 am 09:01 AM

Diffusion kann nicht nur besser imitieren, sondern auch „erschaffen“. Das Diffusionsmodell (DiffusionModel) ist ein Bilderzeugungsmodell. Im Vergleich zu bekannten Algorithmen wie GAN und VAE im Bereich der KI verfolgt das Diffusionsmodell einen anderen Ansatz. Seine Hauptidee besteht darin, dem Bild zunächst Rauschen hinzuzufügen und es dann schrittweise zu entrauschen. Das Entrauschen und Wiederherstellen des Originalbilds ist der Kernbestandteil des Algorithmus. Der endgültige Algorithmus ist in der Lage, aus einem zufälligen verrauschten Bild ein Bild zu erzeugen. In den letzten Jahren hat das phänomenale Wachstum der generativen KI viele spannende Anwendungen in der Text-zu-Bild-Generierung, Videogenerierung und mehr ermöglicht. Das Grundprinzip dieser generativen Werkzeuge ist das Konzept der Diffusion, ein spezieller Sampling-Mechanismus, der die Einschränkungen bisheriger Methoden überwindet.

Alle CVPR 2024-Auszeichnungen bekannt gegeben! Fast 10.000 Menschen nahmen offline an der Konferenz teil und ein chinesischer Forscher von Google gewann den Preis für den besten Beitrag Jun 20, 2024 pm 05:43 PM

Am frühen Morgen des 20. Juni (Pekinger Zeit) gab CVPR2024, die wichtigste internationale Computer-Vision-Konferenz in Seattle, offiziell die besten Beiträge und andere Auszeichnungen bekannt. In diesem Jahr wurden insgesamt 10 Arbeiten ausgezeichnet, darunter zwei beste Arbeiten und zwei beste studentische Arbeiten. Darüber hinaus gab es zwei Nominierungen für die beste Arbeit und vier Nominierungen für die beste studentische Arbeit. Die Top-Konferenz im Bereich Computer Vision (CV) ist die CVPR, die jedes Jahr zahlreiche Forschungseinrichtungen und Universitäten anzieht. Laut Statistik wurden in diesem Jahr insgesamt 11.532 Arbeiten eingereicht, von denen 2.719 angenommen wurden, was einer Annahmequote von 23,6 % entspricht. Laut der statistischen Analyse der CVPR2024-Daten des Georgia Institute of Technology befassen sich die meisten Arbeiten aus Sicht der Forschungsthemen mit der Bild- und Videosynthese und -generierung (Imageandvideosyn

Von Bare-Metal bis hin zu einem großen Modell mit 70 Milliarden Parametern finden Sie hier ein Tutorial und gebrauchsfertige Skripte Jul 24, 2024 pm 08:13 PM

Wir wissen, dass LLM auf großen Computerclustern unter Verwendung umfangreicher Daten trainiert wird. Auf dieser Website wurden viele Methoden und Technologien vorgestellt, die den LLM-Trainingsprozess unterstützen und verbessern. Was wir heute teilen möchten, ist ein Artikel, der tief in die zugrunde liegende Technologie eintaucht und vorstellt, wie man einen Haufen „Bare-Metals“ ohne Betriebssystem in einen Computercluster für das LLM-Training verwandelt. Dieser Artikel stammt von Imbue, einem KI-Startup, das allgemeine Intelligenz durch das Verständnis der Denkweise von Maschinen erreichen möchte. Natürlich ist es kein einfacher Prozess, einen Haufen „Bare Metal“ ohne Betriebssystem in einen Computercluster für das Training von LLM zu verwandeln, aber Imbue hat schließlich erfolgreich ein LLM mit 70 Milliarden Parametern trainiert der Prozess akkumuliert

PyCharm Community Edition-Installationsanleitung: Beherrschen Sie schnell alle Schritte Jan 27, 2024 am 09:10 AM

Schnellstart mit PyCharm Community Edition: Detailliertes Installations-Tutorial, vollständige Analyse Einführung: PyCharm ist eine leistungsstarke integrierte Python-Entwicklungsumgebung (IDE), die einen umfassenden Satz an Tools bereitstellt, mit denen Entwickler Python-Code effizienter schreiben können. In diesem Artikel wird die Installation der PyCharm Community Edition im Detail vorgestellt und spezifische Codebeispiele bereitgestellt, um Anfängern den schnellen Einstieg zu erleichtern. Schritt 1: PyCharm Community Edition herunterladen und installieren Um PyCharm verwenden zu können, müssen Sie es zunächst von der offiziellen Website herunterladen

KI im Einsatz |. AI hat einen Lebens-Vlog eines allein lebenden Mädchens erstellt, der innerhalb von drei Tagen Zehntausende Likes erhielt Aug 07, 2024 pm 10:53 PM

Herausgeber des Machine Power Report: Yang Wen Die Welle der künstlichen Intelligenz, repräsentiert durch große Modelle und AIGC, hat unsere Lebens- und Arbeitsweise still und leise verändert, aber die meisten Menschen wissen immer noch nicht, wie sie sie nutzen sollen. Aus diesem Grund haben wir die Kolumne „KI im Einsatz“ ins Leben gerufen, um detailliert vorzustellen, wie KI durch intuitive, interessante und prägnante Anwendungsfälle für künstliche Intelligenz genutzt werden kann, und um das Denken aller anzuregen. Wir heißen Leser auch willkommen, innovative, praktische Anwendungsfälle einzureichen. Videolink: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ Vor kurzem wurde der Lebens-Vlog eines allein lebenden Mädchens auf Xiaohongshu populär. Eine Animation im Illustrationsstil, gepaart mit ein paar heilenden Worten, kann in nur wenigen Tagen leicht erlernt werden.

Eine Pflichtlektüre für technische Anfänger: Analyse der Schwierigkeitsgrade von C-Sprache und Python Mar 22, 2024 am 10:21 AM

Titel: Ein Muss für technische Anfänger: Schwierigkeitsanalyse der C-Sprache und Python, die spezifische Codebeispiele erfordert. Im heutigen digitalen Zeitalter ist Programmiertechnologie zu einer immer wichtigeren Fähigkeit geworden. Ob Sie in Bereichen wie Softwareentwicklung, Datenanalyse, künstliche Intelligenz arbeiten oder einfach nur aus Interesse Programmieren lernen möchten, die Wahl einer geeigneten Programmiersprache ist der erste Schritt. Unter vielen Programmiersprachen sind C-Sprache und Python zwei weit verbreitete Programmiersprachen, jede mit ihren eigenen Merkmalen. In diesem Artikel werden die Schwierigkeitsgrade der C-Sprache und von Python analysiert

Der leitende NVIDIA-Architekt zählt die 12 Schwachstellen von RAG auf und vermittelt Lösungen Jul 11, 2024 pm 01:53 PM

Retrieval-Augmented Generation (RAG) ist eine Technik, die Retrieval nutzt, um Sprachmodelle zu verbessern. Bevor ein Sprachmodell eine Antwort generiert, ruft es insbesondere relevante Informationen aus einer umfangreichen Dokumentendatenbank ab und verwendet diese Informationen dann zur Steuerung des Generierungsprozesses. Diese Technologie kann die Genauigkeit und Relevanz von Inhalten erheblich verbessern, das Problem der Halluzinationen wirksam lindern, die Geschwindigkeit der Wissensaktualisierung erhöhen und die Nachverfolgbarkeit der Inhaltsgenerierung verbessern. RAG ist zweifellos einer der spannendsten Bereiche der Forschung im Bereich der künstlichen Intelligenz. Weitere Informationen zu RAG finden Sie im Kolumnenartikel auf dieser Website „Was sind die neuen Entwicklungen bei RAG, das sich darauf spezialisiert hat, die Mängel großer Modelle auszugleichen?“ Diese Rezension erklärt es deutlich. Aber RAG ist nicht perfekt und Benutzer stoßen bei der Verwendung oft auf einige „Problempunkte“. Kürzlich die fortschrittliche generative KI-Lösung von NVIDIA

See all articles