Seit kurzem erfreut sich generative KI wieder großer Beliebtheit! Ein WeChat-Applet namens „Dream Stealer“ wurde sofort ein Hit und erreichte einen Rekord von täglich 50.000 neuen Benutzern.
Dream Stealer ist eine KI-Plattform, die Bilder basierend auf eingegebenem Text generieren kann. Es ist ein Zweig von AIGC (AI-Generated Content).
Nachdem Benutzer ihrer Fantasie freien Lauf gelassen und eine Textbeschreibung eingegeben haben, kann Dream Stealer Bilder in drei Verhältnissen generieren: 1:1, 9:16 und 16:9. Zusätzlich zu den einfachen Ölgemälden stehen außerdem 24 Malstile zur Auswahl Zu den Malkategorien wie Aquarell und Skizze gehören auch spezielle Stile wie Cyberpunk, Vaporwave, Pixel Art, Ghibli und CG-Rendering.
Bild: Der Technology Cloud Report-Editor hat zum Generieren das WeChat-Applet „Dream Stealer“ verwendet
Tatsächlich ist dies nicht die erste KI-Software, die „Text zum Erstellen von Bildern verwendet“. Von Midjourney bis Stable Diffusion war generative KI in den letzten zwei Jahren das heißeste Thema.
Generative KI hat als wichtige Richtung in der Entwicklung von KI großes Entwicklungspotenzial.
Nach Angaben von Gartner im ersten Halbjahr wird erwartet, dass generative KI bis 2025 10 % aller generierten Daten ausmachen wird, verglichen mit derzeit weniger als 1 %.
Manche Menschen glauben, dass 2022 das erste Jahr sein wird, in dem generative KI aus der Technologie reift und in die Grundlagen der Gesellschaft vordringt.
In den letzten Jahren kann die Entwicklung der KI-Technologie im visuellen Bereich als „rasant“ bezeichnet werden.
Im Januar letzten Jahres veröffentlichte OpenAI, ein Unternehmen, das sich zum Ziel gesetzt hat, „der gesamten Menschheit mit allgemeiner künstlicher Intelligenz zu helfen“, das bahnbrechende DALL-E auf Basis des GPT-3-Modells, das die Generierung von Bildern aus Text realisiert.
Im April dieses Jahres setzte das von OpenAI veröffentlichte DALL-E 2-Modell der zweiten Generation erneut einen neuen Maßstab im Bereich der Bilderzeugung.
Benutzer können durch kurze Textbeschreibungen (Eingabeaufforderung) entsprechende Bilder generieren, sodass auch Menschen, die nicht zeichnen können, ihre Fantasie in künstlerische Kreationen umsetzen können, wie zum Beispiel die vier Wörter, die durch den Satz „Alpaka spielt Basketball“ generiert werden. Das Bild sieht sehr gut aus im Einklang mit den Erwartungen aller.
Beispiel für ein vom DALL-E 2-Modell generiertes Bild
Da die Granularität der Textbeschreibungen immer weiter verfeinert wird, werden die generierten Bilder nicht nur immer genauer, und der Effekt ist für Nicht-Benutzer bereits ziemlich schockierend. Profis.
Aber Modelle wie DALL-E 2 bleiben immer noch im Bereich der zweidimensionalen Erstellung, also der Bilderzeugung, und können keine 360-Grad-3D-Modelle ohne Sackgassen generieren.
Allerdings kann dies die sehr kreativen Algorithmusforscher nicht aufhalten. Eine der neuesten Errungenschaften der Google-Forschung – das DreamFusion-Modell – kann 3D-Modelle durch die Eingabe einfacher Textaufforderungen generieren Generierte 3D-Modelle verfügen außerdem über Eigenschaften wie Dichte und Farbe, und mehrere generierte 3D-Modelle können sogar in eine Szene integriert werden.
Nach der Generierung von 3D-Bildern erweiterten die Algorithmus-Mitarbeiter von Meta ihre Ideen weiter, stellten höhere Schwierigkeitsgrade in Frage und begannen, die Verwendung von Textaufforderungen zur direkten Generierung von Videos zu erforschen.
Obwohl es sich bei einem Video im Wesentlichen um die Überlagerung einer Reihe von Bildern handelt, ist es im Vergleich zur Generierung von Bildern bei der Verwendung von Text zur Generierung eines Videos nicht nur erforderlich, mehrere Bilder derselben Szene zu generieren, sondern auch die Kontinuität zwischen benachbarten Bildern sicherzustellen. Sex. Da beim Training des Modells nur sehr wenige hochwertige Videodaten verfügbar sind, der Rechenaufwand jedoch sehr groß ist, erhöht sich die Komplexität der Videogenerierungsaufgabe erheblich.
Im September dieses Jahres veröffentlichten Forscher von Meta Make-A-Video, ein hochwertiges Kurzvideo-Generierungsmodell auf Basis künstlicher Intelligenz, das der Videoversion von DALL-E entspricht, die auch den Spitznamen „Made with Mouth“ trägt. Video“, das heißt, Sie können durch Textansagen neue Videoinhalte erstellen. Die Schlüsseltechnologie dahinter stammt auch aus der „Text-Bild“-Synthesetechnologie, die von Bildgeneratoren wie DALL-E verwendet wird.
Nur eine Woche später kündigte Google-CEO Pichai offiziell zwei Modelle an, die Metas Make-A-Video direkt herausfordern würden, nämlich Imagen Video und Phenaki.
Im Vergleich zu Make-A-Video hebt Imagen Video die hochauflösenden Eigenschaften von Videos hervor, kann Videoclips mit einer Auflösung von 1280 * 768 und 24 Bildern pro Sekunde generieren und auch Werke verschiedener künstlerischer Stile verstehen und generieren Die 3D-Struktur des Objekts wird während der Rotationsanzeige nicht verformt;
übernimmt sogar die Fähigkeit von Imagen, Text genau darzustellen, und auf dieser Grundlage können durch einfache Beschreibung verschiedene kreative Animationen generiert werden.
Imagen Video generiert Videobeispiele
Und Phenaki kann mehr als 2 Minuten lange Aufnahmen mit niedrigerer Auflösung basierend auf Eingabeaufforderungen von etwa 200 Wörtern generieren und so eine relativ vollständige Geschichte erzählen.
Phenaki-generiertes Videobeispiel
Derzeit gibt es in China viele generative KI-Anwendungen.
Zum Beispiel bietet die Jianying-APP von ByteDance KI-generierte Videofunktionen und kann kostenlos genutzt werden.
Die Bild-zu-Text-Videofunktion ähnelt der von Google. Ersteller können ein paar Schlüsselwörter oder einen kurzen Textabschnitt verwenden, um ein kreatives Kurzvideo zu erstellen.
Clip Screen kann auch Videomaterialien auf der Grundlage von Textbeschreibungen intelligent zuordnen und Videos in Werke mit eher vertikalem Inhalt packen, darunter Finanzen, Geschichte, Geisteswissenschaften und andere Kategorien.
Im Januar 2022 startete NetEase die One-Stop-KI-Musikerstellungsplattform „NetEase Tianyin“, die von Nutzern in Lieder umgewandelte Neujahrsgrüße generiert und in der ersten Jahreshälfte eine professionelle Website-Version auf den Markt brachte.
Im September 2021 wurde die Caiyun Xiaomeng APP gestartet, mit der verschiedene Texttypen erstellt werden können. Benutzer müssen nur einen Anfang von 1-1000 Wörtern angeben, und Caiyun Xiaomeng kann mit dem Schreiben der folgenden Geschichte fortfahren.
Tatsächlich gibt es viele Formen der KI-Erstellung. Wenn generative KI-Technologie auf das Schreiben angewendet wird, können maschinelle Versionen von Journalisten, Romanautoren, Dichtern, Drehbuchautoren usw. entstehen. Wenn sie auf die Bereiche Malerei, Musik und Tanz angewendet wird, kann sie Maler, Komponisten und Redakteure „kultivieren“. . Tanzpersonal.
Im vergangenen Jahr hat sich die generative KI noch besser entwickelt. Softwareriesen im KI-Bereich wie Google, Microsoft und Meta haben diese Technologie intern vorangetrieben und generative KI in ihre Produkte integriert.
Warum ist generative KI plötzlich so beliebt?
Tatsächlich entwickelt sich die generative KI-Technologie rasant, war jedoch aufgrund zu hoher technischer Schwellenwerte bisher auf einen kleinen Kreis in der Technologiebranche beschränkt.
Wenn wir auf die Entwicklungsgeschichte der KI-Technologie zurückblicken, werden wir feststellen, dass die Explosion generativer KI untrennbar mit drei Faktoren verbunden ist: bessere Modelle, mehr Daten und mehr Berechnungen.
Vor 2015 galten kleine Modelle als „modernste Technologie“ zum Verstehen von Sprache. Diese kleinen Modelle eignen sich hervorragend für analytische Aufgaben und werden für Aufgaben eingesetzt, die von der Vorhersage von Lieferzeiten bis zur Betrugsklassifizierung reichen.
Allerdings sind sie für allgemeine Generierungsaufgaben nicht ausdrucksstark genug. Das Generieren von Texten oder Codes auf menschlicher Ebene ist immer noch ein Traum.
Im Jahr 2017 veröffentlichte Google Research ein bahnbrechendes Papier (Attention is All You Need), in dem eine neue neuronale Netzwerkarchitektur für das Verständnis natürlicher Sprache beschrieben wird, sogenannte Transformatoren, die qualitativ hochwertige Sprachmodelle generieren kann und gleichzeitig über eine höhere Qualität verfügt Parallelisierbarkeit und die erforderliche Trainingszeit werden ebenfalls stark reduziert.
Wenn die Modelle größer werden, zeigen sie natürlich übermenschliche Leistungen. Der Rechenaufwand für das Training dieser Modelle stieg von 2015 bis 2020 um sechs Größenordnungen, wobei die Ergebnisse die Benchmarks für die menschliche Leistung in den Bereichen Handschrift, Sprach- und Bilderkennung, Leseverständnis und Sprachverständnis übertrafen.
Unter ihnen sticht GPT-3 von OpenAI hervor. Die Leistung dieses Modells hat einen großen Sprung gegenüber GPT-2 gemacht und zeigt bessere Fähigkeiten von der Codegenerierung bis zum Schreiben von Witzen.
Trotz aller Fortschritte in Grundlagenforschungsbereichen sind diese Modelle nicht universell.
Sie sind groß, schwierig auszuführen (erfordert GPU-Koordination), nicht allgemein verfügbar (nicht verfügbar oder nur in der geschlossenen Betaphase) und teuer in der Nutzung als Cloud-Dienst.
Aber trotz dieser Einschränkungen kamen die ersten generativen KI-Anwendungen auf den Markt.
Da die Datenverarbeitung immer billiger wurde, entwickelte die Industrie weiterhin bessere Algorithmen und größere Modelle.
Die Entwicklerberechtigungen wurden von der Closed Beta auf die Open Beta oder in einigen Fällen auf Open Source erweitert.
Jetzt, da die Plattformschicht solide ist, die Modelle immer besser, schneller und billiger werden und der Zugang zu Modellen tendenziell kostenlos und Open Source ist, ist die KI-Anwendungsschicht reif für eine Explosion der Kreativität.
Im August dieses Jahres wurde beispielsweise das Text-Bild-Generierungsmodell Stable Diffusion als Open-Source-Lösung veröffentlicht. Nachfolger können dieses Open-Source-Tool besser nutzen, um eine umfassendere Inhaltsökologie zu erschließen, die eine entscheidende Rolle dabei spielt, es einem breiteren Spektrum bekannt zu machen der C-End-Benutzer eine wichtige Rolle.
Die Popularität von Stable Diffusion liegt im Wesentlichen darin, dass Open Source Kreativität freisetzt.
Die Risikokapitalinstitution Sequoia Capital erwähnte in einem Blogbeitrag auf ihrer offiziellen Website: „Generative KIhat das Potenzial, einen wirtschaftlichen Wert in Billionenhöhe zu generieren.
“ Laut Sequoia Capital Generative KI kann jede Branche verändern, in der Menschen Originalwerke schaffen müssen, von Spielen über Werbung bis hin zum Recht.
Insbesondere sind die Anwendungsszenarien der generativen KI in der Zukunft sehr breit gefächert. Neben Branchen für die Produktion von Inhalten wie Kulturschaffen und Nachrichten bietet generative KI vielfältige Anwendungsmöglichkeiten in vielen Branchen wie dem Gesundheitswesen, dem digitalen Handel, der Fertigung usw Anwendungsaussichten in der Landwirtschaft, z. B. Unterstützung bei der Erkennung von Läsionen bei Röntgen-, CT- und anderen Gerätescans, Erstellung digitaler Produktzwillinge, Unterstützung bei der Prüfung der Produktqualität usw.
Es gibt auch reichlich Anwendungsraum für beliebte Technologien wie XR, digitale Zwillinge und autonome Fahrzeuge.
Aber es ist erwähnenswert, dass es in der aktuellen generativen KI noch viele Probleme gibt, die gelöst werden müssen.
Im Unterhaltungsbereich beispielsweise ist einer der Gründe, warum viele Menschen generative KI für die Erstellung nutzen, die Vermeidung von Urheberrechtsproblemen. Dies bedeutet jedoch nicht, dass keine versteckten Gefahren bestehen.
Einerseits kombiniert die KI-Erstellung auch die gelernten Daten entsprechend den Anforderungen neu. Obwohl die Granularität immer feiner wird, ist es unvermeidlich, dass einige scharfsichtige Menschen erkennen, auf welche Werke verwiesen werden kann, und einige Internetnutzer sogar Auf der sozialen Plattform hieß es, dass auf einem KI-generierten Bild vage Spuren einer vermuteten Unterschrift zu erkennen seien.
Andererseits beanspruchen die meisten Plattformen der aktuellen KI-Generation kein Urheberrecht oder geben eindeutig an, dass sie kommerzialisiert werden können. Mit der zunehmenden Kommerzialisierung der generativen KI stellt sich jedoch die Frage, ob ein solches Urheberrechtsumfeld existiert und ob neue Urheberrechtsprobleme auftreten werden entstehen, sind ebenfalls Diskussionsbedarf.
Auch die Logik und Sicherheit der generativen KI müssen verbessert werden. Die derzeitige generative KI ist anfällig für Fehler im gesunden Menschenverstand und auch anfällig für Probleme in Bereichen, die ein Langzeitgedächtnis erfordern.
Zum Beispiel kommt es im Prozess von KI-generierten Romanen aufgrund der langen Länge oft zu Inkonsistenzen.
Auch wenn generative KI bereits in vielen Bereichen eingesetzt werden kann, ist daher, um generative KI wirklich zum Einsatz zu bringen, viel Training erforderlich, um größere Verluste durch KI-„Fehler“ zu vermeiden.
Schließlich gibt es in Anwendungsszenarien wie Medizin und Fertigung nicht den gleichen Spielraum für Versuch und Irrtum wie in der Kultur- und Kreativbranche.
Obwohl generative KI derzeit untrennbar mit menschlichen Eingriffen verbunden ist, lässt sich nicht leugnen, dass generative KI immer noch großes Entwicklungspotenzial hat.
Das Aufkommen generativer KI bedeutet, dass KI beginnt, eine neue Rolle in realen Inhalten einzunehmen, von „Beobachtung und Vorhersage“ bis hin zu „direkter Generierung und Entscheidungsfindung“. Mit anderen Worten: Generative KI schafft, nicht nur analysiert.
Wie OpenAI-CEO Sam Altman sagte: „Generative KI erinnert uns daran, dass es schwierig ist, Vorhersagen über künstliche Intelligenz zu treffen.
Vor zehn Jahren war die gängige Meinung, dass künstliche Intelligenz zunächst die manuelle Arbeit beeinflussen würde; dann ist kognitive Arbeit; vielleicht kann es eines Tages kreative Arbeit leisten
Das obige ist der detaillierte Inhalt vonKI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!