Enthüllt: Step Star Trillion MoE+ multimodale große Modellmatrix enthüllt-KI-php.cn

Auf der Weltkonferenz für künstliche Intelligenz 2024 stellten sich viele Menschen vor einem Stand auf, nur um sich von dem großen KI-Modell einen Auftrag im Himmel „erledigen“ zu lassen.

Enthüllt: Step Star Trillion MoE+ multimodale große Modellmatrix enthüllt

Prozess:

Stellen Sie persönliche Fotos bereit
Himmlische Besorgungen je nach Persönlichkeitstyp „anordnen“
Erlebnismethode:

Warteschlange vor Ort

Online-Erfahrung (Scannen Sie den QR-Code unten)

Großes Model-Startup-Unternehmen Stepping Stars kündigt seinen großen Schritt an
Das interaktive KI-Erlebnis „AI + Havoc in Heaven“ in Zusammenarbeit mit dem Shanghai Film Studio ist für Stepping Stars nur ein Vorgeschmack darauf, den Charme großer Models zu demonstrieren. Während der WAIC starteten sie im großen Stil den folgenden großen Schritt:

Offizielle Step-2-Version

Multimodales großes Modell mit Hunderten von Milliarden Parametern: Schritt- 1,5 V
Großes Modell zur Bilderzeugung: Step-1X
Step-2 großes Modell mit Billionenparametern

Multimodales großes Step-1.5V-Modell

Basierend auf dem Step-2-Modell hat Step Star das multimodale große Modell Step-1.5V entwickelt, das nicht nur über leistungsstarke Wahrnehmungs- und Videoverständnisfunktionen verfügt, sondern auch kann Bildinhalte für fortgeschrittenes Denken (z. B. Lösen mathematischer Probleme, Schreiben von Code, Verfassen von Gedichten) darstellen.

Step-1X-Modell zur Generierung großer Bilder

Die Bildgenerierung in „AI + Upheaval in Heaven“ wird durch das Step-1X-Modell vervollständigt, das stark für chinesische Elemente optimiert ist und über eine hervorragende semantische Ausrichtung und Fähigkeit zur Befehlsfolge verfügt.

Step Star hat eine vollständige Matrix für große Modelle erstellt, die große MoE-Modelle mit Billionen Parametern und multimodale große Modelle abdeckt, und ist damit die erste Stufe großer Modell-Startups geworden. Dies ist auf ihre Beharrlichkeit bei der Skalierung von Gesetzen und der Abstimmung von Technologie und Ressourcenstärke zurückzuführen.

Das von Grund auf trainierte

Schritt-2-Billionen-Parameter-Großmodell

wird die Argumentationsfähigkeiten des Modells in Bereichen wie Mathematik und Programmierung erheblich verbessern. Schritt 2 kann komplexere mathematische Logik- und Programmierprobleme lösen als das 100-Milliarden-Ebenen-Modell und wurde durch Benchmark-Bewertungen quantitativ bestätigt.

Darüber hinaus wurden auch die Chinesisch- und Englischkenntnisse sowie die Fähigkeit zur Befehlsverfolgung erheblich verbessert.
Der Grund, warum Step-2 so gut abschneidet, ist zum einen die große Anzahl an Parametern und zum anderen die Trainingsmethode.
Wir wissen, dass es im Wesentlichen zwei Möglichkeiten gibt, MoE-Modelle zu trainieren. Eines ist Upcycle, das darin besteht, die Modellleistung auf effizientere und wirtschaftlichere Weise weiter zu verbessern, indem die Zwischenergebnisse des Trainingsprozesses oder das bereits trainierte Modell wiederverwendet werden. Diese Trainingsmethode erfordert eine geringe Rechenleistung und weist eine hohe Trainingseffizienz auf, das trainierte Modell weist jedoch häufig eine untere Obergrenze auf. Wenn beispielsweise beim Training eines MoE-Modells mehrere Expertenmodelle durch Kopieren und Feinabstimmung desselben Grundmodells erhalten werden, besteht möglicherweise ein hoher Grad an Ähnlichkeit zwischen diesen Expertenmodellen. Diese Homogenität schränkt die Leistungsverbesserung des MoE-Modells ein . Raum.
Angesichts dieser Einschränkungen wählte Step Stars einen anderen Ansatz – völlig unabhängige Forschung, Entwicklung und Schulung von Grund auf. Obwohl diese Methode schwer zu trainieren ist und viel Rechenleistung verbraucht, kann sie eine höhere Obergrenze des Modells erreichen.
Konkret führten sie zunächst einige Innovationen im MoE-Architekturdesign ein, darunter einige Experten, die Parameter gemeinsam nutzten, heterogenes Expertendesign usw. Ersteres stellt sicher, dass bestimmte gemeinsame Fähigkeiten von mehreren Experten geteilt werden, gleichzeitig aber jeder Experte seine Einzigartigkeit behält. Letzteres erhöht die Vielfalt und Gesamtleistung des Modells, indem verschiedene Arten von Expertenmodellen entworfen werden, sodass jeder Experte bei bestimmten Aufgaben einzigartige Vorteile hat.
Basierend auf diesen Innovationen verfügt Step-2 nicht nur über eine Gesamtzahl von Parametern, die das Billionenniveau erreichen, sondern auch die Anzahl der für jedes Training oder jede Inferenz aktivierten Parameter übertrifft die meisten dichtesten Modelle auf dem Markt.
Darüber hinaus ist das Training eines solchen Billionen-Parameter-Modells von Grund auf auch ein großer Test für das Systemteam. Glücklicherweise verfügt das Team von Step Star System über umfangreiche praktische Erfahrung im Systemaufbau und -management, die es ihm ermöglicht hat, Schlüsseltechnologien wie 6D-Parallelität, extremes Videospeichermanagement und vollautomatischen Betrieb und Wartung während des Schulungsprozesses erfolgreich zu durchbrechen und erfolgreich abzuschließen Schritt 2. Zug. Das multimodale Großmodell Step-1.5V steht auf den Schultern von Step-2
Vor drei Monaten veröffentlichte Step Star das multimodale Großmodell Step-1V. Mit der Veröffentlichung der offiziellen Version von Step-2 wurde kürzlich auch dieses große multimodale Modell auf Version 1.5 aktualisiert.
Step-1.5V konzentriert sich hauptsächlich auf multimodale Verständnisfähigkeiten. Im Vergleich zu früheren Versionen wurden seine Wahrnehmungsfähigkeiten erheblich verbessert. Es kann komplexe Diagramme und Flussdiagramme verstehen, komplexe geometrische Positionen im physischen Raum genau wahrnehmen und auch Bilder mit hoher Auflösung und extremen Seitenverhältnissen verarbeiten.

Enthüllt: Step Star Trillion MoE+ multimodale große Modellmatrix enthüllt

Darüber hinaus kann es auch Videos verstehen, einschließlich Objekte, Charaktere, Umgebungen sowie die Gesamtatmosphäre und die Emotionen der Charaktere in den Videos.

Wie bereits erwähnt, spielte Step-2 eine unverzichtbare Rolle bei der Geburt von Step-1.5V. Das bedeutet, dass während des RLHF-Trainingsprozesses (Reinforcement Learning based on Human Feedback) von Step-1.5V Step-2 als überwachtes Modell verwendet wird, was Step-1.5V mit einer Billion Parametern entspricht. Unter der Anleitung dieses Lehrers wurde die Denkfähigkeit von Step-1.5V erheblich verbessert und es können verschiedene fortgeschrittene Denkaufgaben basierend auf Bildinhalten ausgeführt werden, z. B. das Lösen mathematischer Probleme, das Schreiben von Code, das Verfassen von Gedichten usw. Dies ist auch eine der Fähigkeiten, die OpenAI GPT-4o kürzlich unter Beweis gestellt hat. Diese Fähigkeit hat die Außenwelt voller Erwartungen an seine Anwendungsaussichten geweckt. Die multimodale Generierungsfähigkeit spiegelt sich vor allem im neuen Modell Step-1X wider. Im Vergleich zu einigen ähnlichen Modellen verfügt es über eine bessere semantische Ausrichtung und Befehlsfolgefähigkeit. Gleichzeitig wurde es stark für chinesische Elemente optimiert und ist besser für den ästhetischen Stil der Chinesen geeignet.

Das auf diesem Modell basierende interaktive KI-Erlebnis von „Havoc in Heaven“ integriert Bildverständnis, Stilübertragung, Bildgenerierung, Handlungserstellung und andere Funktionen und zeigt die branchenführende Multimodalität von reichhaltig und dreidimensional Level „Step Stars“.

Beim Generieren des Anfangszeichens ermittelt das System beispielsweise zunächst, ob das vom Benutzer hochgeladene Foto die Anforderungen für „Gesichtszwicken“ erfüllt, und gibt dann flexibel Feedback in einem sehr „Havoc in Heaven“-Sprachstil. Dies spiegelt die Bildverständnisfähigkeit des Modells und die Fähigkeit des Modells für große Sprachen wider. Durch die Unterstützung der Großmodelltechnologie ermöglicht dieses Spiel den Spielern ein völlig anderes interaktives Erlebnis als herkömmliche Online-H5-Spiele. Da alle interaktiven Fragen, Benutzerbilder und Analyseergebnisse vom Modell nach dem Erlernen von Funktionen in Echtzeit generiert werden, wird die Möglichkeit von Tausenden von Menschen und Gesichtern sowie unbegrenzten Darstellungen wirklich realisiert.

Diese hervorragenden Leistungen sind untrennbar mit der von Step Star Full Link entwickelten DiT-Modellarchitektur verbunden (Sora von OpenAI ist ebenfalls eine DiT-Architektur). Um mehr Menschen die Nutzung dieses Modells zu ermöglichen, hat Step Star drei verschiedene Parametergrößen für Step-1X entwickelt: 600M, 2B und 8B, um den Anforderungen verschiedener Rechenleistungsszenarien gerecht zu werden. Enthüllt: Step Star Trillion MoE+ multimodale große Modellmatrix enthüllt

Bei der Debütveranstaltung im März machte Jiang Daxin, der Gründer von Step Star, deutlich, dass er davon überzeugt ist, dass die Entwicklung großer Modelle drei Phasen durchlaufen wird:

In der ersten Phase entwickelt sich jede Modalität wie Sprache, Bild und Ton unabhängig voneinander, und das Modell jeder Modalität konzentriert sich auf das Erlernen und Charakterisieren der Merkmale ihrer spezifischen Modalität.
In der zweiten Stufe beginnen verschiedene Modi zu verschmelzen. Diese Integration ist jedoch nicht vollständig und die Aufgaben des Verstehens und der Generierung sind immer noch getrennt, was dazu führt, dass das Modell über eine starke Fähigkeit zum Verstehen, aber eine schwache Fähigkeit zur Generierung verfügt oder umgekehrt.
In der dritten Stufe werden Erzeugung und Verständnis in einem Modell vereint und dann vollständig in den Roboter integriert, um verkörperte Intelligenz zu bilden. Als nächstes erkundet die verkörperte Intelligenz aktiv die physische Welt und entwickelt sich dann allmählich zu einem Weltmodell, wodurch AGI realisiert wird.

Dies ist auch der Weg, den Jiang Daxin und andere seit Beginn ihres Geschäfts verfolgen. Auf diesem Weg sind „Billionen von Parametern“ und „Multimode-Fusion“ unverzichtbar Schritt-2, Schritt-1,5V und Schritt-1X sind allesamt Knotenpunkte, die sie auf diesem Weg erreicht haben.

Darüber hinaus sind diese Knoten miteinander verbunden. Nehmen Sie als Beispiel das zu Beginn des Jahres veröffentlichte Videogenerierungsmodell Sora, das das interne Tool von OpenAI (höchstwahrscheinlich GPT-4V) für die Annotation nutzte und GPT-4V auf Basis von GPT-4-bezogenen Technologien trainierte. Aus heutiger Sicht werden die leistungsstarken Fähigkeiten einmodaler Modelle den Grundstein für Multimodalität legen; das Verständnis von Multimodalität wird den Grundstein für die Generierung legen. Anhand einer solchen Modellmatrix erkennt OpenAI, dass der linke Fuß auf den rechten Fuß tritt. Und Step Star bestätigt diesen Weg in China.

Wir freuen uns darauf, dass dieses Unternehmen dem inländischen Großmodellbereich weitere Überraschungen beschert.

Das obige ist der detaillierte Inhalt vonEnthüllt: Step Star Trillion MoE+ multimodale große Modellmatrix enthüllt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!