Die neueste bGPT-Errungenschaft von Microsoft Research Asia, dieses bytebasierte Transformer-Modell, öffnet uns eine neue Tür zur Erkundung der digitalen Welt.
Im Gegensatz zu herkömmlichen, auf Vokabeln basierenden Sprachmodellen ist bGPT insofern einzigartig, als es rohe Binärdaten direkt verarbeiten kann, ohne durch bestimmte Formate oder Aufgaben eingeschränkt zu sein. Ziel ist es, die digitale Welt vollständig zu simulieren und so neue Möglichkeiten für die Modellentwicklung zu eröffnen.
Papier: https://www.php.cn/link/ee88b3cea2051be97bcddf2e0d9a28f6
Code: https://www .php. cn/link/359499f804ea7988921bf86c9377fb95
Modell: https://www.php.cn/link/4b459ea1a5917be436df5f0bd5b3c4ad
Projekthomepage: https://www.php.cn/link/71af596 14c 8b42af334933e9261e53be
In ihrer Forschungsarbeit zeigte das Forschungsteam das enorme Potenzial von bGPT für die Modellierung auf. Durch die Verarbeitung auf Byte-Ebene kann bGPT nicht nur Text, Bilder und Audio generieren, sondern auch das Computerverhalten simulieren, einschließlich Formatkonvertierungsalgorithmen und Modellierung von CPU-Zuständen. Dieser Ansatz, alle Daten als eine Folge von Bytes zu behandeln, ermöglicht es bGPT, verschiedene Datentypen in dasselbe Framework zu integrieren.
Nach seiner Veröffentlichung löste das Papier von bGPT eine breite Diskussion auf
Binärdaten sind der Grundstein der digitalen Welt. Sie durchlaufen Computerprozessoren und die Betriebssysteme der elektronischen Produkte, die wir täglich verwenden, und sind der Kern von allem Daten, Geräte und Software. Auf dieser Grundlage besteht das Ziel von bGPT daher darin, die interne Logik digitaler Systeme durch die Untersuchung binärer Datensequenzen zu verstehen und dadurch verschiedene komplexe digitale Phänomene umzuformen und zu simulieren.
bGPT kann nicht nur auf herkömmliche KI-Generierungs- und Verständnisaufgaben durch Verarbeitung auf Byteebene angewendet werden, sondern kann auch weniger traditionelle Anwendungen verarbeiten. Es kann beispielsweise MIDI direkt simulieren – ein Standardformat für die Übertragung und Speicherung von Musik, dessen direkte Modellierung in früheren Untersuchungen aufgrund der binären Natur von MIDI vermieden wurde.
Aber bGPT eignet sich natürlich für solche Aufgaben und kann den Konvertierungsalgorithmus von Musikdaten genau simulieren, wodurch eine extrem niedrige Fehlerrate (0,0011 BPB) bei der Konvertierung der ABC-Notation in das MIDI-Format erreicht wird.
In praktischen Anwendungen ist bGPT normalerweise in der Lage, die Konvertierung zwischen ABC-Symbolen und MIDI-Dateien genau durchzuführen und kann manchmal sogar Fehler in den Originaldateien korrigieren, um die Musikkonvertierung genauer zu machen.
bGPT konvertiert die ABC-Notation automatisch in das MIDI-Format (oben). Der Vergleich mit den Original-MIDI-Daten (unten) verdeutlicht den wesentlichen Unterschied: Obwohl den Original-MIDI-Daten ein Takt fehlt (siehe Bild unten). ), wodurch die Akkordbegleitung getrennt wird, aber das von bGPT konvertierte Ergebnis (siehe Bild oben) füllt diese Lücke korrekt und stellt die Glätte der Akkordbegleitung sicher.
Das Forschungsteam betrachtet die CPU-Modellierung auch als eine repräsentative Aufgabe der Hardware-Verhaltenssimulation: Diese Aufgabe erfordert, dass das Modell eine Folge von Maschinenanweisungen auf niedriger Ebene als Eingabe erhält, und ihr Ziel ist es, den CPU-Zustand genau vorherzusagen wird nach der Ausführung jeder Anweisung aktualisiert, bis das Programm stoppt.
Bei dieser Aufgabe zeigte bGPT eine Genauigkeit von über 99,99 % und demonstrierte damit die Leistungsfähigkeit und Skalierbarkeit des Byte-Modells bei der Verarbeitung nativer Binärdaten.
Angesichts des Programms und des anfänglichen CPU-Status ist bGPT in der Lage, den gesamten Prozess der CPU-Ausführung bis zur Programmbeendigung genau vorherzusagen. In diesem Beispiel verarbeitet bGPT alle CPU-Anweisungen korrekt. Zum besseren Verständnis wird die tatsächliche Bytefolge in ein besser lesbares Format umgewandelt.
bGPT kann nicht nur native Binärdaten verarbeiten, sondern auch mehrere Datentypen in eine einheitliche Modellarchitektur integrieren und alle Daten als Bytefolge behandeln.
Dieser Ansatz vereinfacht nicht nur den Datenmodellierungsprozess, sondern macht auch die Integration aus beliebigen Datenquellen zum Kinderspiel, ohne dass Modelle für bestimmte Datentypen angepasst werden müssen.
Das Forschungsteam nannte in dem Artikel Beispiele für traditionelle Text-, Bild- und Audiodateien und demonstrierte damit die Fähigkeiten von bGPT bei der einheitlichen Datenmodellierung. Das von ihnen trainierte bGPT-Modell verfügt über etwa 100 Millionen Parameter.
Experimentelle Ergebnisse zeigen, dass bGPT im Vergleich mit Modellen der gleichen Größe wie GPT-2 (Textmodell), ViT (visuelles Modell) und AST (Audiomodell) eine vergleichbare Leistung bei verschiedenen Datentypen zeigt.
bGPT schneidet bei der Textgenerierung sehr gut ab. Dank seiner Textkodierung auf Byte-Ebene ist das Modell nicht auf Vokabular angewiesen und kann daher alle Sprachen unterstützen.
Seine mehrschichtige Transformer-Architektur kann, obwohl der Rechenaufwand GPT-2 ähnelt, Text mit einer Größe von bis zu 8 KB generieren, was die Längenbeschränkung von GPT-2 deutlich überschreitet. Nach dem Vortraining anhand von Wikipedia-Daten ist der von bGPT generierte Text sowohl im Stil als auch im Thema mit GPT-2 vergleichbar, was seine leistungsstarke Fähigkeit bei der Textgenerierung unter Beweis stellt.
bGPT ist auf dem Wikipedia-Datensatz vorab trainiert und die Qualität und Themenkonsistenz der generierten Textbeispiele sind mit GPT-2 vergleichbar.
bGPT kann Bilder erzeugen, indem es das nächste Byte in einer Folge von Bildbytes vorhersagt. Das Modell ist auf dem ImageNet-Datensatz vorab trainiert und die generierten Bilder haben eine Auflösung von 32 x 32 Pixel.
Obwohl es schwierig ist, die zweidimensionale räumliche Beziehung von Bildern durch Bytesequenzen im aktuellen Maßstab genau zu erfassen, was zu Artefakten und Rauschen in den erzeugten Bildern führt, sind Textur sowie Licht- und Schatteneffekte normalerweise relativ genau.
Darüber hinaus können diese generierten Bilder normal in BMP-Dateien dekodiert werden. Das Forschungsteam wies darauf hin, dass durch die Erweiterung des bGPT-Maßstabs, ähnlich der von OpenAI entwickelten Methode zur Pixelsequenzmodellierung von iGPT, möglicherweise eine höhere Qualität und eine realistischere Bilderzeugung erreicht werden kann.
Dies ist eine Reihe von Bildern, die von bGPT generiert und auf dem ImageNet-Datensatz vorab trainiert wurden. Während die Textur und die Lichteffekte der Bilder im Allgemeinen genau sind, kann es schwierig sein, die Hauptobjekte in diesen generierten Bildern zu identifizieren.
bGPT behandelt Audiodaten als Bytesequenz und kann 1 Sekunde lange Audiosamples mit einer Abtastrate von 8000 Hz erzeugen.
Das Modell wurde am LibriSpeech-Datensatz vorab trainiert und am Speech Commands v2-Datensatz weiter verfeinert und demonstriert. Die von bGPT erzeugten Audio-Samples weisen ein hohes Maß an Genauigkeit auf, wobei einige Samples kaum von echtem Audio zu unterscheiden sind. Im Folgenden finden Sie eine Reihe von Beispielen, die die Fähigkeiten von bGPT im Bereich der Audioerzeugung demonstrieren.
Traditionelle Sprachmodelle, egal wie leistungsfähig sie sind, konzentrieren sich hauptsächlich auf die Verarbeitung natürlichsprachlicher Texte. Das bGPT-Modell durchbricht die Einschränkung der Textverarbeitung durch einen bytebasierten Verarbeitungsmechanismus und eröffnet eine neue Datenverarbeitungskategorie.
Diese Weiterentwicklung gibt bGPT die Möglichkeit, verschiedene Datentypen, einschließlich Text, Bilder, Audio und sogar native Binärdaten von Algorithmen und Hardware, nahtlos zu verarbeiten und ebnet so den Weg für eine umfassende Simulation und ein umfassendes Verständnis der digitalen Welt.
Obwohl bGPT überzeugende Fähigkeiten gezeigt hat, weist es Einschränkungen hinsichtlich des Rechenaufwands auf, z. B. ist es derzeit nur in der Lage, Bytesequenzen von bis zu 8 KB auf herkömmlichen Grafikkarten zu verarbeiten. Für diejenigen, die große Mengen generieren oder verarbeiten müssen Daten, In Bezug auf die Anwendung gibt es offensichtliche Einschränkungen. Zukünftige Arbeitspläne werden sich auf die Entwicklung effizienterer Algorithmen und die Nutzung von Fortschritten in der Hardware konzentrieren, um die Fähigkeit zur Verarbeitung größerer Datensequenzen zu verbessern.
Technologiebegeisterte auf der ganzen Welt freuen sich auf das zukünftige Potenzial von bGPT, von der Optimierung der Netzwerkbereinigung und des Selbstlernens bis hin zu den Selbstrekonfigurationsfähigkeiten sehr großer Netzwerke. Diese Diskussionen weisen auf eine Gemeinsamkeit hin Vision: bGPT könnte schließlich ein einheitliches Modell realisieren, das alle Arten von Byte-Daten verarbeiten und ausgeben kann und so zu einem wirklich umfassenden Simulator der digitalen Welt wird.
Das Forschungsteam hat den Code und das Modell von bGPT als Open Source bereitgestellt. Dies bedeutet, dass Sie bGPT direkt auf Ihrem eigenen Datensatz trainieren können, ohne Anpassungen an der Modellarchitektur vorzunehmen, und die breiten Perspektiven von Byte-Modellen im digitalen Bereich erkunden können.
Das obige ist der detaillierte Inhalt vonWird LLM Geschichte? Open-Source-bGPT kann das Deep-Learning-Paradigma untergraben: Binärdateien direkt simulieren und so eine neue Ära der analogen digitalen Welt eröffnen!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!