Eine Reihe großer Modelle mit 7 bis 13 Milliarden Parametern wurden in China bereits als Open-Source-Modelle bereitgestellt. Die Implementierungsergebnisse liegen vor und das Open-Source-Ökosystem wurde zunächst etabliert. Da die Komplexität und das Datenvolumen von Aufgaben wie Agenten zunehmen, wird die Nachfrage der Industrie und der Community nach größeren Modellen immer dringlicher.
Untersuchungen zeigen, dass die Leistung großer Modelle umso kontinuierlich verbessert werden kann, je höher die Anzahl der Parameter und je hochwertigere Trainingsdaten sind. Der allgemeine Konsens in der Branche besteht darin, dass große Modelle erst dann „intelligent entstehen“ und bei mehreren Aufgaben leistungsstarke Leistung zeigen können, wenn die Parameterschwelle von 50 bis 60 Milliarden erreicht wird. Das Training eines Modells dieser Größenordnung ist jedoch teuer und erfordert hohe technische Anforderungen. Derzeit wird es hauptsächlich als kostenpflichtiges Closed-Source-Modell bereitgestellt. Im ausländischen Open-Source-Ökosystem sind Benchmark-Modelle wie Llama2-70B und Falcon-180B bedingt Open Source, mit kommerziellen Obergrenzen für monatliche aktive Benutzer oder Einnahmen und weisen aufgrund fehlender Trainingsdaten offensichtliche Mängel bei den chinesischen Sprachfähigkeiten auf . Darüber hinaus könnte das kürzlich in den USA verkündete Verbot von KI-Chips die Entwicklungsgeschwindigkeit der großen chinesischen Modellindustrie weiter einschränken. Die Branche fordert dringend ein leistungsstarkes, groß angelegtes inländisches Modell, um die ökologische Lücke zu schließen und leistungsfähigere Verständnis-, Argumentations- und Langtextgenerierungsfunktionen für chinesische Anwendungen bereitzustellen. In diesem Zusammenhang kündigte die Yuanxiang XVERSE Company
Open Source des 65-Milliarden-Parameter-Hochleistungs-Universal-Großmodells Darüber hinaus wurde das 13B-Modell vollständig aktualisiert, um die Obergrenze der Fähigkeiten kleiner Modelle zu erhöhen. Dies wird es einer großen Anzahl kleiner und mittlerer Unternehmen, Forscher und KI-Entwickler ermöglichen, die Freiheit großer Modelle früher zu nutzen. Sie können große Yuanxiang-Modelle entsprechend ihrer Rechenleistung, Ressourcenbeschränkungen und spezifischen Aufgabenanforderungen frei verwenden, modifizieren oder destillieren , Förderung von Durchbrüchen in Forschung und Anwendung.Modelladresse: https://huggingface.co/xverse/XVERSE-65BYuanxiang hat innerhalb von drei Monaten mehrere leistungsstarke 7B- und 13B-Modelle entwickelt und der Community erstmals ein vielversprechendes 65B-Modell vorgestellt Zeit und schafft dreifachen Mehrwert für Forschung, Wirtschaft und Ökologie. „Konkret kann das 65B-Modell die folgenden Vorteile haben. Auswirkungen:
In Bezug auf Forschung und Entwicklung wird 65B einen „großen Hebel“ für neue Technologien bieten , neue Tools, Leistungsoptimierung und Modellsicherheit, die es der Community ermöglichen, schnell Erfahrungen zu sammeln und auch dazu beitragen, das langfristige Ziel der nationalen Unabhängigkeit und Kontrollierbarkeit von Wissenschaft und Technologie zu fördern. Kommerziell können viele kleine und mittlere Unternehmen „große Werkzeuge“ kostenlos nutzen, wodurch Einschränkungen durchbrochen und erhebliche Anwendungsinnovationen gefördert werden können. Yuanxiang bietet außerdem Einblicke in Anwendungsfälle, Sicherheitsmodellbereitstellungen und potenzielle Möglichkeiten.Das Kontextfenster wurde auf 16 KB erweitert und unterstützt mehr als 40 Sprachen, darunter Chinesisch, Englisch, Russisch und Französisch.
Erweiterte Möglichkeiten des Tool-Aufrufs, der Code-Erklärung, der Reflexion und Korrektur usw., wodurch eine technische Grundlage für den Aufbau intelligenter Agenten geschaffen und die Praktikabilität des Modells verbessert wurde.
Erhebliche Linderung häufiger und potenziell schwerwiegender Halluzinationsprobleme in 7B und 13B, Reduzierung der Illusion großer Modelle, erhöhte Genauigkeit und Professionalität.
Die großen Yuanxiang-Modellreihen sind alle in der gesamten Kette selbst entwickelt und decken eine Reihe von Schlüsseltechnologien und F&E-Innovationen ab: 1. Komplexes verteiltes Systemdesign: Lernen Sie aus der Forschung und Entwicklung des Teams zu Tencent Go AI. Exquisite Art“, King of Glory AI „Excellent Art“ Mit umfangreicher Erfahrung in großen Systemen wie „Wu“ verfügen wir über selbst entwickelte Schlüsseltechnologien wie effiziente Operatoren, Speicheroptimierung, parallele Planungsstrategien, Daten-Computing-Kommunikationsüberlappung, und die Zusammenarbeit zwischen Plattform und Framework, um ein effizientes und stabiles Trainingssystem zu schaffen. Die Energieauslastung erreichte 58,5 % und gehört damit zu den Spitzenreitern der Branche.3. Trainingsstabilität extrem verbessern: Aufgrund der großen Menge an Berechnungen sind Kommunikationsstaus, Chip-Überhitzung oder Rechenknotenausfälle zur Norm beim 65B-Training geworden. Durch kontinuierliche Optimierung des Cluster-Infrastrukturbetriebs, der Ressourcenplanung, des Trainingsrahmens und der Zusammenarbeit mit der Planungsplattform hat Yuanxiang ein Trainingssystem mit hoher Stabilität, geringer Unterbrechung und starker Fehlertoleranz geschaffen und die wöchentliche effektive Trainingsrate auf 98,6 % erhöht.
Außerdem erzeugte die Verlustfunktion mitten im Modelltraining mit fast 1,6 Billionen Token NaN-Werte, was zu Trainingsunterbrechungen führen kann. Normalerweise löscht die Industrie die relevanten Datenintervalle nach der Analyse grundsätzlich. Aufgrund der Erfahrung stellte das Team fest, dass dies die natürliche Entwicklung des Modells war, entschied sich dafür, die Daten nicht zu löschen und übersprang direkt die relevanten Parameteraktualisierungen. Schließlich wurde das NaN-Wertproblem gelöst. Eine spätere weitere Analyse von Zwischenzuständen wie Parameterwerten, Aktivierungswerten und Gradientenwerten zeigte, dass das Problem möglicherweise mit der Änderung des Maximalwerts des Aktivierungswerts des Transformatorblocks in der letzten Schicht des Modells zusammenhängt wird von selbst aufgelöst, wenn der Maximalwert allmählich abnimmt.问题 Lösung des NAN-Wertproblems Forschungs- und Entwicklungserfahrung
Umfassende Bewertung der 65B-Leistung ist vergleichbar mit GPT3.5, um sicherzustellen, dass die Branche eine umfassende, objektive und langfristige Erkenntnis über die Leistung des Hauptmodells erhalten kann des Elefanten Unter Bezugnahme auf eine Reihe maßgeblicher akademischer Bewertungen wurden 11 gängige maßgebliche Bewertungsstandards entwickelt, die sechs Dimensionen wie Frage und Antwort, Verständnis, Wissen, Argumentation, Mathematik und Codierung abdecken und kontinuierlich verwendet und iteriert werden. XVERSE-65B hat in China kein vergleichbares Modell zum Vergleich. In der Vergleichsbewertung mit ausländischen Benchmarks übertrafen einige Indikatoren die Gesamtleistung und übertrafen die Open-Source-Benchmarks Llama2-70B und GPT3.5 deutlich Falcon-180B ist immer noch auf Augenhöhe mit GPT4. Es gibt eine Lücke.
Verbessert die Obergrenze der Fähigkeiten kleiner Modelle erheblich. Es verfügt sowohl über Künste als auch über Naturwissenschaften und behält seine Vorteile in den Geisteswissenschaften bei. Die Fragen und Antworten haben sich um 18 % verbessert, die Wissenschaft hat sich um 149 % verbessert und die Mathematik hat sich um 198 % verbessert übertraf inländische und ausländische Open-Source-Benchmarks wie Llama2 und Baichuan2 vollständig. ✨ Elefantenmodelle können auf Github, Hugging Face, ModelScope und anderen Plattformen nach „XVERSE“ gesucht werden Iterationsbedürfnisse kleiner und mittlerer Unternehmen, wissenschaftlicher Forschungseinrichtungen und einzelner Entwickler. Yuanxiang bietet außerdem eine umfassende Palette technischer Dienstleistungen wie Modellschulung, Inferenz, Bereitstellung und Feinabstimmung, stärkt verschiedene Branchen wie Unterhaltung, Finanzen und medizinische Versorgung und hilft bei der Entwicklung branchenführender Dienste in verschiedenen Szenarien wie z wie intelligenter Kundenservice, kreatives Schreiben und genaue Empfehlungen. Im Oktober 2023 kündigte Tencent Music eine strategische Zusammenarbeit mit Yuanxiang Model an, brachte gemeinsam das beschleunigte Modell lyraXVERSE auf den Markt und modernisierte seinen Musikassistenten „AI Xiaoqin“. Spitzentechnologien zur Führung der Musikunterhaltung. Innovative Richtung. Yao Die XVERSE-Open-Source-Reihe hat sich zum Ziel gesetzt, die inländische Substitution und kontinuierliche technologische Innovation großer Modelle zu fördern und der Entwicklung der Realwirtschaft und der digitalen Wirtschaft starke Impulse zu verleihen „Über Yuan! XiangXVERSE wurde Anfang 2021 in Shenzhen gegründet. Es ist ein führendes inländisches KI- und 3D-Technologie-Dienstleistungsunternehmen. Es hat sich dem Aufbau einer KI verschrieben -gesteuerte One-Stop-Plattform für die Produktion und den Konsum von 3D-Inhalten mit der Vision, „Ihre Welt zu definieren“.
Das obige ist der detaillierte Inhalt vonYuanxiang XVERSE-65B: Das größte Open-Source-Modell in China ist da, mit hoher Leistung und bedingungsloser kostenloser kommerzieller Nutzung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!