


Yuanxiang XVERSE-65B: Das größte Open-Source-Modell in China ist da, mit hoher Leistung und bedingungsloser kostenloser kommerzieller Nutzung
Eine Reihe großer Modelle mit 7 bis 13 Milliarden Parametern wurden in China bereits als Open-Source-Modelle bereitgestellt. Die Implementierungsergebnisse liegen vor und das Open-Source-Ökosystem wurde zunächst etabliert. Da die Komplexität und das Datenvolumen von Aufgaben wie Agenten zunehmen, wird die Nachfrage der Industrie und der Community nach größeren Modellen immer dringlicher.
Untersuchungen zeigen, dass die Leistung großer Modelle umso kontinuierlich verbessert werden kann, je höher die Anzahl der Parameter und je hochwertigere Trainingsdaten sind. Der allgemeine Konsens in der Branche besteht darin, dass große Modelle erst dann „intelligent entstehen“ und bei mehreren Aufgaben leistungsstarke Leistung zeigen können, wenn die Parameterschwelle von 50 bis 60 Milliarden erreicht wird. Das Training eines Modells dieser Größenordnung ist jedoch teuer und erfordert hohe technische Anforderungen. Derzeit wird es hauptsächlich als kostenpflichtiges Closed-Source-Modell bereitgestellt. Im ausländischen Open-Source-Ökosystem sind Benchmark-Modelle wie Llama2-70B und Falcon-180B bedingt Open Source, mit kommerziellen Obergrenzen für monatliche aktive Benutzer oder Einnahmen und weisen aufgrund fehlender Trainingsdaten offensichtliche Mängel bei den chinesischen Sprachfähigkeiten auf . Darüber hinaus könnte das kürzlich in den USA verkündete Verbot von KI-Chips die Entwicklungsgeschwindigkeit der großen chinesischen Modellindustrie weiter einschränken. Die Branche fordert dringend ein leistungsstarkes, groß angelegtes inländisches Modell, um die ökologische Lücke zu schließen und leistungsfähigere Verständnis-, Argumentations- und Langtextgenerierungsfunktionen für chinesische Anwendungen bereitzustellen. In diesem Zusammenhang kündigte die Yuanxiang XVERSE Company
Open Source des 65-Milliarden-Parameter-Hochleistungs-Universal-Großmodells Darüber hinaus wurde das 13B-Modell vollständig aktualisiert, um die Obergrenze der Fähigkeiten kleiner Modelle zu erhöhen. Dies wird es einer großen Anzahl kleiner und mittlerer Unternehmen, Forscher und KI-Entwickler ermöglichen, die Freiheit großer Modelle früher zu nutzen. Sie können große Yuanxiang-Modelle entsprechend ihrer Rechenleistung, Ressourcenbeschränkungen und spezifischen Aufgabenanforderungen frei verwenden, modifizieren oder destillieren , Förderung von Durchbrüchen in Forschung und Anwendung.Modelladresse: https://huggingface.co/xverse/XVERSE-65BYuanxiang hat innerhalb von drei Monaten mehrere leistungsstarke 7B- und 13B-Modelle entwickelt und der Community erstmals ein vielversprechendes 65B-Modell vorgestellt Zeit und schafft dreifachen Mehrwert für Forschung, Wirtschaft und Ökologie. „Konkret kann das 65B-Modell die folgenden Vorteile haben. Auswirkungen:

- Im Entwickler-Ökosystem kann die Community die Vorteile organisatorischer Synergien voll ausschöpfen und die „kambrische Explosion“ von F&E-Anwendungen fördern.
Das Kontextfenster wurde auf 16 KB erweitert und unterstützt mehr als 40 Sprachen, darunter Chinesisch, Englisch, Russisch und Französisch.
Yuanxiang hält an der Hochleistungspositionierung fest und hat die Fähigkeiten von 65B in drei Aspekten deutlich verbessert:

Erweiterte Möglichkeiten des Tool-Aufrufs, der Code-Erklärung, der Reflexion und Korrektur usw., wodurch eine technische Grundlage für den Aufbau intelligenter Agenten geschaffen und die Praktikabilität des Modells verbessert wurde.
Erhebliche Linderung häufiger und potenziell schwerwiegender Halluzinationsprobleme in 7B und 13B, Reduzierung der Illusion großer Modelle, erhöhte Genauigkeit und Professionalität.
Die großen Yuanxiang-Modellreihen sind alle in der gesamten Kette selbst entwickelt und decken eine Reihe von Schlüsseltechnologien und F&E-Innovationen ab: 1. Komplexes verteiltes Systemdesign: Lernen Sie aus der Forschung und Entwicklung des Teams zu Tencent Go AI. Exquisite Art“, King of Glory AI „Excellent Art“ Mit umfangreicher Erfahrung in großen Systemen wie „Wu“ verfügen wir über selbst entwickelte Schlüsseltechnologien wie effiziente Operatoren, Speicheroptimierung, parallele Planungsstrategien, Daten-Computing-Kommunikationsüberlappung, und die Zusammenarbeit zwischen Plattform und Framework, um ein effizientes und stabiles Trainingssystem zu schaffen. Die Energieauslastung erreichte 58,5 % und gehört damit zu den Spitzenreitern der Branche.- 2. Umfassende Verbesserung der Leistung: FlashAttention2 wird verwendet, um Berechnungen im 65B-Training zu beschleunigen, und die auf 3D-Parallelität basierende virtuelle Pipeline-Technologie wird verwendet, um die durch lange Pipelines erzeugte übermäßige Blasenrate zu reduzieren und die Effizienz des rechnerischen Denkens schrittweise zu verbessern von 8K erhöht Das Upgrade auf 16K ermöglicht nicht nur die erfolgreiche Durchführung komplexer Aufgaben, einschließlich des Verstehens langer Texte, der Generierung langer Texte und ultralanger Dialoge, sondern erweitert auch die Funktionen zum Aufrufen von Werkzeugen, zur Codeinterpretation sowie zur Reflexion und Korrektur und ermöglicht so eine bessere Erstellung intelligente Agenten (KI-Agenten).
3. Trainingsstabilität extrem verbessern: Aufgrund der großen Menge an Berechnungen sind Kommunikationsstaus, Chip-Überhitzung oder Rechenknotenausfälle zur Norm beim 65B-Training geworden. Durch kontinuierliche Optimierung des Cluster-Infrastrukturbetriebs, der Ressourcenplanung, des Trainingsrahmens und der Zusammenarbeit mit der Planungsplattform hat Yuanxiang ein Trainingssystem mit hoher Stabilität, geringer Unterbrechung und starker Fehlertoleranz geschaffen und die wöchentliche effektive Trainingsrate auf 98,6 % erhöht.
Außerdem erzeugte die Verlustfunktion mitten im Modelltraining mit fast 1,6 Billionen Token NaN-Werte, was zu Trainingsunterbrechungen führen kann. Normalerweise löscht die Industrie die relevanten Datenintervalle nach der Analyse grundsätzlich. Aufgrund der Erfahrung stellte das Team fest, dass dies die natürliche Entwicklung des Modells war, entschied sich dafür, die Daten nicht zu löschen und übersprang direkt die relevanten Parameteraktualisierungen. Schließlich wurde das NaN-Wertproblem gelöst. Eine spätere weitere Analyse von Zwischenzuständen wie Parameterwerten, Aktivierungswerten und Gradientenwerten zeigte, dass das Problem möglicherweise mit der Änderung des Maximalwerts des Aktivierungswerts des Transformatorblocks in der letzten Schicht des Modells zusammenhängt wird von selbst aufgelöst, wenn der Maximalwert allmählich abnimmt.问题 Lösung des NAN-Wertproblems Forschungs- und Entwicklungserfahrung
Umfassende Bewertung der 65B-Leistung ist vergleichbar mit GPT3.5, um sicherzustellen, dass die Branche eine umfassende, objektive und langfristige Erkenntnis über die Leistung des Hauptmodells erhalten kann des Elefanten Unter Bezugnahme auf eine Reihe maßgeblicher akademischer Bewertungen wurden 11 gängige maßgebliche Bewertungsstandards entwickelt, die sechs Dimensionen wie Frage und Antwort, Verständnis, Wissen, Argumentation, Mathematik und Codierung abdecken und kontinuierlich verwendet und iteriert werden. XVERSE-65B hat in China kein vergleichbares Modell zum Vergleich. In der Vergleichsbewertung mit ausländischen Benchmarks übertrafen einige Indikatoren die Gesamtleistung und übertrafen die Open-Source-Benchmarks Llama2-70B und GPT3.5 deutlich Falcon-180B ist immer noch auf Augenhöhe mit GPT4. Es gibt eine Lücke.
Verbessert die Obergrenze der Fähigkeiten kleiner Modelle erheblich. Es verfügt sowohl über Künste als auch über Naturwissenschaften und behält seine Vorteile in den Geisteswissenschaften bei. Die Fragen und Antworten haben sich um 18 % verbessert, die Wissenschaft hat sich um 149 % verbessert und die Mathematik hat sich um 198 % verbessert übertraf inländische und ausländische Open-Source-Benchmarks wie Llama2 und Baichuan2 vollständig. ✨ Elefantenmodelle können auf Github, Hugging Face, ModelScope und anderen Plattformen nach „XVERSE“ gesucht werden Iterationsbedürfnisse kleiner und mittlerer Unternehmen, wissenschaftlicher Forschungseinrichtungen und einzelner Entwickler. Yuanxiang bietet außerdem eine umfassende Palette technischer Dienstleistungen wie Modellschulung, Inferenz, Bereitstellung und Feinabstimmung, stärkt verschiedene Branchen wie Unterhaltung, Finanzen und medizinische Versorgung und hilft bei der Entwicklung branchenführender Dienste in verschiedenen Szenarien wie z wie intelligenter Kundenservice, kreatives Schreiben und genaue Empfehlungen. Im Oktober 2023 kündigte Tencent Music eine strategische Zusammenarbeit mit Yuanxiang Model an, brachte gemeinsam das beschleunigte Modell lyraXVERSE auf den Markt und modernisierte seinen Musikassistenten „AI Xiaoqin“. Spitzentechnologien zur Führung der Musikunterhaltung. Innovative Richtung. Yao Die XVERSE-Open-Source-Reihe hat sich zum Ziel gesetzt, die inländische Substitution und kontinuierliche technologische Innovation großer Modelle zu fördern und der Entwicklung der Realwirtschaft und der digitalen Wirtschaft starke Impulse zu verleihen „Über Yuan! Xiang
XVERSE wurde Anfang 2021 in Shenzhen gegründet. Es ist ein führendes inländisches KI- und 3D-Technologie-Dienstleistungsunternehmen. Es hat sich dem Aufbau einer KI verschrieben -gesteuerte One-Stop-Plattform für die Produktion und den Konsum von 3D-Inhalten mit der Vision, „Ihre Welt zu definieren“.Offizielle Website: www. Yao Xing, der Gründer von Yuanxiang, ist ehemaliger Vizepräsident von Tencent und Gründer des Tencent AI Lab sowie Mitglied des strategischen Beratungsausschusses für künstliche Intelligenz der neuen Generation des Ministeriums für Wissenschaft und Technologie. Im Bereich 3D- und KI-Technologie verfügt Yuanxiang über eine umfassende Anhäufung und ein vollständiges Layout. Im 3D-Bereich haben wir unabhängig die branchenführende interaktive 3D-Technologie „Device-Cloud Collaboration“ entwickelt und so ein neues 3D-Erlebnis ohne Schwellenwert (leicht), aus einer Hand (schnell) und in hoher Qualität geschaffen Im KI-Bereich ist Chinas größter Open-Source-Parameter das große Modell XVERSE-65B, das kommerziell genutzt werden kann. Ziel ist es, die Entwicklung der inländischen Substitution und die industrielle Anwendung großer Modelle zu fördern.
Das obige ist der detaillierte Inhalt vonYuanxiang XVERSE-65B: Das größte Open-Source-Modell in China ist da, mit hoher Leistung und bedingungsloser kostenloser kommerzieller Nutzung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Aber vielleicht kann er den alten Mann im Park nicht besiegen? Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt. Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann. Papieradresse: https://arxiv.org/pdf/2408.03906 Wie gut ist der DeepMind-Roboter beim Tischtennisspielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern: Sowohl Vorhand als auch Rückhand: Der Gegner nutzt unterschiedliche Spielstile, und auch der Roboter hält aus: Aufschlagannahme mit unterschiedlichem Spin: Allerdings scheint die Intensität des Spiels nicht so intensiv zu sein wie Der alte Mann im Park. Für Roboter, Tischtennis

Am 21. August fand in Peking die Weltroboterkonferenz 2024 im großen Stil statt. Die Heimrobotermarke „Yuanluobot SenseRobot“ von SenseTime hat ihre gesamte Produktfamilie vorgestellt und kürzlich den Yuanluobot AI-Schachspielroboter – Chess Professional Edition (im Folgenden als „Yuanluobot SenseRobot“ bezeichnet) herausgebracht und ist damit der weltweit erste A-Schachroboter für heim. Als drittes schachspielendes Roboterprodukt von Yuanluobo hat der neue Guoxiang-Roboter eine Vielzahl spezieller technischer Verbesserungen und Innovationen in den Bereichen KI und Maschinenbau erfahren und erstmals die Fähigkeit erkannt, dreidimensionale Schachfiguren aufzunehmen B. durch mechanische Klauen an einem Heimroboter, und führen Sie Mensch-Maschine-Funktionen aus, z. B. Schach spielen, jeder spielt Schach, Überprüfung der Notation usw.

Der Schulstart steht vor der Tür und nicht nur die Schüler, die bald ins neue Semester starten, sollten auf sich selbst aufpassen, sondern auch die großen KI-Modelle. Vor einiger Zeit war Reddit voller Internetnutzer, die sich darüber beschwerten, dass Claude faul werde. „Sein Niveau ist stark gesunken, es kommt oft zu Pausen und sogar die Ausgabe wird sehr kurz. In der ersten Woche der Veröffentlichung konnte es ein komplettes 4-seitiges Dokument auf einmal übersetzen, aber jetzt kann es nicht einmal eine halbe Seite ausgeben.“ !

Auf der World Robot Conference in Peking ist die Präsentation humanoider Roboter zum absoluten Mittelpunkt der Szene geworden. Am Stand von Stardust Intelligent führte der KI-Roboterassistent S1 drei große Darbietungen mit Hackbrett, Kampfkunst und Kalligraphie auf Ein Ausstellungsbereich, der sowohl Literatur als auch Kampfkunst umfasst, zog eine große Anzahl von Fachpublikum und Medien an. Durch das elegante Spiel auf den elastischen Saiten demonstriert der S1 eine feine Bedienung und absolute Kontrolle mit Geschwindigkeit, Kraft und Präzision. CCTV News führte einen Sonderbericht über das Nachahmungslernen und die intelligente Steuerung hinter „Kalligraphie“ durch. Firmengründer Lai Jie erklärte, dass hinter den seidenweichen Bewegungen die Hardware-Seite die beste Kraftkontrolle und die menschenähnlichsten Körperindikatoren (Geschwindigkeit, Belastung) anstrebt. usw.), aber auf der KI-Seite werden die realen Bewegungsdaten von Menschen gesammelt, sodass der Roboter stärker werden kann, wenn er auf eine schwierige Situation stößt, und lernen kann, sich schnell weiterzuentwickeln. Und agil

Tiefe Integration von Vision und Roboterlernen. Wenn zwei Roboterhände reibungslos zusammenarbeiten, um Kleidung zu falten, Tee einzuschenken und Schuhe zu packen, gepaart mit dem humanoiden 1X-Roboter NEO, der in letzter Zeit für Schlagzeilen gesorgt hat, haben Sie vielleicht das Gefühl: Wir scheinen in das Zeitalter der Roboter einzutreten. Tatsächlich sind diese seidigen Bewegungen das Produkt fortschrittlicher Robotertechnologie + exquisitem Rahmendesign + multimodaler großer Modelle. Wir wissen, dass nützliche Roboter oft komplexe und exquisite Interaktionen mit der Umgebung erfordern und die Umgebung als Einschränkungen im räumlichen und zeitlichen Bereich dargestellt werden kann. Wenn Sie beispielsweise möchten, dass ein Roboter Tee einschenkt, muss der Roboter zunächst den Griff der Teekanne ergreifen und sie aufrecht halten, ohne den Tee zu verschütten, und ihn dann sanft bewegen, bis die Öffnung der Kanne mit der Öffnung der Tasse übereinstimmt , und neigen Sie dann die Teekanne in einem bestimmten Winkel. Das

Heute Nachmittag begrüßte Hongmeng Zhixing offiziell neue Marken und neue Autos. Am 6. August veranstaltete Huawei die Hongmeng Smart Xingxing S9 und die Huawei-Konferenz zur Einführung neuer Produkte mit umfassendem Szenario und brachte die Panorama-Smart-Flaggschiff-Limousine Xiangjie S9, das neue M7Pro und Huawei novaFlip, MatePad Pro 12,2 Zoll, das neue MatePad Air und Huawei Bisheng mit Mit vielen neuen Smart-Produkten für alle Szenarien, darunter die Laserdrucker der X1-Serie, FreeBuds6i, WATCHFIT3 und der Smart Screen S5Pro, von Smart Travel über Smart Office bis hin zu Smart Wear baut Huawei weiterhin ein Smart-Ökosystem für alle Szenarien auf, um Verbrauchern ein Smart-Erlebnis zu bieten Internet von allem. Hongmeng Zhixing: Huawei arbeitet mit chinesischen Partnern aus der Automobilindustrie zusammen, um die Modernisierung der Smart-Car-Industrie voranzutreiben

Bei dieser ACL-Konferenz haben die Teilnehmer viel gewonnen. Die sechstägige ACL2024 findet in Bangkok, Thailand, statt. ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, wenn es um akademischen Einfluss im Bereich NLP geht, und ist außerdem eine von der CCF-A empfohlene Konferenz. Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal gibt es 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards. Die Konferenz verlieh außerdem drei Resource Paper Awards (ResourceAward) und einen Social Impact Award (

Künstliche Intelligenz entwickelt sich schneller, als Sie sich vorstellen können. Seit GPT-4 die multimodale Technologie in die Öffentlichkeit gebracht hat, sind multimodale Großmodelle in eine Phase rasanter Entwicklung eingetreten, die sich allmählich von der reinen Modellforschung und -entwicklung hin zur Erforschung und Anwendung in vertikalen Bereichen verlagert und tief in alle Lebensbereiche integriert ist. Im Bereich der Schnittstelleninteraktion haben internationale Technologiegiganten wie Google und Apple in die Forschung und Entwicklung großer multimodaler UI-Modelle investiert, die als einziger Weg für die KI-Revolution im Mobiltelefon gelten. In diesem Zusammenhang wurde das erste groß angelegte UI-Modell in China geboren. Am 17. August stellte Motiff, ein Designtool im KI-Zeitalter, auf der IXDC2024 International Experience Design Conference sein unabhängig entwickeltes multimodales UI-Modell vor – das Motiff Model. Dies ist das weltweit erste UI-Design-Tool
