Das stärkste Modell Llama 3.1 405B wird offiziell veröffentlicht, Zuckerberg: Open Source leitet eine neue Ära ein-KI-php.cn

Heim

Technologie-Peripheriegeräte

Das stärkste Modell Llama 3.1 405B wird offiziell veröffentlicht, Zuckerberg: Open Source leitet eine neue Ära ein

PHPz

Jul 24, 2024 pm 08:23 PM

meta 产业

Gerade jetzt wurde das lang erwartete Llama 3.1 offiziell veröffentlicht!

Meta hat offiziell die Stimme „Open Source führt eine neue Ära“ herausgegeben.

Im offiziellen Blog sagte Meta: „Bis heute sind große Open-Source-Sprachmodelle hinsichtlich Funktionalität und Leistung meist hinter geschlossenen Modellen zurückgeblieben. Jetzt läuten wir eine neue Ära ein, die von Open Source angeführt wird. Wir.“ Wir veröffentlichen Meta Llama 3.1 405B öffentlich. Wir glauben, dass dies das größte und leistungsstärkste Open-Source-Basismodell der Welt ist, mit bisher mehr als 300 Millionen Downloads aller Llama-Versionen, und wir fangen gerade erst an Der Gründer von Meta, CEO Zuckerberg, hat auch persönlich einen langen Artikel mit dem Titel „Open Source AI Is the Path Forward“ geschrieben, in dem er erklärt, warum Open Source eine gute Sache für alle Entwickler, Meta und die Welt ist.

Zu den Highlights dieser Version gehören:

Die neueste Modellserie erweitert die Kontextlänge auf 128 KB, bietet Unterstützung für acht Sprachen und enthält das Top-Open-Source-Modell Llama 3.1 405B;

Llama 3.1 405B spielt in einer eigenen Liga und laut Meta ist es mit den besten Closed-Source-Modellen vergleichbar.
Diese Version bietet außerdem weitere Komponenten (einschließlich Referenzsysteme), die mit dem Modell verwendet werden können, um Llama a zu erstellen Ein System;
Benutzer können Llama 3.1 405B über WhatsApp und meta.ai erleben.

Sie können es herunterladen und ausprobieren.

Llama 3.1 Einführung

Llama 3.1 405B ist das erste öffentlich verfügbare Modell, das in Bezug auf gesunden Menschenverstand, Manipulierbarkeit, Mathematik, Werkzeugnutzung und mehrsprachige Übersetzung mit Top-KI-Modellen vergleichbar ist.

Meta sagt, dass die neueste Generation von Llama neue Anwendungen und Modellierungsparadigmen inspirieren wird, einschließlich der Nutzung synthetischer Datengenerierung zur Förderung und Schulung kleinerer Modelle sowie der Modelldestillation – ein Ansatz, der im Open-Source-Bereich noch nie zuvor gesehen wurde erreichen.

Gleichzeitig hat Meta auch aktualisierte Versionen der 8B- und 70B-Modelle auf den Markt gebracht, die mehrere Sprachen unterstützen, eine Kontextlänge von 128 KB und stärkere Argumentationsfunktionen bieten. Die neuesten Modelle unterstützen erweiterte Anwendungsfälle wie die Zusammenfassung von Langtexten, mehrsprachige Konversationsagenten und Codierungsassistenten.

? Kleidung Reicht es aus? „Das Modell kann schnell Rückschlüsse ziehen.“

Langer Kontext: Für hochgeladene Dokumente ist Llama 3.1 in der Lage, große Dokumente mit bis zu 8.000 Token zu analysieren und zusammenzufassen.

Codierungsassistent, für Benutzeranforderungen können Sie schnell Code schreiben:

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Darüber hinaus hat der Entwickler von Llama 3.1 405B auch „Spoiler“ getwittert und erklärt, dass die Entwicklung eines Modells, das Sprach- und visuelle Funktionen wie GPT-4o integriert, noch in der Entwicklung sei.

Meta hat außerdem Änderungen an der Open-Source-Lizenz vorgenommen, um Entwicklern die Nutzung der Ausgabe von Llama-Modellen (einschließlich 405B) zur Verbesserung anderer Modelle zu ermöglichen. Darüber hinaus stellt Meta im Einklang mit seinem Open-Source-Engagement diese Modelle ab heute der Community zum Download unter llama.meta.com und Hugging Face zur Verfügung.

Download-Adresse:

https://huggingface.co/meta-llama
https://llama.meta.com/

Modellbewertung

Meta wird anhand von mehr als 150 Benchmark-Datensätzen ausgewertet, darüber hinaus führen sie auch umfangreiche menschliche Auswertungen durch.

Experimentelle Ergebnisse zeigen, dass das Flaggschiffmodell Llama 3.1 405B bei einer Reihe von Aufgaben mit führenden Basismodellen wie GPT-4, GPT-4o und Claude 3.5 Sonnet konkurrenzfähig ist. Darüber hinaus sind die kleinen Modelle 8B und 70B mit Closed-Source- und Open-Source-Modellen mit ähnlicher Parameteranzahl konkurrenzfähig.

Modellarchitektur

Als bisher größtes Modell von Meta ist das Training von Llama 3.1 405B mit mehr als 15 Billionen Token eine große Herausforderung. Um ein Training in diesem Maßstab zu ermöglichen, optimierte Meta den gesamten Trainingsstapel und trainierte auf über 16.000 H100-GPUs. Damit war dieses Modell das erste Llama-Modell, das in diesem Maßstab trainiert wurde.

Um dieses Problem zu lösen, hat Meta die folgenden Designentscheidungen getroffen und sich dabei darauf konzentriert, den Modellentwicklungsprozess skalierbar und einfach zu halten.

Anstelle eines Hybrid-Expertenmodells wurde eine Standard-Decoder-Transformer-Modellarchitektur mit nur geringfügigen Anpassungen gewählt, um die Trainingsstabilität zu maximieren.
Wendet ein iteratives Post-Training-Verfahren an, bei dem in jeder Runde überwachte Feinabstimmung und direkte Präferenzoptimierung verwendet werden. Dadurch ist Meta in der Lage, synthetische Daten höchster Qualität für jede Runde zu erstellen und die Leistung aller Funktionen zu verbessern.

Im Vergleich zu früheren Versionen von Llama hat Meta die Quantität und Qualität der für Pre-Training und Post-Training verwendeten Daten verbessert, beispielsweise durch die Entwicklung sorgfältigerer Vorverarbeitungs- und Verwaltungspipelines für Pre-Training-Daten und Entwickeln Sie strengere Qualitätssicherungs- und Filtermethoden.

Wie von den Skalierungsgesetzen für Sprachmodelle erwartet, übertrifft Metas neues Flaggschiffmodell kleinere Modelle, die mit demselben Verfahren trainiert wurden. Meta verwendet auch 405B-Parametermodelle, um die Qualität kleinerer Modelle nach dem Training zu verbessern.

Um die groß angelegte Inferenzausgabe von 405B-Modellen zu unterstützen, quantisierte Meta das Modell von 16 Bit (BF16) auf 8 Bit (FP8), wodurch die erforderlichen Rechenanforderungen effektiv reduziert wurden und das Modell auf einem ausgeführt werden konnte einzelner Serverknoten.

Befehls- und Chat-Optimierungen

Llama 3.1 405B ist bestrebt, die Nützlichkeit, Qualität und detaillierte Anleitungsbefolgung von Modellen bei der Reaktion auf Benutzeranweisungen zu verbessern und gleichzeitig ein hohes Maß an Sicherheit zu gewährleisten.

In der Post-Training-Phase erstellte das Forschungsteam das endgültige Chat-Modell, indem es mehrere Ausrichtungsrunden auf der Grundlage des vorab trainierten Modells durchführte. Jede Runde umfasst überwachte Feinabstimmung (SFT), Ablehnungsstichprobe (RS) und direkte Präferenzoptimierung (DPO).

Das Forschungsteam nutzt die Generierung synthetischer Daten, um die überwiegende Mehrheit der SFT-Beispiele zu erstellen, und iteriert mehrmals, um immer hochwertigere synthetische Daten über alle Funktionen hinweg zu generieren. Darüber hinaus setzte das Forschungsteam mehrere Datenverarbeitungstechniken ein, um diese synthetischen Daten in höchster Qualität zu filtern und das Datenvolumen über die funktionale Skalierbarkeit hinweg zu optimieren.

Lama-System

Das Lama-Modell existierte schon immer als Teil eines KI-Systems und kann mehrere Komponenten koordinieren, einschließlich des Aufrufs externer Tools. Meta soll über das Basismodell hinausgehen und Entwicklern die Flexibilität geben, maßgeschneiderte Produkte zu entwerfen und zu erstellen, die ihrer Vision entsprechen.

Um KI verantwortungsvoll über die Modellebene hinaus zu entwickeln, hat Meta ein vollständiges Referenzsystem veröffentlicht, das mehrere Beispielanwendungen sowie neue Komponenten wie Llama Guard 3, ein mehrsprachiges Sicherheitsmodell und Prompt Guard (einen Prompt-Injection-Filter) umfasst. . Diese Beispielanwendungen sind Open Source und können von der Open Source-Community erstellt werden.

Um breiter mit der Industrie, Startups und der Open-Source-Community zusammenzuarbeiten und dabei zu helfen, die Schnittstellen von Komponenten besser zu definieren, hat Meta eine Kommentaranfrage für „Llama Stack“ auf GitHub veröffentlicht. Llama Stack ist eine Reihe standardisierter Schnittstellen zum Erstellen kanonischer Toolchain-Komponenten (Feinabstimmung, Generierung synthetischer Daten) und Agentenanwendungen. Dies trägt dazu bei, die Interoperabilität einfacher zu erreichen.

Im Gegensatz zu geschlossenen Modellen stehen die Gewichte des Lama-Modells zum Download zur Verfügung. Entwickler können das Modell vollständig an ihre Bedürfnisse und Anwendungen anpassen, an neuen Datensätzen trainieren und zusätzliche Feinabstimmungen durchführen.

Entwickelt mit Llama 3.1 405B

Für normale Entwickler ist die Bereitstellung eines so großen Modells wie 405B zweifellos eine Herausforderung und erfordert viele Rechenressourcen und Fachkenntnisse. In der Kommunikation mit der Entwickler-Community erkannte Meta, dass die Entwicklung generativer KI mehr ist, als nur Eingabeaufforderungen an das Modell zu geben. Sie erwarten von allen Entwicklern, dass sie das volle Potenzial von Llama 3.1 405B in den folgenden Bereichen ausschöpfen:

Echtzeit- und Batch-Inferenz
Überwachte Feinabstimmung
Spezifisches Testen und Bewerten der Modellleistung Anwendungen
Kontinuierliches Vortraining
Retrieval Augmented Generation (RAG)
Funktionsaufruf
Synthetische Datengenerierung

Freigegeben von jetzt, Llama 3.1 40 Alle erweiterten Funktionen des 5B-Modells sind offen und Entwickler können sofort loslegen. Entwickler können auch Workflows höherer Ordnung erkunden, beispielsweise die Generierung synthetischer Daten basierend auf der Modelldestillation. Bei diesem Upgrade integriert Meta auch nahtlos Lösungen der Partner AWS, NVIDIA und Databricks, um eine effizientere Retrieval Augmentation Generation (RAG) zu erreichen. Darüber hinaus wurde Groq für Inferenzen mit geringer Latenz für die Bereitstellung von Modellen in der Cloud optimiert und ähnliche Leistungsverbesserungen wurden für lokale Systeme vorgenommen.

Meta hat dieses Mal auch ein „Tool-Geschenkpaket“ für Llama 3.1 405B eingebaut, das Schlüsselprojekte wie vLLM, TensorRT und PyTorch umfasst, von der Modellentwicklung bis zur Bereitstellung „out of the box“, alles in einem Schritt.

^{Referenzlink: https://ai.meta.com/blog/meta-llama-3-1/}

Das obige ist der detaillierte Inhalt vonDas stärkste Modell Llama 3.1 405B wird offiziell veröffentlicht, Zuckerberg: Open Source leitet eine neue Ära ein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1672

CakePHP-Tutorial

1428

Laravel-Tutorial

1332

PHP-Tutorial

1276

C#-Tutorial

1256

Related knowledge

Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Aug 09, 2024 pm 04:01 PM

Aber vielleicht kann er den alten Mann im Park nicht besiegen? Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt. Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann. Papieradresse: https://arxiv.org/pdf/2408.03906 Wie gut ist der DeepMind-Roboter beim Tischtennisspielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern: Sowohl Vorhand als auch Rückhand: Der Gegner nutzt unterschiedliche Spielstile, und auch der Roboter hält aus: Aufschlagannahme mit unterschiedlichem Spin: Allerdings scheint die Intensität des Spiels nicht so intensiv zu sein wie Der alte Mann im Park. Für Roboter, Tischtennis

Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Aug 21, 2024 pm 07:33 PM

Am 21. August fand in Peking die Weltroboterkonferenz 2024 im großen Stil statt. Die Heimrobotermarke „Yuanluobot SenseRobot“ von SenseTime hat ihre gesamte Produktfamilie vorgestellt und kürzlich den Yuanluobot AI-Schachspielroboter – Chess Professional Edition (im Folgenden als „Yuanluobot SenseRobot“ bezeichnet) herausgebracht und ist damit der weltweit erste A-Schachroboter für heim. Als drittes schachspielendes Roboterprodukt von Yuanluobo hat der neue Guoxiang-Roboter eine Vielzahl spezieller technischer Verbesserungen und Innovationen in den Bereichen KI und Maschinenbau erfahren und erstmals die Fähigkeit erkannt, dreidimensionale Schachfiguren aufzunehmen B. durch mechanische Klauen an einem Heimroboter, und führen Sie Mensch-Maschine-Funktionen aus, z. B. Schach spielen, jeder spielt Schach, Überprüfung der Notation usw.

Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Sep 02, 2024 pm 01:56 PM

Der Schulstart steht vor der Tür und nicht nur die Schüler, die bald ins neue Semester starten, sollten auf sich selbst aufpassen, sondern auch die großen KI-Modelle. Vor einiger Zeit war Reddit voller Internetnutzer, die sich darüber beschwerten, dass Claude faul werde. „Sein Niveau ist stark gesunken, es kommt oft zu Pausen und sogar die Ausgabe wird sehr kurz. In der ersten Woche der Veröffentlichung konnte es ein komplettes 4-seitiges Dokument auf einmal übersetzen, aber jetzt kann es nicht einmal eine halbe Seite ausgeben.“ !

Das neue erschwingliche Meta Quest 3S VR-Headset erscheint bei FCC, was auf eine baldige Markteinführung hindeutet Sep 04, 2024 am 06:51 AM

Die Meta Connect 2024-Veranstaltung findet vom 25. bis 26. September statt. Bei dieser Veranstaltung wird das Unternehmen voraussichtlich ein neues erschwingliches Virtual-Reality-Headset vorstellen. Gerüchten zufolge handelt es sich bei dem VR-Headset um das Meta Quest 3S, das offenbar auf der FCC-Liste aufgetaucht ist. Dieser Vorschlag

Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Aug 22, 2024 pm 10:35 PM

Auf der World Robot Conference in Peking ist die Präsentation humanoider Roboter zum absoluten Mittelpunkt der Szene geworden. Am Stand von Stardust Intelligent führte der KI-Roboterassistent S1 drei große Darbietungen mit Hackbrett, Kampfkunst und Kalligraphie auf Ein Ausstellungsbereich, der sowohl Literatur als auch Kampfkunst umfasst, zog eine große Anzahl von Fachpublikum und Medien an. Durch das elegante Spiel auf den elastischen Saiten demonstriert der S1 eine feine Bedienung und absolute Kontrolle mit Geschwindigkeit, Kraft und Präzision. CCTV News führte einen Sonderbericht über das Nachahmungslernen und die intelligente Steuerung hinter „Kalligraphie“ durch. Firmengründer Lai Jie erklärte, dass hinter den seidenweichen Bewegungen die Hardware-Seite die beste Kraftkontrolle und die menschenähnlichsten Körperindikatoren (Geschwindigkeit, Belastung) anstrebt. usw.), aber auf der KI-Seite werden die realen Bewegungsdaten von Menschen gesammelt, sodass der Roboter stärker werden kann, wenn er auf eine schwierige Situation stößt, und lernen kann, sich schnell weiterzuentwickeln. Und agil

Analyst bespricht Einführungspreise für das gemunkelte Meta Quest 3S VR-Headset Aug 27, 2024 pm 09:35 PM

Seit Metas Erstveröffentlichung von Quest 3 (aktuell 499,99 $ bei Amazon) ist mittlerweile über ein Jahr vergangen. Seitdem hat Apple das deutlich teurere Vision Pro ausgeliefert, während Byte Dance nun in China die Pico 4 Ultra vorgestellt hat. Es gibt jedoch eine

Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Bei dieser ACL-Konferenz haben die Teilnehmer viel gewonnen. Die sechstägige ACL2024 findet in Bangkok, Thailand, statt. ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, wenn es um akademischen Einfluss im Bereich NLP geht, und ist außerdem eine von der CCF-A empfohlene Konferenz. Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal gibt es 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards. Die Konferenz verlieh außerdem drei Resource Paper Awards (ResourceAward) und einen Social Impact Award (

Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Sep 03, 2024 pm 05:18 PM

Tiefe Integration von Vision und Roboterlernen. Wenn zwei Roboterhände reibungslos zusammenarbeiten, um Kleidung zu falten, Tee einzuschenken und Schuhe zu packen, gepaart mit dem humanoiden 1X-Roboter NEO, der in letzter Zeit für Schlagzeilen gesorgt hat, haben Sie vielleicht das Gefühl: Wir scheinen in das Zeitalter der Roboter einzutreten. Tatsächlich sind diese seidigen Bewegungen das Produkt fortschrittlicher Robotertechnologie + exquisitem Rahmendesign + multimodaler großer Modelle. Wir wissen, dass nützliche Roboter oft komplexe und exquisite Interaktionen mit der Umgebung erfordern und die Umgebung als Einschränkungen im räumlichen und zeitlichen Bereich dargestellt werden kann. Wenn Sie beispielsweise möchten, dass ein Roboter Tee einschenkt, muss der Roboter zunächst den Griff der Teekanne ergreifen und sie aufrecht halten, ohne den Tee zu verschütten, und ihn dann sanft bewegen, bis die Öffnung der Kanne mit der Öffnung der Tasse übereinstimmt , und neigen Sie dann die Teekanne in einem bestimmten Winkel. Das

See all articles