Maison Périphériques technologiques IA Le premier modèle open source à dépasser le niveau GPT4o ! Llama 3.1 fuite : 405 milliards de paramètres, liens de téléchargement et cartes de modèles sont disponibles

Le premier modèle open source à dépasser le niveau GPT4o ! Llama 3.1 fuite : 405 milliards de paramètres, liens de téléchargement et cartes de modèles sont disponibles

Jul 23, 2024 pm 08:51 PM
meta 产业

Préparez votre GPU !


Llama 3.1 est enfin apparu, mais la source n'est pas officielle Meta.

Aujourd'hui, la nouvelle de la fuite du nouveau grand modèle Llama est devenue virale sur Reddit En plus du modèle de base, elle comprend également des résultats de référence de 8B, 70B et le paramètre maximum de 405B.

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

L'image ci-dessous montre les résultats de comparaison de chaque version de Llama 3.1 avec OpenAI GPT-4o et Llama 3 8B/70B. Comme vous pouvez le voir, même la version 70B surpasse GPT-4o sur plusieurs benchmarks.

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

                                                                                                                                             , les modèles 8B et 70B de la version 3.1 sont distillés à partir du 405B, donc par rapport à la génération précédente présentaient des améliorations de performances significatives.

Certains internautes ont déclaré que c'était la première fois qu'un modèle open source surpassait les modèles fermés tels que GPT4o et Claude Sonnet 3.5 et atteignait SOTA
sur plusieurs benchmarks.

Dans le même temps, la carte modèle de Llama 3.1 a fuité et les détails ont été divulgués (la date indiquée sur la carte modèle indique qu'elle est basée sur la version du 23 juillet).

Quelqu'un a résumé les points forts suivants : 首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了


Le modèle utilise plus de 15 T de jetons provenant de sources publiques pour la formation, et la date limite pour les données de pré-formation est décembre 2023

Les données de réglage fin incluent les données publiques ; Ensemble de données de réglage fin d'instructions disponible (contrairement à Llama 3) et 15 millions d'échantillons synthétiques
  • Le modèle prend en charge plusieurs langues, dont l'anglais, le français, l'allemand, l'hindi, l'italien, le portugais, l'espagnol et le thaï ;
  •                                                                                                                                                                                                                

Bien que le lien Github divulgué soit actuellement 404, certains internautes ont donné des liens de téléchargement (cependant, pour des raisons de sécurité, il est recommandé d'attendre l'annonce officielle de la chaîne ce soir) : 首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

Mais il s'agit d'un modèle de niveau 100 milliards après tout, veuillez préparer suffisamment d'espace disque dur avant de télécharger :

Ce qui suit est le modèle Llama 3.1 Contenu important de la carte :

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

Basique informations sur le modèle

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

La collection Meta Llama 3.1 Multilingual Large Language Model (LLM) est un ensemble de modèles génératifs pré-entraînés et réglés avec précision, chacun d'une taille de 8B, 70B et 405B (saisie de texte/sortie de texte). Les modèles texte uniquement affinés par commande Llama 3.1 (8B, 70B, 405B) sont optimisés pour les cas d'utilisation de conversations multilingues et surpassent de nombreux modèles de discussion open source et fermés disponibles sur les références courantes de l'industrie.

Architecture du modèle : Llama 3.1 est un modèle de langage autorégressif d'architecture Transformer optimisé. La version affinée utilise SFT et RLHF pour aligner les préférences d'utilisabilité et de sécurité.

Langues prises en charge : anglais, allemand, français, italien, portugais, hindi, espagnol et thaï.
On peut déduire des informations de la carte modèle que la longueur du contexte du modèle de la série
Llama 3.1 est de 128k
. Toutes les versions du modèle utilisent Grouped Query Attention (GQA) pour améliorer l'évolutivité de l'inférence.

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

UTILISATION PRÉVUE

CAS D'UTILISATION PRÉVUE. Llama 3.1 est destiné aux applications commerciales et à la recherche multilingues. Les modèles textuels adaptés aux instructions conviennent au chat de type assistant, tandis que les modèles pré-entraînés peuvent être adaptés à une variété de tâches de génération de langage naturel.

L'ensemble de modèles Llama 3.1 prend également en charge la possibilité d'exploiter la sortie de son modèle pour améliorer d'autres modèles, notamment la génération et la distillation de données synthétiques. La licence communautaire Llama 3.1 autorise ces cas d'utilisation.

Llama 3.1 s'entraîne sur un ensemble de langues plus large que les 8 langues prises en charge. Les développeurs peuvent affiner les modèles Llama 3.1 pour des langues autres que les 8 langues prises en charge, à condition qu'ils respectent le contrat de licence communautaire Llama 3.1 et la politique d'utilisation acceptable, et sont responsables dans de tels cas de garantir que d'autres langues sont utilisées dans de manière sûre et responsable Langue Lama 3.1.

Infrastructure logicielle et matérielle
Le premier est l'élément de formation. Llama 3.1 utilise une bibliothèque de formation personnalisée, un cluster GPU méta-personnalisé et une infrastructure de production pour la pré-formation, et est également affiné sur. l'infrastructure de production, l'annotation et l'évaluation.

La seconde est la consommation d'énergie de la formation. La formation Llama 3.1 utilise un total de 39,3 M d'heures de calcul GPU sur du matériel de type H100-80GB (TDP est de 700W). Ici, le temps de formation est le temps total du GPU requis pour former chaque modèle, et la consommation d'énergie est la capacité de puissance maximale de chaque périphérique GPU, ajustée en fonction de l'efficacité énergétique.

Formation sur les émissions de gaz à effet de serre. Les émissions totales de gaz à effet de serre sur la base de références géographiques sont estimées à 11 390 tonnes d'équivalent CO2 pendant la période de formation de Llama 3.1. Depuis 2020, Meta a maintenu zéro émission nette de gaz à effet de serre dans l'ensemble de ses opérations mondiales et a associé 100 % de sa consommation d'électricité à des énergies renouvelables, ce qui a abouti à des émissions totales de gaz à effet de serre de référence du marché de 0 tonne d'équivalent CO2 pendant la période de formation.

Les méthodes utilisées pour déterminer la consommation d'énergie et les émissions de gaz à effet de serre de la formation se trouvent dans l'article suivant. Étant donné que Meta publie ces modèles publiquement, d'autres n'ont pas besoin de supporter le fardeau de la formation sur la consommation d'énergie et les émissions de gaz à effet de serre.

Adresse papier : https://arxiv.org/pdf/2204.05149

Données de formation
Aperçu : Llama 3.1 a été réalisé en utilisant environ 1,5 billion de données symboliques provenant de sources publiques pré-. entraînement. Les données de réglage fin incluent des ensembles de données d'instructions accessibles au public et plus de 25 millions d'exemples générés synthétiquement.
Fraîcheur des données : La date limite pour les données de pré-formation est décembre 2023.

Score de référence

Dans cette section, Meta rapporte les résultats de notation du modèle Llama 3.1 sur le benchmark d'annotation. Pour toutes les évaluations, Meta utilise des bibliothèques d'évaluation internes.

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

Pertimbangan Risiko Keselamatan

Pasukan penyelidik Llama komited untuk menyediakan komuniti penyelidik dengan sumber yang berharga untuk mengkaji keteguhan penalaan halus keselamatan dan menyediakan pembangun dengan model luar yang selamat dan teguh untuk pelbagai aplikasi untuk Mengurangkan beban kerja pembangun yang menggunakan sistem AI selamat.
Pasukan penyelidik menggunakan pendekatan pengumpulan data pelbagai segi, menggabungkan data yang dijana manusia daripada vendor dengan data sintetik untuk mengurangkan potensi risiko keselamatan. Pasukan penyelidik membangunkan beberapa pengelas berasaskan model bahasa besar (LLM) untuk memilih gesaan dan respons berkualiti tinggi dengan teliti, dengan itu meningkatkan kawalan kualiti data.
Perlu dinyatakan bahawa Llama 3.1 sangat mementingkan penolakan model terhadap gesaan jinak dan nada penolakan. Pasukan penyelidik memperkenalkan gesaan sempadan dan gesaan lawan ke dalam dasar data selamat dan mengubah suai respons data selamat untuk mengikut garis panduan nada.

Model Llama 3.1 tidak direka bentuk untuk digunakan secara bersendirian, tetapi harus digunakan sebagai sebahagian daripada keseluruhan sistem kecerdasan buatan, dengan tambahan "pengadang keselamatan" disediakan mengikut keperluan. Pembangun harus menggunakan langkah keselamatan sistem apabila membina sistem ejen.

Sila ambil perhatian bahawa keluaran ini memperkenalkan ciri baharu, termasuk tetingkap konteks yang lebih panjang, input dan output berbilang bahasa, dan kemungkinan integrasi pembangun dengan alatan pihak ketiga. Apabila membina dengan ciri baharu ini, selain mempertimbangkan amalan terbaik yang biasanya digunakan untuk semua kes penggunaan AI generatif, anda juga perlu memberi perhatian khusus kepada isu berikut:

Penggunaan alat: Seperti pembangunan perisian standard, pembangun bertanggungjawab Mengintegrasikan LLM dengan alatan dan perkhidmatan pilihan mereka. Mereka harus membangunkan dasar yang jelas untuk kes penggunaan mereka dan menilai integriti perkhidmatan pihak ketiga yang mereka gunakan untuk memahami had keselamatan dan keselamatan apabila menggunakan fungsi ini.

Berbilang bahasa: Lama 3.1 menyokong 7 bahasa selain bahasa Inggeris: Perancis, Jerman, Hindi, Itali, Portugis, Sepanyol dan Thai. Llama mungkin boleh mengeluarkan teks dalam bahasa lain, tetapi teks ini mungkin tidak memenuhi ambang prestasi keselamatan dan kebolehbantuan.

Nilai teras Llama 3.1 ialah keterbukaan, keterangkuman dan sifat membantu. Ia direka untuk memberi perkhidmatan kepada semua orang dan sesuai untuk pelbagai kes penggunaan. Oleh itu, Llama 3.1 direka bentuk untuk boleh diakses oleh semua orang dari semua latar belakang, pengalaman dan perspektif. Llama 3.1 berpusat di sekitar pengguna dan keperluan mereka, tanpa memasukkan pertimbangan atau norma yang tidak perlu, sambil juga mencerminkan pengiktirafan bahawa kandungan yang mungkin kelihatan bermasalah dalam sesetengah konteks boleh berguna dalam tujuan nilai yang lain. Llama 3.1 menghormati maruah dan autonomi semua pengguna dan, khususnya, menghormati nilai pemikiran dan ekspresi bebas yang menyemarakkan inovasi dan kemajuan.
Tetapi Llama 3.1 ialah teknologi baharu, dan seperti mana-mana teknologi baharu, terdapat risiko dalam penggunaannya. Ujian yang dijalankan sehingga kini belum dan tidak boleh meliputi semua situasi. Oleh itu, seperti semua LLM, potensi keluaran Llama 3.1 tidak boleh diramalkan terlebih dahulu, dan dalam beberapa kes model mungkin bertindak balas secara tidak tepat, berat sebelah atau sebaliknya tidak menyenangkan terhadap gesaan pengguna. Oleh itu, sebelum menggunakan sebarang aplikasi model Llama 3.1, pembangun harus melakukan ujian keselamatan dan penalaan halus untuk aplikasi khusus model tersebut.

Sumber kad model: https://pastebin.com/9jGkYbXY
Maklumat rujukan: https://x.com/op7418/status/10315/30
https: //x.com/iScienceLuvr/status/1815519917715730702
https://x.com/mattshumer_/status/1815444612414087294

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1670
14
Tutoriel PHP
1276
29
Tutoriel C#
1256
24
Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Un nouveau casque VR Meta Quest 3S abordable apparaît sur FCC, suggérant un lancement imminent Un nouveau casque VR Meta Quest 3S abordable apparaît sur FCC, suggérant un lancement imminent Sep 04, 2024 am 06:51 AM

L'événement Meta Connect 2024 est prévu du 25 au 26 septembre et lors de cet événement, la société devrait dévoiler un nouveau casque de réalité virtuelle abordable. Selon la rumeur, il s'agirait du Meta Quest 3S, le casque VR serait apparemment apparu sur la liste FCC. Cela suggère

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Un analyste discute du prix de lancement du casque VR Meta Quest 3S Un analyste discute du prix de lancement du casque VR Meta Quest 3S Aug 27, 2024 pm 09:35 PM

Plus d'un an s'est écoulé depuis la sortie initiale du Quest 3 par Meta (499,99 $ sur Amazon). Depuis lors, Apple a commercialisé le Vision Pro, considérablement plus cher, tandis que Byte Dance a dévoilé le Pico 4 Ultra en Chine. Cependant, il y a

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

See all articles