


Battre LLaMA ? Le classement du 'Falcon' le plus puissant de l'histoire est incertain, Fu Yao a personnellement testé 7 lignes de code, et LeCun l'a transmis pour aimer
Il y a quelques temps, le tout jeune Falcon écrasait LLaMA au classement LLM, provoquant des vagues dans toute la communauté.
Mais, Falcon est-il vraiment meilleur que LLaMA ?
Réponse courte : Probablement pas.
L'équipe Fu Yao a fait une évaluation plus approfondie du modèle : #🎜 🎜#
"Nous avons reproduit l'évaluation du LLaMA 65B sur MMLU et obtenu un score de 61,4, proche du score officiel (63,4) et bien supérieur à son score sur l'Open LLM Leaderboard (48,8), et nettement supérieur au Falcon (52,7). "
Pas d'ingénierie d'invite sophistiquée, pas de décodage sophistiqué, tout est le paramètre par défaut.
Actuellement, le code et les méthodes de test ont été rendus publics sur Github.
Il y a des doutes sur le fait que les Falcons dépassent LLaMA, LeCun a exprimé sa position, le problème avec le script de test...#🎜🎜 #
# 🎜🎜#LLaMATrue·Strength
Actuellement dans le classement OpenLLM, Falcon se classe premier, surpassant LLaMA, et a reçu des chercheurs dont Thomas Wolf Fortement recommandé . Cependant, certains ont des doutes.
Tout d'abord, un internaute a demandé d'où venaient ces chiffres de LLaMA. Ils semblaient incompatibles avec les chiffres du journal...
#🎜. 🎜#
Par la suite, le scientifique d'OpenAI Andrej Karpathy a également exprimé son inquiétude quant à la raison pour laquelle le score de LLaMA 65B dans le classement Open LLM était nettement inférieur à celui officiel (48,8 contre 63,4).
Et post, j'ai évité de tweeter sur les Falcons jusqu'à présent à cause de cela, je ne suis pas sûr.
Afin de clarifier ce problème, Fu Yao et les membres de l'équipe ont décidé de mener un test public sur LLaMA 65B, et le résultat était de 61,4 points.
Lors du test, les chercheurs n'ont utilisé aucun mécanisme spécial, et LLaMA 65B a pu atteindre ce score .
Ce résultat prouve juste que si vous souhaitez que le modèle atteigne un niveau proche de GPT-3.5, il est préférable d'utiliser RLHF sur LLaMA 65B.
est basé sur les conclusions d'un article du Chain-of-Thought Hub récemment publié par l'équipe de Fu Yao.
Bien sûr, Fu Yao a déclaré que leur évaluation n'était pas destinée à provoquer un différend entre LLaMA et Falcon After. dans l’ensemble, ce sont d’excellents modèles open source et ont apporté des contributions significatives au domaine !
De plus, Falcon dispose d'une licence plus pratique, ce qui lui confère également un grand potentiel de développement.
Pour cette dernière revue, l'internaute BlancheMinerva a souligné qu'une comparaison équitable serait d'exécuter Falcon sur MMLU avec les paramètres par défaut.
En réponse, Fu Yao a déclaré que c'était correct et qu'il y travaillait, et que les résultats devraient être disponibles dans un jour.
Quel que soit le résultat final, il faut savoir que la montagne de GPT-4 est l'objectif que la communauté open source veut vraiment poursuivre.
Problème de classement OpenLLM
Les chercheurs de Meta ont félicité Fu Yao pour avoir bien reproduit les résultats de LLaMa et ont souligné le problème du classement OpenLLM.
Par la même occasion, il a également partagé quelques questions sur le classement OpenLLM.
Tout d'abord, les résultats MMLU : les résultats LLaMa 65B MMLU sont de 15 points au classement, mais pareil pour le modèle 7B. Il existe également un petit écart de performances entre les modèles 13B et 30B.
OpenLLM doit vraiment examiner cela avant d'annoncer quel modèle est le meilleur.
Benchmarks : Comment ces benchmarks sont-ils choisis ?
Le tir ARC 25 et le tir Hellaswag 10 ne semblent pas particulièrement pertinents pour LLM. Il serait préférable d'inclure des critères de référence génératifs. Même si les benchmarks génératifs ont leurs limites, ils peuvent néanmoins être utiles.
Score moyen unique : Il est toujours tentant de réduire les résultats à un seul score, et le score moyen est le plus simple.
Mais dans ce cas, la moyenne de 4 benchmarks est-elle vraiment utile ? Est-ce qu'obtenir 1 point sur MMLU équivaut à obtenir 1 point sur HellaSwag ?
Dans le monde de l'itération rapide du LLM, il y a certainement une certaine valeur à développer une telle liste de classement.
Et Lucas Beyer, un chercheur de Google, a également exprimé son opinion :
Ce qui est fou, c'est que les chercheurs en PNL ont des compréhensions différentes d'un même benchmark, conduisant ainsi à des résultats complètement différents. En même temps, chaque fois qu'un de mes collègues implémente une métrique, je lui demande immédiatement s'il vérifie réellement une reproduction parfaite du code officiel, et sinon, j'écarte ses résultats.
De plus, pour autant que je sache, quel que soit le modèle, il ne reproduira pas réellement les résultats du benchmark original.
Les internautes ont fait écho au fait que c'est la réalité du benchmark LLM...
Falcon - open source, disponible dans le commerce, solides performances
En parlant de Falcon, il mérite en fait notre examen .
Selon LeCun, à l'ère des grands modèles, l'open source est le plus important.
Après la fuite du code LLaMA de Meta, des développeurs de tous horizons ont commencé à l'essayer avec impatience.
Falcon est une arme surprise développée par le Technology Innovation Institute (TII) d'Abu Dhabi, aux Émirats arabes unis.
En termes de performances lors de sa première sortie, Falcon a fait mieux que LLaMA.
Actuellement, "Falcon" a trois versions - 1B, 7B et 40B.
TII a déclaré que Falcon est le modèle de langage open source le plus puissant à ce jour. Sa plus grande version, Falcon 40B, possède 40 milliards de paramètres, ce qui est encore un peu plus petit que LLaMA, qui compte 65 milliards de paramètres.
Cependant, TII a précédemment déclaré que malgré sa petite taille, Falcon avait d'excellentes performances.
Faisal Al Bannai, secrétaire général du Conseil de recherche en technologies avancées (ATRC), estime que la sortie de « Falcon » ouvrira la voie à l'obtention d'un LLM et permettra aux chercheurs et les entrepreneurs à l'utiliser pour proposer les cas d'utilisation les plus innovants.
Les deux versions de FalconLM, Falcon 40B Instruct et Falcon 40B sont parmi les deux premières sur le Hugging Face OpenLLM classement en premier, tandis que LLaMA de Meta occupe la troisième place.
Et le problème concernant les classements mentionnés ci-dessus est exactement celui-là.
Bien que le document "Falcon" n'ait pas encore été rendu public, le Falcon 40B a été largement formé sur un ensemble de données réseau de 1 000 milliards de jetons soigneusement examinés.
Des chercheurs ont révélé un jour que « Falcon » attache une grande importance à l'importance d'atteindre des performances élevées sur des données à grande échelle pendant le processus de formation.
Ce que nous savons tous, c'est que le LLM est très sensible à la qualité des données d'entraînement, c'est pourquoi les chercheurs consacrent beaucoup d'efforts à construire un système capable de fonctionner sur des dizaines de milliers de cœurs de processeur pour un traitement efficace.
Le but est d'extraire du contenu de haute qualité d'Internet sur la base du filtrage et de la déduplication.
Actuellement, TII a publié un ensemble de données réseau affiné, qui est un ensemble de données soigneusement filtré et dédupliqué. La pratique a prouvé que c'est très efficace.
Le modèle formé en utilisant uniquement cet ensemble de données peut être à égalité avec d'autres LLM, voire les surpasser en termes de performances. Cela démontre l'excellente qualité et l'influence de "Falcon".
De plus, le modèle Falcon dispose également de capacités multilingues.
Il comprend l'anglais, l'allemand, l'espagnol et le français, et travaille en néerlandais, italien, roumain, portugais, tchèque, polonais et suédois, etc. Il en sait aussi beaucoup des petites langues européennes.
Falcon 40B est également le deuxième modèle véritablement open source après la sortie du modèle H2O.ai.
De plus, il y a un autre point très important : Falcon est actuellement le seul modèle open source qui peut être utilisé gratuitement commercialement.
Au début, TII exigeait que si Falcon est utilisé à des fins commerciales et génère plus d'un million de dollars de revenus attribuables, une « taxe d'utilisation » de 10 % sera accusé ».
Mais il n’a pas fallu longtemps pour que les riches magnats du Moyen-Orient lèvent cette restriction.
Au moins jusqu'à présent, toute utilisation commerciale et tout réglage fin de Falcon seront gratuits.
Les riches ont déclaré qu’ils n’avaient pas besoin de gagner de l’argent grâce à ce modèle pour le moment.
De plus, TII sollicite également des plans de commercialisation du monde entier.
Pour les solutions potentielles de recherche scientifique et de commercialisation, ils fourniront également davantage de « soutien à la puissance de calcul de formation » ou offriront d'autres opportunités de commercialisation.
Cela revient simplement à dire : tant que le projet est bon, le modèle est libre d'utilisation ! Assez de puissance de calcul ! Si vous n’avez pas assez d’argent, nous pouvons quand même le récupérer pour vous !
Pour les start-ups, il s'agit simplement d'une « solution unique pour l'entrepreneuriat de grands modèles d'IA » du magnat du Moyen-Orient.
Selon l'équipe de développement, un aspect important de l'avantage concurrentiel de FalconLM est la sélection des données d'entraînement.
L'équipe de recherche a développé un processus pour extraire des données de haute qualité à partir d'ensembles de données publics explorés et supprimer les données en double.
Après un nettoyage minutieux du contenu en double redondant, 5 000 milliards de jetons ont été conservés - suffisamment pour entraîner un modèle de langage puissant.
Le Falcon LM 40B utilise 1 000 milliards de jetons pour la formation, et la version 7B du jeton de formation modèle atteint 1,5 billion.
(L'équipe de recherche vise à filtrer uniquement la qualité de Common Crawl à l'aide de l'ensemble de données RefinedWeb Les données brutes les plus élevées)
De plus, le coût de formation de Falcon est relativement plus contrôlable.
TII a déclaré que par rapport à GPT-3, Falcon a obtenu des améliorations de performances significatives tout en utilisant seulement 75 % du budget informatique de formation.
Et pour déduire (Inférence), il vous suffit à Il nécessite 20 % du temps de calcul et permet une utilisation efficace des ressources informatiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.
