Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né-IA-php.cn

Maison

Périphériques technologiques

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 20, 2023 pm 03:49 PM

大模型理论

Les modèles de langage à grande échelle (LLM), y compris les structures de décodeur uniquement (telles que les familles de modèles GPT et LAMA), les structures de codeur uniquement (telles que BERT) et les structures de codeur-décodeur (telles que T5) et leurs variantes de modèles ont été Il a obtenu un succès remarquable et a été largement utilisé dans divers traitements linguistiques et tâches multimodales.

Malgré ce succès, le coût de la formation LLM est encore si élevé que seules quelques entreprises peuvent assumer ses frais de formation. De plus, les tendances actuelles indiquent que des données de formation plus volumineuses seront utilisées à l'avenir, ce qui augmentera encore le coût de développement des grands modèles. Par exemple, la formation LLLAMA-1 utilise des jetons de 1 à 1,4 To, tandis que Llama 2 atteint 2 To.

Un autre défi clé dans le développement du LLM est l'évaluation. Les méthodes d'évaluation traditionnelles sont divisées en deux catégories : l'évaluation des connaissances (MMLU et C-Eval) et l'évaluation des tâches PNL. Ces méthodes d'évaluation peuvent ne pas refléter véritablement les capacités du modèle car il peut y avoir des problèmes de fuite de données, c'est-à-dire que certaines parties de l'ensemble de données d'évaluation peuvent avoir été utilisées pendant le processus de formation du modèle. En outre, les méthodes d’évaluation axées sur les connaissances peuvent ne pas être adéquates pour évaluer les niveaux d’intelligence. Une méthode d'évaluation plus juste et objective consiste à mesurer le quotient intellectuel (QI) du LLM, ce qui consiste à généraliser le LLM à des conditions et des contextes non visibles dans les données de formation.

Stratégie de croissance. Afin de résoudre le problème des coûts de formation, de nombreuses institutions telles que l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin et l'Institut de technologie informatique de l'Académie chinoise des sciences ont récemment fait quelques tentatives : former un LLM au niveau de 100 milliards de paramètres grâce à une stratégie de croissance pour le première fois. La croissance signifie que le nombre de paramètres pendant la formation n'est pas fixe, mais s'étend des modèles plus petits aux modèles plus grands.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Papier : https://arxiv.org/pdf/2309.03852.pdf
Le contenu qui doit être réécrit est : Lien du modèle : https://huggingface.co/CofeAI/FLM- 101B

La figure 1 montre trois scénarios typiques de stratégies de croissance. Étant donné que les FLOP d'un LLM sont à peu près proportionnels au nombre de ses paramètres, la zone entre la courbe de changement des paramètres du modèle et l'axe X peut représenter le coût de calcul de la formation.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

La figure 1 (a) montre la stratégie de formation standard sans croissance du modèle ; 1 (b) est une stratégie de croissance linéaire, qui peut économiser 50 % du coût ; 1 (c) est une stratégie de croissance modérée, qui permet d'économiser moins ; plus de 50 % des coûts ; 1 (d) est une stratégie de croissance radicale qui peut permettre d’économiser plus de 50 % des coûts. Cette analyse montre que pour économiser autant que possible les coûts informatiques, une stratégie de croissance agressive doit être adoptée.

La conception de l'opérateur de croissance de cette nouvelle étude s'inspire du MSG dans l'article "Pré-formation du modèle de langage 2x plus rapide via une croissance structurelle masquée", qui est un ensemble complet d'opérations couvrant les quatre transformateurs. dimension de croissance de la structure. Plus important encore, MSG peut se développer tout en préservant étroitement ses fonctionnalités. Par conséquent, même si un petit modèle peut apprendre rapidement avec un espace de recherche de paramètres plus petit, ses connaissances peuvent être héritées par des modèles plus grands ultérieurs. Cela permet aux stratégies de croissance d’obtenir de meilleures performances avec un coût de calcul identique ou inférieur.

Modèle open source FLM-101B. Les chercheurs de l'Institut de recherche Zhiyuan ont formé un modèle LLM avec 101 milliards de paramètres grâce à une croissance progressive, et ils ont également déclaré qu'ils publieraient le modèle en open source. L'architecture de ce modèle est une évolution de FreeLM. C’est pourquoi les chercheurs l’ont nommé FLM-101B, où F signifie Free.

Le framework FreeLM a deux objectifs de pré-formation, qui sont guidés respectivement par les signaux du langage et les signaux de l'enseignant. Dans cette nouvelle recherche, ces deux objectifs sont unifiés dans un paradigme commun de modélisation du langage.

Référence d'évaluation du QI. En plus du paradigme de formation à faible coût, l'équipe a également apporté une autre contribution en proposant un ensemble systématique de critères de référence pour l'évaluation du quotient intellectuel (QI) de LLM.

Des recherches antérieures ont montré que bien que l'indicateur de niveau de perplexité (PPL) puisse refléter dans une certaine mesure la qualité du texte généré, il n'est pas fiable. D'un autre côté, l'échelle des données de formation LLM est si grande qu'il nous est difficile de distinguer si le modèle cite simplement des données de connaissances ou s'il atteint réellement des capacités de raisonnement, d'analyse et de généralisation de type humain, qui sont sur quoi cette étude définit la base du QI. Certaines mesures d'évaluation couramment utilisées (MMLU pour l'anglais et C-Eval pour le chinois) sont évidemment axées sur les connaissances et ne peuvent pas refléter pleinement le niveau d'intelligence du modèle.

Pour un contrôle d’intégrité, l’équipe a effectué un test : cinq chercheurs en informatique issus d’universités de renommée mondiale ont passé un examen en utilisant les questions du test de chimie de C-Eval. Il s’est avéré que leur précision était presque aussi bonne qu’une estimation aléatoire, car la plupart des volontaires avaient oublié ce qu’ils avaient appris sur la chimie. Par conséquent, les critères d'évaluation qui mettent l'accent sur la connaissance de l'expertise ne constituent pas des mesures adéquates du QI d'un modèle.

Pour mesurer de manière globale le QI de LLM, l'équipe a développé un référentiel d'évaluation du QI qui prend en compte quatre aspects clés du QI : la cartographie des symboles, la compréhension des règles, l'exploration de modèles et la résistance aux interférences.

Le langage est de nature symbolique. Certaines études ont utilisé des symboles plutôt que des étiquettes de catégories pour évaluer le niveau d'intelligence des LLM. De même, l'équipe a utilisé une approche de cartographie symbolique pour tester la capacité du LLM à généraliser à des contextes invisibles.
Une capacité importante de l'intelligence humaine est de comprendre des règles données et de prendre les mesures correspondantes. Cette méthode de test a été largement utilisée à différents niveaux de tests. Par conséquent, la compréhension des règles devient ici le deuxième test.
Contenu réécrit : L'exploration de modèles est une partie importante de l'intelligence, qui implique l'induction et la déduction. Dans l’histoire du développement scientifique, cette méthode joue un rôle crucial. De plus, les questions des tests dans divers concours nécessitent souvent cette capacité à répondre. Pour ces raisons, nous avons choisi le pattern mining comme troisième indicateur d'évaluation
Le dernier et très important indicateur est la capacité anti-interférence, qui est également l'une des capacités fondamentales du renseignement. Des études ont montré que le langage et les images sont facilement perturbés par le bruit. Dans cette optique, l’équipe a utilisé l’immunité aux interférences comme mesure d’évaluation finale.

Bien sûr, ces quatre indicateurs ne constituent en aucun cas le dernier mot dans l'évaluation du LLM IQ, mais ils peuvent servir de point de départ pour stimuler le développement de la recherche ultérieure et devraient éventuellement conduire à un cadre complet d'évaluation du LLM IQ.

Les principales contributions de cette étude comprennent :

Le chercheur a déclaré qu'il s'agit d'une tentative de recherche LLM visant à entraîner plus de 100 milliards de paramètres à partir de zéro en utilisant une stratégie de croissance. Dans le même temps, il s'agit également du modèle à 100 milliards de paramètres le moins coûteux actuellement, ne coûtant que 100 000 dollars américains
En améliorant les objectifs de formation FreeLM, les méthodes potentielles de recherche d'hyperparamètres et la croissance préservant les fonctions, cette recherche résout le problème d'instabilité. Les chercheurs pensent que cette méthode peut également aider la communauté de recherche scientifique au sens large.
Les chercheurs ont également effectué des comparaisons expérimentales du nouveau modèle avec des modèles auparavant puissants, notamment en utilisant des références axées sur les connaissances et une nouvelle référence d'évaluation systématique du QI. Les résultats expérimentaux montrent que le modèle FLM-101B est compétitif et robuste
L'équipe publiera des modèles de points de contrôle, du code, des outils associés, etc. pour promouvoir la recherche et le développement de LLM bilingues en chinois et en anglais avec une échelle de 100 milliards de paramètres.

Aperçu de la conception du FLM-101B

Architecturalement, le FLM-101B utilise FreeLM comme réseau fédérateur et intègre xPos. En termes de taille de modèle, grâce à la nouvelle stratégie de croissance, les chercheurs peuvent obtenir des modèles de trois tailles : 16B, 51B et 101B en une seule formation.

Quant aux paramètres de pré-entraînement, le FLM-101B hérite de la stratégie d'entraînement de FreeLM.

En termes de stratégie de croissance, contrairement à la pratique courante consistant à former indépendamment des modèles de différentes tailles, l'équipe peut former séquentiellement trois modèles avec les paramètres 16B, 51B et 101B, où chaque modèle hérite de la plus grande taille de son précédent. un. Connaissance des petits modèles.

En ce qui concerne le matériel de formation, un cluster de 24 serveurs GPU DGX-A800 (8 × 80G) est utilisé ; le temps de formation du FLM-101B est inférieur à 26 jours. Pour des stratégies et des configurations de modèles plus parallèles, veuillez. se référer au tableau ci-dessous 1 et 2.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Stabilité d'entraînement du FLM-101B

Afin de résoudre les problèmes instables tels que la divergence des pertes et l'explosion du gradient, les chercheurs ont proposé une solution prometteuse, qui est brièvement décrite comme suit.

Prédiction des pertes. La méthode nouvellement proposée pour atteindre la stabilité de l'entraînement est la suivante :

Tout d'abord, déterminez la distribution des données avant de commencer l'entraînement FLM-16B.

Ensuite, effectuez une recherche de grille sur trois hyperparamètres, notamment le taux d'apprentissage, l'écart type d'initialisation et la température softmax de la couche de sortie. La recherche dans la grille est effectuée en exécutant un modèle de substitution avec une dimension d'état caché (c'est-à-dire la largeur du modèle) de 256, un nombre d'effectifs de 2 et un nombre de paramètres de 40 millions. Tous les autres hyperparamètres structurels et données d'entraînement de ce modèle de substitution sont les mêmes que ceux du FLM-16B. En utilisant le parallélisme des données sur 6 nœuds, une recherche sur grille a duré 24,6 heures, ce qui correspond approximativement à 6 heures avec une configuration à 24 nœuds.

Grâce à cette recherche sur grille, les chercheurs ont trouvé les hyperparamètres optimaux : taux d'apprentissage = 4e-4, écart type = 1,6e-2, température softmax = 2,0.

Ensuite, ils migrent ces hyperparamètres via µP pour obtenir une expérience de formation transparente qui évite les problèmes d'instabilité. Lorsque MSG est utilisé en combinaison, LM-51B et FLM-101B ne présentent pas de problèmes de divergence de croissance ultérieurs.

La figure 2 montre la courbe complète de perte d'entraînement.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Précision mixte via Bfloat16. Le but de l'utilisation d'une précision mixte est d'économiser de la mémoire et du temps pendant l'exécution. Ici, ils ont choisi Bfloat16.

Évaluation de référence

Le tableau 3 compare les performances du FLM-101B avec d'autres modèles de référence puissants (modèles de la série LLAMA et GLM-130B).

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Les chercheurs ont déclaré que ces résultats montrent que le FLM-101B n'a aucun avantage en termes de connaissances factuelles et que si davantage de données de formation peuvent être utilisées, ses performances continueront de s'améliorer.

Le tableau 4 montre les résultats de l'eFLM-16B par rapport au modèle de base en termes d'évaluation de l'expertise.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Il s'avère que les scores sur les ensembles de données qui mettent l'accent sur l'expertise ne reflètent pas le niveau d'intelligence du LLM, car certaines données de formation spécifiques peuvent avoir une contribution écrasante.

Le tableau 5 montre les performances de chaque étape du modèle FLM.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Comme prévu, les performances de FLM s'amélioreront à mesure que le modèle augmente. Le FLM-101B a obtenu les meilleurs résultats dans presque toutes les missions. Cela signifie qu’à chaque fois que le modèle grandit, il hérite des connaissances de l’étape précédente.

Expérience IQ

Dans l'expérience, afin de mener une évaluation plus systématique du QI de LLM, l'équipe de l'Intelligent Source Research Institute a utilisé des ensembles de données existants liés au QI et a fait avec certains éléments nécessaires modifications, ils ont également généré de nouvelles données synthétiques.

Plus précisément, l'évaluation du QI qu'ils ont proposée prend principalement en compte quatre aspects : la cartographie des symboles, la compréhension des règles, l'exploration de modèles et l'anti-interférence. Ces tâches ont un point commun : elles reposent toutes sur le raisonnement et la généralisation dans de nouveaux contextes.

Les tableaux suivants montrent les résultats de l'expérience de QI :

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

À partir de ces tableaux, sur ces quatre critères d'évaluation du QI, le FLM-101B a un coût de calcul beaucoup plus faible pour obtenir des résultats qui sont comparables au GPT-3 et meilleurs que le GLM-130B.

En plus de l'influence des données de formation, les chercheurs spéculent que cet avantage peut être dû au petit modèle au début qui affine l'espace de recherche plus petit lorsque le modèle devient de plus en plus large et que la capacité de généralisation est. amélioré, cet avantage continue de jouer.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7450

Tutoriel CakePHP

1374

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

L'application de grands modèles Tencent Yuanbao est en ligne ! Hunyuan est mis à niveau pour créer un assistant IA complet pouvant être transporté n'importe où Jun 09, 2024 pm 10:38 PM

Le 30 mai, Tencent a annoncé une mise à niveau complète de son modèle Hunyuan. L'application « Tencent Yuanbao » basée sur le modèle Hunyuan a été officiellement lancée et peut être téléchargée sur les magasins d'applications Apple et Android. Par rapport à la version de l'applet Hunyuan lors de la phase de test précédente, Tencent Yuanbao fournit des fonctionnalités de base telles que la recherche IA, le résumé IA et l'écriture IA pour les scénarios d'efficacité du travail ; pour les scénarios de la vie quotidienne, le gameplay de Yuanbao est également plus riche et fournit de multiples fonctionnalités d'application IA. , et de nouvelles méthodes de jeu telles que la création d'agents personnels sont ajoutées. « Tencent ne s'efforcera pas d'être le premier à créer un grand modèle. » Liu Yuhong, vice-président de Tencent Cloud et responsable du grand modèle Tencent Hunyuan, a déclaré : « Au cours de l'année écoulée, nous avons continué à promouvoir les capacités de Tencent. Grand modèle Tencent Hunyuan. Dans la technologie polonaise riche et massive dans des scénarios commerciaux tout en obtenant un aperçu des besoins réels des utilisateurs.

Lancement du grand modèle Bytedance Beanbao, le service d'IA complet Volcano Engine aide les entreprises à se transformer intelligemment Jun 05, 2024 pm 07:59 PM

Tan Dai, président de Volcano Engine, a déclaré que les entreprises qui souhaitent bien mettre en œuvre de grands modèles sont confrontées à trois défis clés : l'effet de modèle, le coût d'inférence et la difficulté de mise en œuvre : elles doivent disposer d'un bon support de base de grands modèles pour résoudre des problèmes complexes, et elles doivent également avoir une inférence à faible coût. Les services permettent d'utiliser largement de grands modèles, et davantage d'outils, de plates-formes et d'applications sont nécessaires pour aider les entreprises à mettre en œuvre des scénarios. ——Tan Dai, président de Huoshan Engine 01. Le grand modèle de pouf fait ses débuts et est largement utilisé. Le polissage de l'effet de modèle est le défi le plus critique pour la mise en œuvre de l'IA. Tan Dai a souligné que ce n'est que grâce à une utilisation intensive qu'un bon modèle peut être poli. Actuellement, le modèle Doubao traite 120 milliards de jetons de texte et génère 30 millions d'images chaque jour. Afin d'aider les entreprises à mettre en œuvre des scénarios de modèles à grande échelle, le modèle à grande échelle beanbao développé indépendamment par ByteDance sera lancé à travers le volcan.

Repoussant les limites de la détection de défauts traditionnelle, « Defect Spectrum » permet pour la première fois une détection de défauts industriels d'une ultra haute précision et d'une sémantique riche. Jul 26, 2024 pm 05:38 PM

Dans la fabrication moderne, une détection précise des défauts est non seulement la clé pour garantir la qualité des produits, mais également la clé de l’amélioration de l’efficacité de la production. Cependant, les ensembles de données de détection de défauts existants manquent souvent de précision et de richesse sémantique requises pour les applications pratiques, ce qui rend les modèles incapables d'identifier des catégories ou des emplacements de défauts spécifiques. Afin de résoudre ce problème, une équipe de recherche de premier plan composée de l'Université des sciences et technologies de Hong Kong, Guangzhou et de Simou Technology a développé de manière innovante l'ensemble de données « DefectSpectrum », qui fournit une annotation à grande échelle détaillée et sémantiquement riche des défauts industriels. Comme le montre le tableau 1, par rapport à d'autres ensembles de données industrielles, l'ensemble de données « DefectSpectrum » fournit le plus grand nombre d'annotations de défauts (5 438 échantillons de défauts) et la classification de défauts la plus détaillée (125 catégories de défauts).

Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Jul 26, 2024 am 08:40 AM

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Google AI a remporté la médaille d'argent de l'Olympiade mathématique de l'OMI, le modèle de raisonnement mathématique AlphaProof a été lancé et l'apprentissage par renforcement est de retour. Jul 26, 2024 pm 02:40 PM

Pour l’IA, l’Olympiade mathématique n’est plus un problème. Jeudi, l'intelligence artificielle de Google DeepMind a réalisé un exploit : utiliser l'IA pour résoudre la vraie question de l'Olympiade mathématique internationale de cette année, l'OMI, et elle n'était qu'à un pas de remporter la médaille d'or. Le concours de l'OMI qui vient de se terminer la semaine dernière comportait six questions portant sur l'algèbre, la combinatoire, la géométrie et la théorie des nombres. Le système d'IA hybride proposé par Google a répondu correctement à quatre questions et a marqué 28 points, atteignant le niveau de la médaille d'argent. Plus tôt ce mois-ci, le professeur titulaire de l'UCLA, Terence Tao, venait de promouvoir l'Olympiade mathématique de l'IA (AIMO Progress Award) avec un prix d'un million de dollars. De manière inattendue, le niveau de résolution de problèmes d'IA s'était amélioré à ce niveau avant juillet. Posez les questions simultanément sur l'OMI. La chose la plus difficile à faire correctement est l'OMI, qui a la plus longue histoire, la plus grande échelle et la plus négative.

Pratique avancée du graphe de connaissances industrielles Jun 13, 2024 am 11:59 AM

1. Introduction au contexte Tout d’abord, présentons l’historique du développement de la technologie Yunwen. Yunwen Technology Company... 2023 est la période où les grands modèles prédominent. De nombreuses entreprises pensent que l'importance des graphiques a été considérablement réduite après les grands modèles et que les systèmes d'information prédéfinis étudiés précédemment ne sont plus importants. Cependant, avec la promotion du RAG et la prévalence de la gouvernance des données, nous avons constaté qu'une gouvernance des données plus efficace et des données de haute qualité sont des conditions préalables importantes pour améliorer l'efficacité des grands modèles privatisés. Par conséquent, de plus en plus d'entreprises commencent à y prêter attention. au contenu lié à la construction des connaissances. Cela favorise également la construction et le traitement des connaissances à un niveau supérieur, où de nombreuses techniques et méthodes peuvent être explorées. On voit que l'émergence d'une nouvelle technologie ne détruit pas toutes les anciennes technologies, mais peut également intégrer des technologies nouvelles et anciennes.

Le point de vue de la nature : les tests de l'intelligence artificielle en médecine sont dans le chaos. Que faut-il faire ? Aug 22, 2024 pm 04:37 PM

Editeur | ScienceAI Sur la base de données cliniques limitées, des centaines d'algorithmes médicaux ont été approuvés. Les scientifiques se demandent qui devrait tester les outils et comment le faire au mieux. Devin Singh a vu un patient pédiatrique aux urgences subir un arrêt cardiaque alors qu'il attendait un traitement pendant une longue période, ce qui l'a incité à explorer l'application de l'IA pour réduire les temps d'attente. À l’aide des données de triage des salles d’urgence de SickKids, Singh et ses collègues ont construit une série de modèles d’IA pour fournir des diagnostics potentiels et recommander des tests. Une étude a montré que ces modèles peuvent accélérer les visites chez le médecin de 22,3 %, accélérant ainsi le traitement des résultats de près de 3 heures par patient nécessitant un examen médical. Cependant, le succès des algorithmes d’intelligence artificielle dans la recherche ne fait que le vérifier.

Xiaomi Byte unit ses forces ! Un grand modèle de l'accès de Xiao Ai à Doubao : déjà installé sur les téléphones mobiles et SU7 Jun 13, 2024 pm 05:11 PM

Selon les informations du 13 juin, selon le compte public « Volcano Engine » de Byte, l'assistant d'intelligence artificielle de Xiaomi « Xiao Ai » a conclu une coopération avec Volcano Engine. Les deux parties réaliseront une expérience interactive d'IA plus intelligente basée sur le grand modèle beanbao. . Il est rapporté que le modèle beanbao à grande échelle créé par ByteDance peut traiter efficacement jusqu'à 120 milliards de jetons de texte et générer 30 millions de contenus chaque jour. Xiaomi a utilisé le grand modèle Doubao pour améliorer les capacités d'apprentissage et de raisonnement de son propre modèle et créer un nouveau « Xiao Ai Classmate », qui non seulement saisit plus précisément les besoins des utilisateurs, mais offre également une vitesse de réponse plus rapide et des services de contenu plus complets. Par exemple, lorsqu'un utilisateur pose une question sur un concept scientifique complexe, &ldq

See all articles