


Création de l'Alliance TPC : cibler les modèles d'IA avec plus de mille milliards de paramètres pour promouvoir la découverte scientifique
Selon les informations du 16 novembre, les principales institutions de recherche scientifique du secteur, le National Supercomputing Center des États-Unis et de nombreuses entreprises leaders dans le domaine de l'IA ont récemment formé conjointement le Trillion Parameter Consortium (TPC).
Généré par DALL-E 3
Selon certaines informations, ce site a appris que l'Alliance TPC est composée de scientifiques de laboratoires, d'institutions de recherche scientifique, d'universités et d'industries du monde entier, dans le but de promouvoir conjointement des solutions pour la recherche scientifique. découverte de modèles d'intelligence artificielle, avec un accent particulier sur les modèles géants avec un billion de paramètres ou plus
L'Alliance TPC travaille actuellement au développement d'architectures de modèles et de stratégies de formation évolutives, tout en organisant et en rassemblant des données scientifiques pour la formation de modèles afin d'optimiser l'application des bibliothèques d'IA sur les plateformes informatiques exascale actuelles et futures
TPC vise à créer une communauté ouverte de chercheurs pour développer des modèles d'IA génératifs à grande échelle pour des problèmes scientifiques et d'ingénierie, en particulier, des projets communs seront lancés pour éviter la duplication des travaux et partager des méthodes, des approches , outils, connaissances et flux de travail. De cette manière, le consortium espère maximiser l’impact de ces projets sur les communautés scientifiques et de l’intelligence artificielle au sens large.
L’objectif de TPC est de construire un réseau mondial de ressources, de données et d’expertise. Depuis sa création, le consortium a créé plusieurs groupes de travail visant à résoudre les complexités de la construction de modèles d'IA à grande échelle.
Les ressources informatiques exascale nécessaires à la formation seront également fournies par le Département américain de l'énergie (DOE) dans les laboratoires de plusieurs pays. en tant que plusieurs partenaires fondateurs de TPC au Japon, en Europe et dans d'autres pays. Même avec ces ressources, la formation peut prendre plusieurs mois.
Rick Stevens, directeur associé pour l'informatique, les sciences de l'environnement et de la vie au Laboratoire national d'Argonne du Département américain de l'énergie et professeur d'informatique à l'Université de Chicago, a déclaré : « Dans notre laboratoire et avec des institutions partenaires du monde entier, notre L’équipe commence à développer une série de modèles d’intelligence artificielle de pointe pour la recherche scientifique et se prépare à utiliser de grandes quantités de données scientifiques jusqu’alors inexploitées pour la formation. »
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

MetaFAIR s'est associé à Harvard pour fournir un nouveau cadre de recherche permettant d'optimiser le biais de données généré lors de l'apprentissage automatique à grande échelle. On sait que la formation de grands modèles de langage prend souvent des mois et utilise des centaines, voire des milliers de GPU. En prenant comme exemple le modèle LLaMA270B, sa formation nécessite un total de 1 720 320 heures GPU. La formation de grands modèles présente des défis systémiques uniques en raison de l’ampleur et de la complexité de ces charges de travail. Récemment, de nombreuses institutions ont signalé une instabilité dans le processus de formation lors de la formation des modèles d'IA générative SOTA. Elles apparaissent généralement sous la forme de pics de pertes. Par exemple, le modèle PaLM de Google a connu jusqu'à 20 pics de pertes au cours du processus de formation. Le biais numérique est à l'origine de cette imprécision de la formation,

Selon les informations du 16 novembre, les principales institutions de recherche scientifique du secteur, le National Supercomputing Center des États-Unis et de nombreuses entreprises leaders dans le domaine de l'IA ont récemment créé conjointement le Trillion Parameter Consortium (TPC). Généré par DALL-E3 Selon des rapports, ce site a appris que l'Alliance TPC est composée de scientifiques de laboratoires, d'institutions de recherche scientifique, d'universités et d'industries du monde entier. Elle vise à promouvoir conjointement des modèles d'intelligence artificielle pour la découverte scientifique et paie des fonds spéciaux. attention à avoir un Le Consortium TPC travaille actuellement au développement d'architectures de modèles évolutives et de stratégies de formation pour les méga-modèles avec un billion de paramètres ou plus, tout en organisant et en conservant les données scientifiques utilisées pour la formation des modèles afin d'optimiser les bibliothèques d'IA pour les temps exascale actuels et futurs. plate-forme informatique de niveau

Selon des informations du 15 novembre, Microsoft a récemment lancé une méthode appelée « Everything of Thought » (XOT), inspirée d'AlphaZero de Google DeepMind, qui utilise des réseaux neuronaux compacts pour améliorer les capacités de raisonnement des modèles d'IA. Microsoft a collaboré avec l'Institut de technologie de Géorgie et l'Université normale de Chine orientale pour développer cet algorithme, qui intègre les capacités d'apprentissage par renforcement et de recherche arborescente de Monte Carlo (MCTS) pour améliorer encore l'efficacité de la résolution de problèmes dans des environnements décisionnels complexes. Remarque tirée de ce site : L'équipe de recherche de Microsoft a déclaré que la méthode XOT peut étendre le modèle de langage à des problèmes inconnus dans Gameof24, 8-Puzzle et P.

Selon des informations du 26 juin, DeepMind, une filiale de Google, a déclaré que la société avait développé un modèle d'intelligence artificielle appelé RoboCat, capable de contrôler différents bras robotiques pour effectuer une série de tâches. Cela en soi n'est pas particulièrement nouveau, mais DeepMind affirme que le modèle est le premier à être capable de résoudre et de s'adapter à une variété de tâches, et de le faire en utilisant différents robots du monde réel. RoboCat s'inspire d'un autre modèle d'IA DeepMind, Gato, qui peut analyser et traiter du texte, des images et des événements. Les données d'entraînement de RoboCat comprennent des images et des données de mouvement de robots simulés et réels, provenant d'autres modèles de contrôle de robot dans l'environnement virtuel, de robots contrôlés par l'homme.

Selon l'actualité du 10 juillet, Databricks a récemment publié le SDK du modèle d'IA utilisé par la plateforme d'analyse Big Data Spark. Lorsque les développeurs écrivent du code, ils peuvent donner des instructions en anglais, et le compilateur convertira les instructions en anglais en langage PySpark ou SQL. codes pour améliorer l’efficacité des développeurs. ▲ Source de l'image Site Web Databricks Il est rapporté que Spark est un outil d'analyse de Big Data open source téléchargé plus d'un milliard de fois par an et utilisé dans 208 pays et régions du monde. ▲ Source de l'image Site Web Databricks Databricks a déclaré que bien que l'assistant de code IA de Microsoft, GitHubCopilot, soit puissant, le seuil d'utilisation est également assez élevé. Le SDK de Databricks est relativement plus universel et plus facile à utiliser.

Selon des informations du 15 décembre, Google DeepMind a récemment annoncé une méthode de formation de modèle appelée "FunSearch", qui prétend être capable de calculer une série de "impliquant les domaines des mathématiques et de l'informatique", y compris des "problèmes de niveau supérieur" et des "problèmes contraignants". problèmes". questions complexes." Le contenu qui doit être réécrit est : ▲Source : Google DeepMind (ci-après dénommé DeepMind) Il est rapporté que la méthode de formation du modèle FunSearch introduit principalement un système « Évaluateur » pour le modèle IA, et le modèle IA produit une série de « méthodes créatives de résolution de problèmes » et « l'évaluateur » est chargé d'évaluer les méthodes de résolution de problèmes produites par le modèle. Après des itérations répétées, un modèle d'IA avec des capacités mathématiques plus fortes peut être formé. DeepM de Google

Selon l'actualité du 14 juin, des chercheurs de Microsoft ont récemment présenté le modèle LLaVA-Med, qui est principalement utilisé pour la recherche biomédicale et peut déduire les conditions pathologiques des patients sur la base d'images tomodensitométriques et radiographiques. Il est rapporté que des chercheurs de Microsoft ont coopéré avec un groupe d'hôpitaux et obtenu un vaste ensemble de données correspondant à du texte d'image biomédicale pour former un modèle d'IA multimodal. Cet ensemble de données comprend des radiographies pulmonaires, des IRM, des images histologiques, pathologiques et tomodensitométriques, etc., avec une couverture relativement complète. ▲ Source de l'image Microsoft Microsoft utilise GPT-4, basé sur VisionTransformer et le modèle de langage Vicuna, pour entraîner LLaVA-Med sur huit GPU Nvidia A100, qui contient « toutes les informations de pré-analyse pour chaque image »,

Microsoft a annoncé les conditions de son service IA le 16 août et a annoncé que les conditions entreraient en vigueur le 30 septembre. Le contenu principal de cette mise à jour concerne l'IA générative, en particulier le contenu lié à l'utilisation d'utilisateurs pertinents et aux pratiques de développement responsables. Microsoft souligne que le responsable ne conservera pas les enregistrements de conversation des utilisateurs discutant avec Bing et que ces données de discussion ne seront pas utilisées. Les cinq points de politique clés utilisés pour former le modèle d'IA pour Bing Enterprise Chat couvrent plusieurs domaines, notamment l'interdiction aux utilisateurs de tenter de procéder à une ingénierie inverse du modèle d'IA pour empêcher la révélation des composants sous-jacents, l'interdiction de l'extraction de données par des méthodes telles que ; scraping Web, sauf autorisation explicite ; Une clause importante empêche les utilisateurs d'utiliser les données d'IA pour créer ou améliorer d'autres services d'IA. Ce qui suit est une clause ajoutée par Microsoft.
