localisation actuelle:Maison > Articles techniques > Périphériques technologiques > IA
- Direction:
- tous web3.0 développement back-end interface Web base de données Opération et maintenance outils de développement cadre php programmation quotidienne Applet WeChat Problème commun autre technologie Tutoriel CMS Java Tutoriel système tutoriels informatiques Tutoriel matériel Tutoriel mobile Tutoriel logiciel Tutoriel de jeu mobile
- Classer:
-
- Du bare metal au grand modèle avec 70 milliards de paramètres, voici un tutoriel et des scripts prêts à l'emploi
- Nous savons que le LLM est formé sur des clusters informatiques à grande échelle utilisant des données massives. Ce site a présenté de nombreuses méthodes et technologies utilisées pour aider et améliorer le processus de formation LLM. Aujourd'hui, ce que nous souhaitons partager est un article qui approfondit la technologie sous-jacente et présente comment transformer un ensemble de « bare metals » sans même un système d'exploitation en un cluster informatique pour la formation LLM. Cet article provient d'Imbue, une startup d'IA qui s'efforce d'atteindre une intelligence générale en comprenant comment les machines pensent. Bien sûr, transformer un tas de « bare metal » sans système d'exploitation en un cluster informatique pour la formation LLM n'est pas un processus facile, plein d'exploration et d'essais et d'erreurs, mais Imbue a finalement réussi à former un LLM avec 70 milliards de paramètres et dans. le processus s'accumule
- IA 783 2024-07-24 20:13:31
-
- Comment créer un modèle open source capable de vaincre GPT-4o ? Concernant Llama 3.1 405B, Meta est écrit dans cet article
- Après une "fuite accidentelle" deux jours à l'avance, Llama 3.1 a finalement été officiellement publié hier soir. Llama3.1 étend la longueur du contexte à 128 Ko et propose trois versions : 8B, 70B et 405B, élevant une fois de plus à lui seul les normes concurrentielles des pistes de grands modèles. Pour la communauté IA, l'importance la plus importante de Llama3.1405B est qu'il rafraîchit la limite supérieure des capacités du modèle de base open source. Les responsables de Meta ont déclaré que dans une série de tâches, ses performances sont comparables à celles du meilleur modèle fermé. modèle source. Le tableau ci-dessous montre les performances des modèles actuels de la série Llama3 sur des critères clés. On constate que les performances du modèle 405B sont très proches de celles du GPT-4o. Au même moment, Meta annonçait "TheLlam"
- IA 1085 2024-07-24 18:42:03
-
- La performance est 11 fois supérieure, les équipes de Georgia Tech et Tsinghua ont utilisé l'IA pour aider à découvrir de nouveaux matériaux de stockage d'énergie, publié dans la sous-journal Nature.
- Éditeur | Les condensateurs électrostatiques à peau de radis sont des composants clés de stockage d'énergie dans les systèmes électriques avancés dans les domaines de la défense, de l'aviation, de l'énergie et des transports. La densité énergétique est la valeur de mérite d'un condensateur électrostatique et est principalement déterminée par le choix du matériau diélectrique. La plupart des matériaux diélectriques polymères de qualité industrielle sont des polyoléfines flexibles ou des aromatiques rigides qui offrent soit une densité énergétique élevée, soit une stabilité thermique élevée, mais pas les deux. Ici, une équipe de recherche du Georgia Institute of Technology, de l’Université du Connecticut et de l’Université Tsinghua a utilisé l’intelligence artificielle (IA), la chimie des polymères et l’ingénierie moléculaire pour découvrir l’une des séries Tie des polynorbornènes et des polyimides.
- IA 447 2024-07-24 17:42:52
-
- Les réseaux de neurones ont aussi une conscience spatiale ! Apprenez à créer des cartes dans Minecraft, publié dans le sous-magazine Nature
- C’est la première fois que les humains démontrent que les réseaux de neurones peuvent créer leurs propres cartes. Imaginez que vous êtes dans une ville étrange, même si l'environnement vous est inconnu au début, vous pouvez explorer les environs et éventuellement dessiner une carte de l'environnement dans votre cerveau, qui comprend les bâtiments, les rues, les panneaux, etc. qui interagissent les uns avec les autres. . relation de position entre eux. Cette capacité à construire des cartes spatiales dans le cerveau est à la base de types de cognition d’ordre supérieur chez l’homme : par exemple, il est théorisé que le langage est codé par des structures semblables à des cartes dans le cerveau. Cependant, même l’intelligence artificielle et les réseaux neuronaux les plus avancés ne peuvent pas créer une telle carte à partir de rien. "On a le sentiment que même les plus avancés
- IA 701 2024-07-24 09:38:12
-
- Le premier modèle open source à dépasser le niveau GPT4o ! Llama 3.1 fuite : 405 milliards de paramètres, liens de téléchargement et cartes de modèles sont disponibles
- Préparez votre GPU ! Llama3.1 est finalement apparu, mais la source n'est pas officielle de Meta. Aujourd'hui, la nouvelle divulguée du nouveau grand modèle Llama est devenue virale sur Reddit. En plus du modèle de base, elle comprend également des résultats de référence de 8B, 70B et le paramètre maximum de 405B. La figure ci-dessous montre les résultats de comparaison de chaque version de Llama3.1 avec OpenAIGPT-4o et Llama38B/70B. On peut voir que même la version 70B dépasse GPT-4o sur plusieurs benchmarks. Source de l'image : https://x.com/mattshumer_/status/1815444612414087294 Évidemment, version 3.1 de 8B et 70
- IA 1296 2024-07-23 20:51:33
-
- ECCV 2024|BlazeBVD, une méthode générale de suppression du scintillement aveugle des vidéos, est proposée ici conjointement par Meitu et l'Université nationale des sciences et technologies de Chine.
- La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Ces dernières années, l'écosystème des vidéos courtes a rapidement émergé et des outils de création et d'édition autour de courtes vidéos émergent constamment. Wink, un outil de montage vidéo mobile professionnel appartenant à la société Meitu. , ouvrant la voie avec ses capacités de restauration de qualité vidéo originale, utilisées dans le pays et à l'étranger
- IA 438 2024-07-23 15:13:34
-
- L'entreprise de robots intelligents incarnés investie par Xiaomi et le géant du soudage ont officiellement annoncé une coopération stratégique
- Récemment, « Xiaoyu Intelligent Manufacturing », la première société d'intelligence incarnée investie par le groupe Xiaomi, a conclu une coopération stratégique majeure avec Tangshan Panasonic, une coentreprise du géant industriel Panasonic, visant à développer conjointement des robots de soudage intelligents avancés de grand modèle. Le 18 juillet, la cérémonie de signature de la coopération stratégique entre Tangshan Panasonic Industrial Robot Co., Ltd. (ci-après dénommée « Tangshan Panasonic ») et Beijing Xiaoyu Intelligent Manufacturing Technology Co., Ltd. (ci-après dénommée « Xiaoyu Intelligent Manufacturing »). ) a été réalisé avec succès au siège de Tangshan Panasonic. Le directeur général de Panasonic Industrial Machinery Co., Ltd., Hashiyama Yuichiro, le directeur général adjoint Liu Zheng, le fondateur et PDG de Xiaoyu Intelligent Manufacturing, Qiao Zhongliang, le co-fondateur et vice-président Li Chuan et d'autres dirigeants ont assisté à la cérémonie de signature. Les deux parties ont exprimé leur enthousiasme. pour cette coopération envoyer
- IA 476 2024-07-23 14:50:54
-
- Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète
- Actuellement, les modèles linguistiques autorégressifs à grande échelle utilisant le prochain paradigme de prédiction de jetons sont devenus populaires partout dans le monde. Dans le même temps, un grand nombre d'images et de vidéos synthétiques sur Internet nous ont déjà montré la puissance des modèles de diffusion. Récemment, une équipe de recherche de MITCSAIL (dont Chen Boyuan, doctorant au MIT) a intégré avec succès les puissantes capacités du modèle de diffusion en séquence complète et du prochain modèle de jeton, et a proposé un paradigme de formation et d'échantillonnage : le forçage de diffusion (DF ). Titre de l'article : DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Adresse de l'article : https://
- IA 1164 2024-07-23 14:05:21
-
- Après 'Alibaba Star', Alibaba Taotian a relancé le recrutement des meilleurs talents techniques, avec un salaire annuel d'un million en standard
- Le 22 juillet, le « Programme T-Star pour les meilleurs talents » du groupe Alibaba Taotian a été officiellement lancé. Le projet recrute des experts compétitifs, académiques et pratiques dans les domaines technologiques de pointe du monde pour fournir à ces « adolescents de génie » des sujets techniques de premier plan, des ressources informatiques, des ressources de plate-forme de R&D et un personnel de premier ordre qui commence avec un salaire annuel d'un million. et sont formés exclusivement par des « grands patrons » de la culture de l'espace. Le journaliste a appris que le plan T-Star est une continuation du plan « Alibaba Star » lancé en 2011 et que son objectif est d'attirer les plus jeunes et les meilleurs talents techniques. Dans le passé, la plupart des personnes recrutées étaient des docteurs et des vice-présidents.
- IA 900 2024-07-22 21:20:23
-
- ICML 2024 Oral | Le DPO est-il plus adapté au LLM que le PPO ?
- La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Wu Yi est professeur adjoint à l'Institut d'information interdisciplinaire de l'Université Tsinghua. Il était chercheur à temps plein à OpenAI. Ses domaines de recherche incluent l'apprentissage par renforcement et l'alignement de grands modèles. , l'interaction homme-machine et l'apprentissage des robots. A obtenu un doctorat de l'Université de Californie à Berkeley en 2019, sous la direction de Stu
- IA 402 2024-07-22 18:41:23
-
- Nouvelle norme pour l'imagerie IA, seulement 1 % des données originales peuvent atteindre les meilleures performances, modèle de base médical général publié dans la sous-journal Nature
- Le modèle de base massivement pré-entraîné de Cabbage Leaf a connu un grand succès dans les domaines non médicaux. Cependant, la formation de ces modèles nécessite souvent des ensembles de données volumineux et complets, contrairement aux ensembles de données plus petits et plus spécialisés courants dans l’imagerie biomédicale. Des chercheurs de l'Institut Fraunhofer de médecine numérique MEVIS en Allemagne ont proposé une stratégie d'apprentissage multitâche qui sépare le nombre de tâches de formation des besoins en mémoire. Ils ont formé un modèle biomédical pré-entraîné universel (UMedPT) sur une base de données multitâches (comprenant la tomographie, la microscopie et les images radiographiques) et ont adopté diverses stratégies d'étiquetage telles que la classification, la segmentation et
- IA 1061 2024-07-22 17:38:00
-
- ECCV 2024 | Pour améliorer les performances des tâches de détection GPT-4V et Gemini, vous avez besoin de ce paradigme d'invite
- La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article sont issus de l'Université du Zhejiang, du Laboratoire d'intelligence artificielle de Shanghai, de l'Université chinoise de Hong Kong, de l'Université de Sydney et de l'Université d'Oxford. Liste des auteurs : Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, WanliOuyang, Philip Torr, Jia
- IA 605 2024-07-22 17:28:30
-
- KDD 2024|L'équipe de Hong Kong Rhubarb Chao analyse en profondeur la « limite inconnue » des grands modèles dans le domaine de l'apprentissage automatique des graphes
- La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com L'auteur principal de cet article est issu du Data Intelligence Laboratory (DataIntelligenceLab) de l'Université de Hong Kong. Parmi les auteurs, le premier auteur Ren Xubin et le deuxième auteur Tang Jiabin sont tous deux doctorants en première année à la School of Data Science de l'Université de Hong Kong, et leur superviseur est Da
- IA 1194 2024-07-22 16:54:34
-
- L'Université des sciences et technologies de Chine et Huawei Noah ont proposé la loi de l'entropie pour révéler la relation entre les performances des grands modèles, le taux de compression des données et la perte de formation.
- La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Ce travail a été réalisé par l'équipe Chen Enhong, membre de l'IEEE, du Laboratoire national clé d'intelligence cognitive de l'Université des sciences et technologies de Chine et du Laboratoire de l'Arche de Noé de Huawei. L’équipe du professeur Chen Enhong est profondément impliquée dans les domaines de l’exploration de données et de l’apprentissage automatique et a publié de nombreux articles dans les principales revues et conférences de Google Scholar.
- IA 837 2024-07-22 16:39:35
-
- Les poids, les codes et les ensembles de données sont tous open source et les performances dépassent le petit modèle d'Apple.
- Les petits modèles sont-ils une tendance ? Cette semaine, OpenAI a lancé le petit modèle GPT-4o-mini, et la piste du petit modèle a été officiellement lancée. Apple a récemment rejoint cette piste. Récemment, Apple, en tant que l'un des instituts de recherche du projet DataComp-LM (DCLM), a publié le modèle open source DCLM-7B sur HuggingFace. Les performances du modèle ont dépassé celles du Mistral-7B et se rapprochent d'autres modèles open source de premier plan, notamment Llama3 et Gemma. Lien article : https://arxiv.org/pdf/2406.11794 Lien projet : https://huggingface.co/apple/DCLM-7
- IA 515 2024-07-22 16:18:40