Articlerecherche_Site Web PHP chinois

Que faire si les connaissances sur les grands modèles sont épuisées ? L'équipe de l'Université du Zhejiang explore des méthodes de mise à jour des paramètres des grands modèles : l'édition de modèles

Présentation de l'article：Xi Xiaoyao Science and Technology Talk Auteur original | Xiaoxi et les grands modèles Python ont une question intuitive derrière leur taille énorme : « Comment les grands modèles doivent-ils être mis à jour ? Ce n'est pas du tout une simple « tâche d'apprentissage ». Idéalement, avec les changements complexes dans les différentes situations du monde, les grands modèles devraient suivre le rythme à tout moment et en tout lieu. Cependant, la charge de calcul liée à la formation d'un nouveau grand modèle le fait. ne permet pas une formation à grande échelle. Le modèle peut être mis à jour en temps réel, c'est pourquoi un nouveau concept "ModelEditing" est apparu pour apporter des modifications efficaces aux données du modèle dans des domaines spécifiques sans affecter négativement les résultats des autres entrées. où, représente le « voisin effectif »

2023-05-30 commentaire 0 1244

S'adapter aux grands modèles de bas rang

Présentation de l'article：L'adaptation de bas rang de grands modèles est une méthode permettant de réduire la complexité en approchant la structure de grande dimension d'un grand modèle avec une structure de basse dimension. L'objectif est de créer une représentation de modèle plus petite et plus gérable tout en conservant de bonnes performances. Dans de nombreuses tâches, la structure de grande dimension des grands modèles peut contenir des informations redondantes ou non pertinentes. En identifiant et en supprimant ces redondances, un modèle plus efficace peut être créé tout en conservant les performances d'origine et peut utiliser moins de ressources pour la formation et le déploiement. L'adaptation de bas rang est une méthode qui peut accélérer la formation de grands modèles tout en réduisant la consommation de mémoire. Son principe est de geler les poids du modèle pré-entraîné et d'introduire la matrice de décomposition des rangs entraînables dans chaque couche de l'architecture Transformer, réduisant ainsi considérablement la capacité d'entraînement des tâches en aval.

2024-01-23 commentaire 0 609

Vivo lance un modèle d'IA polyvalent auto-développé - Blue Heart Model

Présentation de l'article：Vivo a publié sa matrice de grands modèles d'intelligence artificielle générale auto-développée - le modèle Blue Heart lors de la conférence des développeurs 2023 le 1er novembre. Vivo a annoncé que le modèle Blue Heart lancerait 5 modèles avec différents niveaux de paramètres, respectivement. : milliards, dizaines de milliards et centaines de milliards, couvrant les scénarios de base, et ses capacités de modèle occupent une position de leader dans l'industrie. Vivo estime qu'un bon grand modèle auto-développé doit répondre aux cinq exigences suivantes : des fonctions complètes à grande échelle, des algorithmes puissants, une évolution sûre et fiable, indépendante, et doit être largement open source. Le contenu réécrit est le suivant : Parmi eux. , le premier est le modèle Blue Heart Model 7B, qui est un modèle de niveau 7 milliards, conçu pour fournir un double service pour les téléphones mobiles et le cloud. Vivo a déclaré que ce modèle peut être utilisé dans des domaines tels que la compréhension du langage et la création de textes.

2023-11-01 commentaire 0 1510

ByteDance a officiellement publié la famille « Doubao Big Model », comprenant des modèles généraux, des modèles de jeu de rôle, des modèles de reproduction vocale, des modèles de reconnaissance vocale, des modèles de diagrammes vincentiens, etc.

Présentation de l'article：Selon les nouvelles de ce site du 15 mai ce matin, ByteDance a officiellement annoncé lors de la conférence Spring Volcano Engine Force 2024 que son grand modèle de pouf a officiellement lancé des services externes. Selon les rapports, les grands modèles de poufs comprennent le modèle universel de pouf Pro, le modèle universel de pouf liti, le modèle de jeu de rôle de pouf, le modèle de synthèse vocale de pouf, le modèle de reproduction vocale de pouf, le modèle de reconnaissance vocale de pouf, le pouf · Vincent modèle de diagramme, pouf ・Modèle FunctionCall. Selon les responsables, la conférence est divisée en trois chapitres : « Opportunités de croissance et de renouvellement de l'IA, nouveaux paradigmes d'application de l'IA et escorte de la puissance de calcul de l'IA ». En plus de lancer le grand modèle développé par Bytedance, Bytedance a également annoncé que la plate-forme de service pour grands modèles Volcano Engine, Volcano Ark, subirait également une mise à niveau majeure. même

2024-06-02 commentaire 0 382

Le grand modèle 360 Qiyuan a annoncé avoir réussi l'enregistrement et les deux modèles auto-développés ont été approuvés

Présentation de l'article：Selon les informations de ce site Internet du 5 novembre, le grand modèle 360 "Qiyuan Large Model" a été enregistré et lancé le 4 novembre. Selon les résultats de la requête de ce site, le « 360 Intelligent Brain Large Model » a été ouvert au public le 5 septembre de cette année. Par conséquent, 360 Company est devenue la première entreprise technologique nationale à enregistrer les deux grands modèles. Brain Large Model intègre les capacités techniques du grand modèle 360GPT et du grand modèle multimodal 360, avec dix capacités principales et des centaines de fonctions de subdivision telles que la création générative, le dialogue multi-tours et le raisonnement logique, couvrant tous les scénarios d'application des grands modèles. . Il est rapporté que les utilisateurs peuvent bénéficier de services à grande échelle tels que 360 Intelligent Brain App, 360 Search, 360 Secure Browser, LoRA360 et les employés numériques de l'IA via une connexion unique sur ai.360.com.

2023-11-05 commentaire 0 1043

La différence entre les grands modèles de langage et les modèles d'intégration de mots

Présentation de l'article：Les grands modèles de langage et les modèles d’intégration de mots sont deux concepts clés du traitement du langage naturel. Ils peuvent tous deux être appliqués à l’analyse et à la génération de texte, mais les principes et les scénarios d’application sont différents. Les modèles linguistiques à grande échelle sont principalement basés sur des modèles statistiques et probabilistes et conviennent à la génération continue de textes et à une compréhension sémantique. Le modèle d'intégration de mots peut capturer la relation sémantique entre les mots en mappant les mots sur un espace vectoriel, et convient à l'inférence de signification de mot et à la classification de texte. 1. Modèle d'incorporation de mots Le modèle d'incorporation de mots est une technologie qui traite les informations textuelles en mappant les mots dans un espace vectoriel de faible dimension. Il convertit les mots d'une langue sous forme vectorielle afin que les ordinateurs puissent mieux comprendre et traiter le texte. Les modèles d'intégration de mots couramment utilisés incluent Word2Vec et GloVe. Ces modèles sont largement utilisés dans les tâches de traitement du langage naturel

2024-01-23 commentaire 0 1440

Baidu lance le premier modèle médical « de niveau industriel » de Chine « Modèle de médecine spirituelle » : Baidu lance le premier modèle médical « de niveau industriel » de Chine « Modèle de médecine spirituelle »

Présentation de l'article：Selon les informations du 19 septembre, Baidu a publié aujourd'hui le premier modèle médical « de niveau industriel » de Chine, le modèle de médecine spirituelle, et a ouvert le modèle de médecine spirituelle aux industries en amont et en aval pour évaluation et utilisation expérimentale afin de promouvoir la numérisation et l'intelligence du industrie médicale. En termes de scénarios d'utilisation spécifiques, le grand modèle du médecin spirituel peut combiner du texte libre pour générer des dossiers médicaux structurés en quelques secondes, et analyser avec précision le dialogue médecin-patient pour générer du contenu tel que les principales plaintes et l'historique actuel. De plus, le grand modèle de médecine spirituelle est un grand modèle qui prend en charge l'analyse simultanée de plusieurs documents chinois et anglais et réalise des questions et réponses intelligentes basées sur le contenu de l'analyse des documents. En termes de diagnostic et de traitement auxiliaires, le grand modèle de médecine spirituelle peut comprendre l'état du patient à travers plusieurs cycles de dialogue, aider les médecins à diagnostiquer les maladies en temps réel, recommander des plans de traitement, améliorer l'efficacité et l'expérience de l'ensemble du processus de traitement médical. , et devenez un « intendant de la santé » 24 heures sur 24 pour les patients.

2023-09-20 commentaire 0 1406

Plus de 30 grands modèles se sont réunis et les grands modèles sont devenus la « classe supérieure » de la Conférence mondiale sur l'intelligence artificielle

Présentation de l'article：Du 6 au 8 juillet s'est tenue à Shanghai la Conférence mondiale sur l'intelligence artificielle 2023. iFlytek a présenté son grand modèle cognitif Spark et ses applications industrielles à cette conférence, présentant les capacités de base des grands modèles et les derniers résultats d'application dans les domaines de l'éducation, de la médecine, du bureau, de l'industrie et autres. Lors de l'événement, l'attaché de presse humain numérique créé par iFlytek pour la conférence a fait une magnifique apparition au service desk du Shanghai World Expo Center et du World Expo Exhibition and Convention Center. Avec le soutien du modèle Spark, le public peut interagir. avec lui en temps réel plus naturel et découvrez les mises à jour et les sujets d'actualité de la conférence sur l'intelligence artificielle. L'interprétation simultanée iFLYTEK a fourni un soutien technique pour la cérémonie d'ouverture et le forum principal de cette conférence, aidant les invités nationaux et étrangers à parvenir à une communication sans obstacle. En outre, le modèle Spark, basé sur des logiciels et du matériel nationaux, est également disponible dans le domaine technologique des grands modèles d'IA et dans l'écosystème Huawei Shengteng.

2023-07-10 commentaire 0 1076

Modèle visuel MiracleVision

Présentation de l'article：MiracleVision est un modèle de résolution de tâches visuelles formé sur la base du modèle GPT de ChinaAi. Il peut être utilisé dans de nombreux domaines tels que la classification d'images, la détection d'objets et la génération d'images. Ses fonctions sont très puissantes.

2023-06-20 commentaire 0 2942

Les 6 meilleurs grands modèles de langage en 2023

Présentation de l'article：C'est la saison de l'IA, et les entreprises technologiques produisent de grands modèles linguistiques comme le pain d'une boulangerie. Les nouveaux modèles sont publiés rapidement et il devient trop difficile de suivre. Mais au milieu de la vague de nouvelles versions, seuls quelques modèles sont disponibles.

2024-06-14 commentaire 0 897

Parlons de la méthode de fusion de modèles de grands modèles

Présentation de l'article：Dans les pratiques antérieures, la fusion de modèles a été largement utilisée, en particulier dans les modèles discriminants, où elle est considérée comme une méthode permettant d’améliorer régulièrement les performances. Cependant, pour les modèles de langage génératifs, leur fonctionnement n’est pas aussi simple que pour les modèles discriminants en raison du processus de décodage impliqué. De plus, en raison de l'augmentation du nombre de paramètres des grands modèles, dans des scénarios avec des échelles de paramètres plus grandes, les méthodes pouvant être envisagées avec un apprentissage d'ensemble simple sont plus limitées que l'apprentissage automatique à faibles paramètres, comme l'empilement classique, le boosting et d'autres méthodes, car les modèles d'empilement Le problème des paramètres ne peut pas être facilement étendu. Par conséquent, l’apprentissage d’ensemble pour les grands modèles nécessite un examen attentif. Ci-dessous, nous expliquons cinq méthodes d'intégration de base, à savoir l'intégration de modèles, l'intégration probabiliste, l'apprentissage par greffage, le vote participatif et le MOE.

2024-03-11 commentaire 0 461

Vulgarisation scientifique : Qu'est-ce qu'un grand modèle d'IA ?

Présentation de l'article：Les grands modèles d’IA font référence à des modèles d’intelligence artificielle entraînés à l’aide de données à grande échelle et d’une puissance de calcul puissante. Ces modèles ont généralement un haut degré de précision et de capacités de généralisation et peuvent être appliqués à divers domaines tels que le traitement du langage naturel, la reconnaissance d'images, la reconnaissance vocale, etc. La formation de grands modèles d'IA nécessite une grande quantité de données et de ressources informatiques, et il est généralement nécessaire d'utiliser un cadre informatique distribué pour accélérer le processus de formation. Le processus de formation de ces modèles est très complexe et nécessite une recherche approfondie et une optimisation de la distribution des données, de la sélection des fonctionnalités, de la structure du modèle, etc. Les grands modèles d'IA ont un large éventail d'applications et peuvent être utilisés dans divers scénarios, tels que le service client intelligent, les maisons intelligentes, la conduite autonome, etc. Dans ces applications, les grands modèles d’IA peuvent aider les utilisateurs à effectuer diverses tâches plus rapidement et plus précisément, et à améliorer l’efficacité du travail.

2023-06-29 commentaire 0 10259

Lancement du grand modèle 360 Intelligent Brain-Visual, Zhou Hongyi : l'AIoT renforcée par les grands modèles est une « vraie IA »

Présentation de l'article："L'AIoT d'origine n'est qu'une IA verticale, pas une IA générale. L'AIoT renforcée par de grands modèles est une 'véritable IA'." Zhou Hongyi a annoncé la sortie du "360 Intelligent Brain-Visual Large Model" et a déclaré que les grands modèles multimodaux et objets La combinaison de la mise en réseau est la prochaine tendance. La connexion des grands modèles au matériel intelligent permettra aux capacités des grands modèles de passer du monde numérique au monde physique. Le 31 mai, 360 a organisé une grande conférence de lancement de nouveaux produits de modèles visuels et de matériel d'IA. Zhou Hongyi, fondateur du groupe 360, a assisté à la conférence et a prononcé un discours : le grand modèle a ouvert une nouvelle ère de l'AIoT. Zhou Hongyi a déclaré que l'intelligence artificielle dans le passé était une intelligence artificielle faible et que le matériel intelligent construit sur cette base n'avait pas de véritable intelligence. Après l'émergence des grands modèles, les ordinateurs peuvent pour la première fois véritablement comprendre le monde et renforcer l'AIoT.

2023-06-03 commentaire 0 840