Ces derniers jours, la grande conférence d'AI - ICLR s'est tenue à Vienne.
OpenAI, Meta, Google, Zhipu AI et d'autres sociétés de technologie d'IA de premier plan se sont réunies.
Des célébrités se sont rassemblées sur place et les stars étaient éblouissantes. Si vous faites juste quelques pas, vous pouvez tomber sur une célébrité qui a publié un article subversif.
Sans surprise, la salle d'exposition ICLR 2024 est également devenue une scène de chasse aux stars. L'atmosphère animée a presque fait exploser le toit.
À la poursuite des géants de Turing sur place
LeCun, la célèbre "e-personne" parmi les trois géants de Turing, a généreusement annoncé son emploi du temps le .
Dans la zone des commentaires, non seulement les fans étaient impatients de s'enregistrer, mais certains étaient même prêts à soumettre leur CV sur place.
Le voyage des fans en valait vraiment la peine. Sur place, a expliqué LeCun avec éloquence, et le public enthousiaste a formé un cercle dense autour de lui.
Plus près de chez nous, tout au long de l'événement ICLR, l'équipe Meta partagera plus de 25 communications et deux ateliers. Cette fois, l’équipe LeCun a publié les deux articles suivants à l’ICLR.
Adresse papier : https://arxiv.org/abs/2305.19523
Adresse papier : https://arxiv.org/abs/2311.12983
Une autre petite image Le géant spirituel Yoshua Bengio a également montré sa grande popularité.
Le public a conclu : "Une personne doit vraiment être unique dans son domaine pour avoir une si longue file d'attente devant sa salle de conférence !"
LeCun et Hinton avaient tous les deux exprimé des opinions bien arrêtées à ce sujet ! , mais l'attitude de Bengio semble avoir été relativement vague. J'ai hâte de savoir ce qu'il pense d'AGI. Le 11 mai prochain, il prononcera un discours lors d'un atelier sur l'AGI.
Il est à noter que l'équipe Bengio a également reçu une mention honorable pour Outstanding Paper à l'ICLR de cette année.
Adresse papier : https://openreview.net/pdf?id=Ouj6p4ca60
À côté de Meta et Google, il y a une entreprise très accrocheuse au milieu du hall d'exposition - Zhipu AI.
Les chaussures pour enfants sur place présentent une série de résultats de recherche tels que GLM-4 et ChatGLM.
Cette série d'expositions a attiré l'attention de nombreux chercheurs étrangers.
Près de deux mille invités et universitaires présents sur place ont écouté attentivement la présentation de l'équipe technique grand modèle GLM.
L'introduction comprend un certain nombre de résultats de recherche de pointe sur la série GLM de grands modèles, couvrant des domaines tels que les mathématiques, les diagrammes vincentiens, la compréhension des images, la compréhension de l'interface utilisateur visuelle et l'intelligence des agents.
Sur place, tout le monde a eu une discussion animée sur son point de vue sur Scaling Law. L'équipe GLM a également des informations uniques à ce sujet -
"Par rapport à la taille du modèle ou au montant du calcul de la formation, l'émergence de l'intelligence et la perte avant la formation sont plus étroitement liées
Par exemple, le célèbre chercheur OpenAI 996, Jason." Wei, après avoir lu attentivement l'article de Zhipu AI sur la perte avant l'entraînement, il a été très impressionné.
Dans l'article, l'équipe a évalué ses performances sur 12 ensembles de données chinois et anglais en formant plus de 30 LLM avec différents paramètres et tailles de données.
Adresse papier : https://arxiv.org/abs/2403.15796
On observe que ce n'est que lorsque la perte pré-entraînement est inférieure à un certain seuil que le LLM aura une capacité émergente.
De plus, il est préférable de définir la « capacité émergente » du point de vue de la perte pré-entraînement plutôt que de se fier uniquement aux paramètres du modèle ou au volume d'entraînement.
Les performances de Zhipu AI ont également fait comprendre à de plus en plus d'internautes étrangers que-
Tanishq, le directeur de recherche de Stability AI qui a obtenu un doctorat à l'âge de 19 ans, a déclaré que CogVLM est le Le plus compétitif, le modèle de base open source qui a apporté des contributions significatives à l'écosystème open source vient de Chine.
Cet ancien PDG d'un studio de jeux a commencé à utiliser CogVLM et Stable Diffusion pour créer une version open source complète l'année dernière.
Oui, depuis la sortie de CogVLM, ses puissantes capacités ont fait s'exclamer les internautes étrangers.
Dans le classement LLM de janvier de cette année, quelqu'un a également découvert que -
À cette époque, Gemini et GPT-4V étaient loin devant n'importe quel LLM open source, à la seule exception étant CogVLM.
On peut voir qu'avec cette vague de modèles nationaux à grande échelle partant à l'étranger, Zhipu AI a tranquillement établi son énorme influence à l'étranger.
En plus des merveilleuses démonstrations dans le hall d'exposition, l'ICLR de cette année a invité un total de sept conférenciers spéciaux pour partager leurs idées sur l'IA.
Il y a des chercheurs de Google DeepMind Raia Hadsell, professeur agrégé au Georgia Institute of Technology et scientifique en chef du FAIR Devi Parik, et le directeur Moritz Hardt de l'Institut Max Planck d'informatique (MPI-SWS) La seule équipe chinoise. est l'équipe technique GLM grand modèle de Zhipu AI.
Le titre du discours de Raia Hadsell, scientifique de Google DeepMind, est : "Apprendre pendant les hauts et les bas du développement de l'intelligence artificielle : des vérités inattendues sur la route de l'AGI".
Après des décennies de développement constant et de revers occasionnels, l’IA se trouve à un point d’inflexion critique.
Les produits d'IA ont explosé sur le marché grand public et nous n'avons pas encore atteint le plafond de l'augmentation des dividendes, c'est pourquoi l'ensemble de la communauté explore la prochaine étape.
Dans ce discours, basé sur plus de 20 ans d'expérience dans le domaine de l'IA, Raia a expliqué comment nos hypothèses sur la voie de développement d'AGI ont changé au fil du temps.
Par la même occasion, elle a également révélé les découvertes inattendues que nous avons faites lors de cette exploration.
De l'apprentissage par renforcement à l'architecture distribuée en passant par les réseaux de neurones, ils jouent déjà un rôle potentiellement révolutionnaire dans le domaine scientifique.
Raia estime qu'en tirant les leçons des expériences et des leçons passées, des informations importantes peuvent être fournies pour l'orientation future de la recherche sur l'IA.
De l'autre côté, la scientifique en chef de FAIR, Devi Parik, a raconté à tout le monde l'histoire de sa vie.
Vous pouvez dire d'après le titre du discours que le contenu partagé par Parik est extraordinaire.
Lors de la conférence ICLR, en expliquant pourquoi l'environnement technique est ce qu'il est aujourd'hui, tout le monde se concentrera sur le développement d'Internet, du big data et de la puissance de calcul.
Cependant, peu de gens prêtent attention à ces petites mais importantes histoires personnelles.
En fait, l’histoire de chacun peut se rassembler pour devenir une force importante dans la promotion du progrès technologique.
De cette façon, nous pouvons apprendre les uns des autres et nous inspirer mutuellement. Cela nous rend plus tenaces et plus efficaces dans la poursuite de nos objectifs.
Moritz Hardt, directeur du MPI-SWS allemand, a prononcé un discours sur les "Emerging Scientific Benchmarks".
De toute évidence, les tests de référence sont devenus le « pilier central » dans le domaine de l'apprentissage automatique.
Depuis les années 1980, bien que les humains aient réalisé de nombreux progrès dans le cadre de ce paradigme de recherche, leur compréhension profonde est encore limitée.
Dans cet exposé, Hardt explore les principes fondamentaux du benchmarking en tant que science émergente à travers une série d'études empiriques et d'analyses théoriques sélectionnées.
Il a spécifiquement discuté de l'impact des erreurs d'annotation sur la qualité des données, de la validation externe des classements des modèles et des perspectives d'analyse comparative multitâche.
Parallèlement, Hard a également présenté de nombreuses études de cas.
Celles-ci remettent en question nos idées reçues et soulignent également l'importance et les avantages de l'élaboration de repères scientifiques.
En Chine, l'équipe technique des grands modèles GLM de Zhipu AI a également prononcé un merveilleux discours sur "La route de ChatGLM vers l'AGI".
Il convient de mentionner que c'est également la « première fois » en Chine de présenter un discours d'ouverture sur les grands modèles lors d'une conférence internationale de haut niveau.
Ce discours présentera d'abord l'histoire du développement de l'IA au cours des dernières décennies d'un point de vue chinois.
En même temps, ils ont utilisé ChatGLM comme exemple pour expliquer leur compréhension et les idées acquises au cours du processus de pratique.
Aperçu AGI 2024 : GLM 4.5, GLM-OS, GLM-zéro
À l'ICLR, l'équipe des grands modèles GLM a présenté les trois principales tendances technologiques GLM pour l'AGI.
Où est le seul moyen d'accéder à l'AGI ?
L'industrie a des opinions différentes à ce sujet. Certaines personnes pensent qu'il s'agit d'un agent intelligent, d'autres pensent qu'il est multimodal, et d'autres encore disent que la loi de mise à l'échelle est une condition nécessaire mais pas suffisante pour l'AGI.
Mais LeCun insiste sur le fait que le LLM est une mauvaise voie vers l'AGI, et que le LLM ne peut pas amener l'AGI.
À cet égard, l'équipe a également mis en avant son propre point de vue unique.
Tout d'abord, ils ont parlé de la version améliorée ultérieure du GLM-4, à savoir le GLM-4.5 et son modèle amélioré.
La version améliorée ultérieure de GLM-4 sera basée sur les technologies SuperIntelligence et SuperAlignment, tout en réalisant de grands progrès dans le domaine de la multimodalité native et de la sécurité de l'IA.
L'équipe GLM grand modèle estime que le texte est le fondement le plus critique sur la route vers l'AGI.
La prochaine étape consiste à mélanger du texte, des images, de la vidéo, de l'audio et d'autres modalités pour que la formation devienne un véritable "modèle multimodal natif".
Parallèlement, afin de résoudre des problèmes plus complexes, ils ont également introduit le concept de GLM-OS, un système informatique généraliste centré sur les grands modèles.
Cette vision coïncide avec la vision des systèmes d'exploitation à grand modèle précédemment proposée par Karpathy.
Sur le site ICLR, l'équipe des grands modèles GLM a présenté en détail la mise en œuvre de GLM-OS :
Basé sur les capacités All-Tools existantes, plus la mémoire et l'auto-feedback (auto-feedback) réflexion), GLM-OS devrait imiter avec succès le mécanisme PDCA humain, c'est-à-dire le cycle Planifier-Faire-Vérifier-Agir.
Plus précisément, élaborez d'abord un plan, puis essayez-le pour former des commentaires, ajustez le plan, puis agissez afin d'obtenir de meilleurs résultats.
En s'appuyant sur le mécanisme du cycle PDCA, LLM peut s'auto-évaluer et évoluer de manière indépendante, tout comme le font les humains.
De plus, l'équipe du grand modèle GLM a également révélé que depuis 2019, l'équipe étudie une technologie appelée GLM-zéro, visant à étudier les mécanismes d'apprentissage « inconscients » humains.
"Lorsque les gens dorment, le cerveau continue d'apprendre inconsciemment."
L'équipe du grand modèle GLM a déclaré que le mécanisme d'apprentissage "inconscient" est une partie importante des capacités cognitives humaines, y compris l'auto-apprentissage et l'auto-apprentissage. -apprentissage et auto-apprentissage. Réflexion et autocritique.
Il existe deux systèmes dans le cerveau humain, le « feedback » et la « prise de décision », qui correspondent respectivement au grand modèle LLM et à la mémoire.
Par conséquent, la recherche liée au GLM-zéro élargira davantage la compréhension humaine de la conscience, des connaissances et du comportement d'apprentissage.
Bien qu'il en soit encore à un stade de recherche très précoce, le GLM-zéro peut être considéré comme le seul moyen d'atteindre l'AGI.
C'est également la première fois que l'équipe grand modèle GLM divulgue cette tendance technologique au monde extérieur.
Fin 2020, l'équipe technique grand modèle GLM a développé l'architecture de pré-formation GLM.
En 2021, le modèle de paramètres de dizaines de milliards GLM-10B a été formé. La même année, le modèle clairsemé de milliards convergés a été formé avec succès à l'aide de l'architecture MoE.
En 2022, nous avons également collaboré pour développer le modèle de pré-entraînement à très grande échelle bilingue chinois-anglais de 100 milliards de niveaux GLM-130B et l'ouvrir en source libre.
Au cours de la dernière année, l'équipe a réalisé une mise à niveau du grand modèle de base presque tous les 3-4 mois, et il a maintenant été mis à jour vers la version GLM-4.
De plus, en tant que première société nationale de LLM à entrer sur le marché, Zhipu AI s'est fixé un objectif ambitieux en 2023 : comparer OpenAI à tous les niveaux.
L'équipe technique grand modèle de GLM a construit une matrice complète de produits grand modèle basée sur la vision AGI.
En plus de la série GLM, il existe également des modèles graphiques CogView, des modèles de code CodeGeeX, des modèles de compréhension multimodaux CogVLM, puis des grands modèles multimodaux GLM-4V et des fonctions All-Tools ainsi que l'assistant IA Zhipu. Qingyan.
Parallèlement, les chercheurs de l'équipe technologique des grands modèles du GLM ont une très grande influence dans l'industrie.
Par exemple, Li Feifei, très populaire dans le cercle, enseigne le cours CS25 à l'Université de Stanford. À chaque fois, il invite des experts à la pointe de la recherche sur Transformer pour partager ses dernières avancées.
Il a été confirmé que parmi les invités du cours CS25, il y a des chercheurs de Zhipu AI. Le modèle de langage visuel open source CogVLM développé par l'équipe a attiré l'attention de l'industrie depuis sa sortie.
Un article publié par Stability AI en mars a montré que CogVLM était directement utilisé par Stable Diffufion 3 pour l'annotation d'images en raison de ses excellentes performances.
Adresse papier : https://arxiv.org/abs/2403.03206
CogAgent
Sur cette base, l'open source amélioré basé sur CogV Modèle de langage visuel LM CogAgent , visant principalement à comprendre l'interface graphique utilisateur.
Les articles connexes de CogAgent ont été inclus dans CVPR 2024, la conférence académique de plus haut niveau dans le domaine international de la vision par ordinateur.
Il faut savoir que le CVPR est connu pour ses admissions strictes, le taux d'acceptation des thèses cette année n'est que d'environ 2,8%. " Méthode de formation itérative « Auto-Critique ».
Grâce au mécanisme d'auto-évaluation, il aide LLM à améliorer les capacités linguistiques et mathématiques.
Adresse papier : https://arxiv.org/abs/2404.02893
Cette méthode contient deux étapes clés :
Entraînez d'abord un générateur pour générer un modèle "Math-Critique" à évaluer le modèle pour générer des réponses aux questions mathématiques et fournir des signaux de rétroaction.
Deuxièmement, grâce à l'ajustement fin de l'échantillonnage de rejet et au DPO, le nouveau modèle est utilisé pour superviser la génération elle-même du LLM.
L'équipe du grand modèle GLM a également conçu l'ensemble de tests de référence MATHUSEREVAL pour évaluer les capacités mathématiques du nouveau modèle :
Il est évident que le. La nouvelle méthode améliore considérablement les compétences mathématiques en résolution de problèmes LLM tout en améliorant leurs compétences linguistiques. Surtout, il surpasse les modèles plus grands avec deux fois plus de paramètres dans certains cas.
Dans le test de référence OpenCompass 2.0, la force du modèle de base de nouvelle génération de Zhipu AI ne peut être sous-estimée.
Au classement général, GLM-4 se classe troisième et premier dans le pays.
Dans le "SuperBench Large Model Comprehensive Capability Evaluation Report" publié il n'y a pas si longtemps par l'équipe SuperBench, GLM-4 s'est également classé parmi les premiers au monde.
Particulièrement dans les domaines de compréhension sémantique et de capacités d'agent les plus critiques, GLM-4 se classe premier dans le pays, écrasant tous les concurrents.
Dans la première année des grands mannequins qui vient de s'écouler, la vive guerre des mannequins dure depuis un an.
Si 2024 veut être la première année de l’AGI, les grandes équipes modèles mondiales ont encore un long chemin à parcourir.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!