


Le géant de Turing est apparu à l'ICLR et est devenu fou des stars LeCun et Bengio au sommet ! Trois tendances technologiques majeures des équipes chinoises déclenchent une nouvelle imagination d'AGI
Ces derniers jours, la grande conférence d'AI - ICLR s'est tenue à Vienne.
OpenAI, Meta, Google, Zhipu AI et d'autres sociétés de technologie d'IA de premier plan se sont réunies.
Des célébrités se sont rassemblées sur place et les stars étaient éblouissantes. Si vous faites juste quelques pas, vous pouvez tomber sur une célébrité qui a publié un article subversif.
Sans surprise, la salle d'exposition ICLR 2024 est également devenue une scène de chasse aux stars. L'atmosphère animée a presque fait exploser le toit.
À la poursuite des géants de Turing sur place
LeCun, la célèbre "e-personne" parmi les trois géants de Turing, a généreusement annoncé son emploi du temps le .
Dans la zone des commentaires, non seulement les fans étaient impatients de s'enregistrer, mais certains étaient même prêts à soumettre leur CV sur place.
Le voyage des fans en valait vraiment la peine. Sur place, a expliqué LeCun avec éloquence, et le public enthousiaste a formé un cercle dense autour de lui.
Plus près de chez nous, tout au long de l'événement ICLR, l'équipe Meta partagera plus de 25 communications et deux ateliers. Cette fois, l’équipe LeCun a publié les deux articles suivants à l’ICLR.
Adresse papier : https://arxiv.org/abs/2305.19523
Adresse papier : https://arxiv.org/abs/2311.12983
Une autre petite image Le géant spirituel Yoshua Bengio a également montré sa grande popularité.
Le public a conclu : "Une personne doit vraiment être unique dans son domaine pour avoir une si longue file d'attente devant sa salle de conférence !"
LeCun et Hinton avaient tous les deux exprimé des opinions bien arrêtées à ce sujet ! , mais l'attitude de Bengio semble avoir été relativement vague. J'ai hâte de savoir ce qu'il pense d'AGI. Le 11 mai prochain, il prononcera un discours lors d'un atelier sur l'AGI.
Il est à noter que l'équipe Bengio a également reçu une mention honorable pour Outstanding Paper à l'ICLR de cette année.
Adresse papier : https://openreview.net/pdf?id=Ouj6p4ca60
A côté de Google Meta, Zhipu AI est également sur place, Google open source model Gema, Robot Intelligence Le cadre derrière le corps, les transformateurs robotiques et d'autres recherches révolutionnaires sont présentés.
À côté de Meta et Google, il y a une entreprise très accrocheuse au milieu du hall d'exposition - Zhipu AI.
Les chaussures pour enfants sur place présentent une série de résultats de recherche tels que GLM-4 et ChatGLM.
Cette série d'expositions a attiré l'attention de nombreux chercheurs étrangers.
Près de deux mille invités et universitaires présents sur place ont écouté attentivement la présentation de l'équipe technique grand modèle GLM.
L'introduction comprend un certain nombre de résultats de recherche de pointe sur la série GLM de grands modèles, couvrant des domaines tels que les mathématiques, les diagrammes vincentiens, la compréhension des images, la compréhension de l'interface utilisateur visuelle et l'intelligence des agents.
Sur place, tout le monde a eu une discussion animée sur son point de vue sur Scaling Law. L'équipe GLM a également des informations uniques à ce sujet -
"Par rapport à la taille du modèle ou au montant du calcul de la formation, l'émergence de l'intelligence et la perte avant la formation sont plus étroitement liées
Par exemple, le célèbre chercheur OpenAI 996, Jason." Wei, après avoir lu attentivement l'article de Zhipu AI sur la perte avant l'entraînement, il a été très impressionné.
Dans l'article, l'équipe a évalué ses performances sur 12 ensembles de données chinois et anglais en formant plus de 30 LLM avec différents paramètres et tailles de données.
Adresse papier : https://arxiv.org/abs/2403.15796
On observe que ce n'est que lorsque la perte pré-entraînement est inférieure à un certain seuil que le LLM aura une capacité émergente.
De plus, il est préférable de définir la « capacité émergente » du point de vue de la perte pré-entraînement plutôt que de se fier uniquement aux paramètres du modèle ou au volume d'entraînement.
Les performances de Zhipu AI ont également fait comprendre à de plus en plus d'internautes étrangers que-
Tanishq, le directeur de recherche de Stability AI qui a obtenu un doctorat à l'âge de 19 ans, a déclaré que CogVLM est le Le plus compétitif, le modèle de base open source qui a apporté des contributions significatives à l'écosystème open source vient de Chine.
Cet ancien PDG d'un studio de jeux a commencé à utiliser CogVLM et Stable Diffusion pour créer une version open source complète l'année dernière.
Oui, depuis la sortie de CogVLM, ses puissantes capacités ont fait s'exclamer les internautes étrangers.
Dans le classement LLM de janvier de cette année, quelqu'un a également découvert que -
À cette époque, Gemini et GPT-4V étaient loin devant n'importe quel LLM open source, à la seule exception étant CogVLM.
On peut voir qu'avec cette vague de modèles nationaux à grande échelle partant à l'étranger, Zhipu AI a tranquillement établi son énorme influence à l'étranger.
Discours spéciaux
En plus des merveilleuses démonstrations dans le hall d'exposition, l'ICLR de cette année a invité un total de sept conférenciers spéciaux pour partager leurs idées sur l'IA.
Il y a des chercheurs de Google DeepMind Raia Hadsell, professeur agrégé au Georgia Institute of Technology et scientifique en chef du FAIR Devi Parik, et le directeur Moritz Hardt de l'Institut Max Planck d'informatique (MPI-SWS) La seule équipe chinoise. est l'équipe technique GLM grand modèle de Zhipu AI.
Raia Hadsell
Le titre du discours de Raia Hadsell, scientifique de Google DeepMind, est : "Apprendre pendant les hauts et les bas du développement de l'intelligence artificielle : des vérités inattendues sur la route de l'AGI".
Après des décennies de développement constant et de revers occasionnels, l’IA se trouve à un point d’inflexion critique.
Les produits d'IA ont explosé sur le marché grand public et nous n'avons pas encore atteint le plafond de l'augmentation des dividendes, c'est pourquoi l'ensemble de la communauté explore la prochaine étape.
Dans ce discours, basé sur plus de 20 ans d'expérience dans le domaine de l'IA, Raia a expliqué comment nos hypothèses sur la voie de développement d'AGI ont changé au fil du temps.
Par la même occasion, elle a également révélé les découvertes inattendues que nous avons faites lors de cette exploration.
De l'apprentissage par renforcement à l'architecture distribuée en passant par les réseaux de neurones, ils jouent déjà un rôle potentiellement révolutionnaire dans le domaine scientifique.
Raia estime qu'en tirant les leçons des expériences et des leçons passées, des informations importantes peuvent être fournies pour l'orientation future de la recherche sur l'IA.
Devi Parikh
De l'autre côté, la scientifique en chef de FAIR, Devi Parik, a raconté à tout le monde l'histoire de sa vie.
Vous pouvez dire d'après le titre du discours que le contenu partagé par Parik est extraordinaire.
Lors de la conférence ICLR, en expliquant pourquoi l'environnement technique est ce qu'il est aujourd'hui, tout le monde se concentrera sur le développement d'Internet, du big data et de la puissance de calcul.
Cependant, peu de gens prêtent attention à ces petites mais importantes histoires personnelles.
En fait, l’histoire de chacun peut se rassembler pour devenir une force importante dans la promotion du progrès technologique.
De cette façon, nous pouvons apprendre les uns des autres et nous inspirer mutuellement. Cela nous rend plus tenaces et plus efficaces dans la poursuite de nos objectifs.
Moritz Hardt
Moritz Hardt, directeur du MPI-SWS allemand, a prononcé un discours sur les "Emerging Scientific Benchmarks".
De toute évidence, les tests de référence sont devenus le « pilier central » dans le domaine de l'apprentissage automatique.
Depuis les années 1980, bien que les humains aient réalisé de nombreux progrès dans le cadre de ce paradigme de recherche, leur compréhension profonde est encore limitée.
Dans cet exposé, Hardt explore les principes fondamentaux du benchmarking en tant que science émergente à travers une série d'études empiriques et d'analyses théoriques sélectionnées.
Il a spécifiquement discuté de l'impact des erreurs d'annotation sur la qualité des données, de la validation externe des classements des modèles et des perspectives d'analyse comparative multitâche.
Parallèlement, Hard a également présenté de nombreuses études de cas.
Celles-ci remettent en question nos idées reçues et soulignent également l'importance et les avantages de l'élaboration de repères scientifiques.
Équipe GLM
En Chine, l'équipe technique des grands modèles GLM de Zhipu AI a également prononcé un merveilleux discours sur "La route de ChatGLM vers l'AGI".
Il convient de mentionner que c'est également la « première fois » en Chine de présenter un discours d'ouverture sur les grands modèles lors d'une conférence internationale de haut niveau.
Ce discours présentera d'abord l'histoire du développement de l'IA au cours des dernières décennies d'un point de vue chinois.
En même temps, ils ont utilisé ChatGLM comme exemple pour expliquer leur compréhension et les idées acquises au cours du processus de pratique.
Aperçu AGI 2024 : GLM 4.5, GLM-OS, GLM-zéro
À l'ICLR, l'équipe des grands modèles GLM a présenté les trois principales tendances technologiques GLM pour l'AGI.
Où est le seul moyen d'accéder à l'AGI ?
L'industrie a des opinions différentes à ce sujet. Certaines personnes pensent qu'il s'agit d'un agent intelligent, d'autres pensent qu'il est multimodal, et d'autres encore disent que la loi de mise à l'échelle est une condition nécessaire mais pas suffisante pour l'AGI.
Mais LeCun insiste sur le fait que le LLM est une mauvaise voie vers l'AGI, et que le LLM ne peut pas amener l'AGI.
À cet égard, l'équipe a également mis en avant son propre point de vue unique.
Tout d'abord, ils ont parlé de la version améliorée ultérieure du GLM-4, à savoir le GLM-4.5 et son modèle amélioré.
La version améliorée ultérieure de GLM-4 sera basée sur les technologies SuperIntelligence et SuperAlignment, tout en réalisant de grands progrès dans le domaine de la multimodalité native et de la sécurité de l'IA.
L'équipe GLM grand modèle estime que le texte est le fondement le plus critique sur la route vers l'AGI.
La prochaine étape consiste à mélanger du texte, des images, de la vidéo, de l'audio et d'autres modalités pour que la formation devienne un véritable "modèle multimodal natif".
Parallèlement, afin de résoudre des problèmes plus complexes, ils ont également introduit le concept de GLM-OS, un système informatique généraliste centré sur les grands modèles.
Cette vision coïncide avec la vision des systèmes d'exploitation à grand modèle précédemment proposée par Karpathy.
Sur le site ICLR, l'équipe des grands modèles GLM a présenté en détail la mise en œuvre de GLM-OS :
Basé sur les capacités All-Tools existantes, plus la mémoire et l'auto-feedback (auto-feedback) réflexion), GLM-OS devrait imiter avec succès le mécanisme PDCA humain, c'est-à-dire le cycle Planifier-Faire-Vérifier-Agir.
Plus précisément, élaborez d'abord un plan, puis essayez-le pour former des commentaires, ajustez le plan, puis agissez afin d'obtenir de meilleurs résultats.
En s'appuyant sur le mécanisme du cycle PDCA, LLM peut s'auto-évaluer et évoluer de manière indépendante, tout comme le font les humains.
De plus, l'équipe du grand modèle GLM a également révélé que depuis 2019, l'équipe étudie une technologie appelée GLM-zéro, visant à étudier les mécanismes d'apprentissage « inconscients » humains.
"Lorsque les gens dorment, le cerveau continue d'apprendre inconsciemment."
L'équipe du grand modèle GLM a déclaré que le mécanisme d'apprentissage "inconscient" est une partie importante des capacités cognitives humaines, y compris l'auto-apprentissage et l'auto-apprentissage. -apprentissage et auto-apprentissage. Réflexion et autocritique.
Il existe deux systèmes dans le cerveau humain, le « feedback » et la « prise de décision », qui correspondent respectivement au grand modèle LLM et à la mémoire.
Par conséquent, la recherche liée au GLM-zéro élargira davantage la compréhension humaine de la conscience, des connaissances et du comportement d'apprentissage.
Bien qu'il en soit encore à un stade de recherche très précoce, le GLM-zéro peut être considéré comme le seul moyen d'atteindre l'AGI.
C'est également la première fois que l'équipe grand modèle GLM divulgue cette tendance technologique au monde extérieur.
Meilleure équipe technique nationale
Fin 2020, l'équipe technique grand modèle GLM a développé l'architecture de pré-formation GLM.
En 2021, le modèle de paramètres de dizaines de milliards GLM-10B a été formé. La même année, le modèle clairsemé de milliards convergés a été formé avec succès à l'aide de l'architecture MoE.
En 2022, nous avons également collaboré pour développer le modèle de pré-entraînement à très grande échelle bilingue chinois-anglais de 100 milliards de niveaux GLM-130B et l'ouvrir en source libre.
Au cours de la dernière année, l'équipe a réalisé une mise à niveau du grand modèle de base presque tous les 3-4 mois, et il a maintenant été mis à jour vers la version GLM-4.
De plus, en tant que première société nationale de LLM à entrer sur le marché, Zhipu AI s'est fixé un objectif ambitieux en 2023 : comparer OpenAI à tous les niveaux.
L'équipe technique grand modèle de GLM a construit une matrice complète de produits grand modèle basée sur la vision AGI.
En plus de la série GLM, il existe également des modèles graphiques CogView, des modèles de code CodeGeeX, des modèles de compréhension multimodaux CogVLM, puis des grands modèles multimodaux GLM-4V et des fonctions All-Tools ainsi que l'assistant IA Zhipu. Qingyan.
Parallèlement, les chercheurs de l'équipe technologique des grands modèles du GLM ont une très grande influence dans l'industrie.
Par exemple, Li Feifei, très populaire dans le cercle, enseigne le cours CS25 à l'Université de Stanford. À chaque fois, il invite des experts à la pointe de la recherche sur Transformer pour partager ses dernières avancées.
Il a été confirmé que parmi les invités du cours CS25, il y a des chercheurs de Zhipu AI. Le modèle de langage visuel open source CogVLM développé par l'équipe a attiré l'attention de l'industrie depuis sa sortie.
Un article publié par Stability AI en mars a montré que CogVLM était directement utilisé par Stable Diffufion 3 pour l'annotation d'images en raison de ses excellentes performances.
Adresse papier : https://arxiv.org/abs/2403.03206
CogAgent
Sur cette base, l'open source amélioré basé sur CogV Modèle de langage visuel LM CogAgent , visant principalement à comprendre l'interface graphique utilisateur.
Les articles connexes de CogAgent ont été inclus dans CVPR 2024, la conférence académique de plus haut niveau dans le domaine international de la vision par ordinateur.
Il faut savoir que le CVPR est connu pour ses admissions strictes, le taux d'acceptation des thèses cette année n'est que d'environ 2,8%. " Méthode de formation itérative « Auto-Critique ».
Grâce au mécanisme d'auto-évaluation, il aide LLM à améliorer les capacités linguistiques et mathématiques.
Adresse papier : https://arxiv.org/abs/2404.02893
Cette méthode contient deux étapes clés :
Entraînez d'abord un générateur pour générer un modèle "Math-Critique" à évaluer le modèle pour générer des réponses aux questions mathématiques et fournir des signaux de rétroaction.
Deuxièmement, grâce à l'ajustement fin de l'échantillonnage de rejet et au DPO, le nouveau modèle est utilisé pour superviser la génération elle-même du LLM.
L'équipe du grand modèle GLM a également conçu l'ensemble de tests de référence MATHUSEREVAL pour évaluer les capacités mathématiques du nouveau modèle :
Il est évident que le. La nouvelle méthode améliore considérablement les compétences mathématiques en résolution de problèmes LLM tout en améliorant leurs compétences linguistiques. Surtout, il surpasse les modèles plus grands avec deux fois plus de paramètres dans certains cas.
GLM-4 se classe parmi les premiers au monde
Dans le test de référence OpenCompass 2.0, la force du modèle de base de nouvelle génération de Zhipu AI ne peut être sous-estimée.
Au classement général, GLM-4 se classe troisième et premier dans le pays.
Dans le "SuperBench Large Model Comprehensive Capability Evaluation Report" publié il n'y a pas si longtemps par l'équipe SuperBench, GLM-4 s'est également classé parmi les premiers au monde.
Particulièrement dans les domaines de compréhension sémantique et de capacités d'agent les plus critiques, GLM-4 se classe premier dans le pays, écrasant tous les concurrents.
Dans la première année des grands mannequins qui vient de s'écouler, la vive guerre des mannequins dure depuis un an.
Si 2024 veut être la première année de l’AGI, les grandes équipes modèles mondiales ont encore un long chemin à parcourir.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











DMA IN C fait référence à DirectMemoryAccess, une technologie d'accès à la mémoire directe, permettant aux périphériques matériels de transmettre directement les données à la mémoire sans intervention CPU. 1) L'opération DMA dépend fortement des dispositifs matériels et des pilotes, et la méthode d'implémentation varie d'un système à l'autre. 2) L'accès direct à la mémoire peut apporter des risques de sécurité et l'exactitude et la sécurité du code doivent être assurées. 3) Le DMA peut améliorer les performances, mais une mauvaise utilisation peut entraîner une dégradation des performances du système. Grâce à la pratique et à l'apprentissage, nous pouvons maîtriser les compétences de l'utilisation du DMA et maximiser son efficacité dans des scénarios tels que la transmission de données à grande vitesse et le traitement du signal en temps réel.

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron

Les outils de quantification intégrés de l'échange comprennent: 1. Binance: fournit un module quantitatif à terme Binance Futures, des frais de manutention faible et prend en charge les transactions assistées par l'IA. 2. OKX (OUYI): prend en charge la gestion multi-comptes et le routage des ordres intelligents, et fournit un contrôle des risques au niveau institutionnel. Les plates-formes de stratégie quantitative indépendantes comprennent: 3. 3Commas: générateur de stratégie de glisser-déposer, adapté à l'arbitrage de la couverture multiplateforme. 4. Quadancy: Bibliothèque de stratégie d'algorithme de niveau professionnel, soutenant les seuils de risque personnalisés. 5. Pionex: stratégie prédéfinie intégrée, frais de transaction bas. Les outils de domaine vertical incluent: 6. CryptoPper: plate-forme quantitative basée sur le cloud, prenant en charge 150 indicateurs techniques. 7. Bitsgap:

La gestion de l'affichage DPI élevé en C peut être réalisée via les étapes suivantes: 1) Comprendre le DPI et la mise à l'échelle, utiliser l'API du système d'exploitation pour obtenir des informations DPI et ajuster la sortie graphique; 2) Gérer la compatibilité multiplateforme, utilisez des bibliothèques graphiques multiplateformes telles que SDL ou QT; 3) Effectuer une optimisation des performances, améliorer les performances par le cache, l'accélération matérielle et le réglage dynamique du niveau de détails; 4) Résoudre des problèmes communs, tels que le texte flou et les éléments d'interface, sont trop petits et résolvent en appliquant correctement la mise à l'échelle DPI.

C fonctionne bien dans la programmation du système d'exploitation en temps réel (RTOS), offrant une efficacité d'exécution efficace et une gestion du temps précise. 1) C répond aux besoins des RTO grâce à un fonctionnement direct des ressources matérielles et à une gestion efficace de la mémoire. 2) En utilisant des fonctionnalités orientées objet, C peut concevoir un système de planification de tâches flexible. 3) C prend en charge un traitement efficace d'interruption, mais l'allocation de mémoire dynamique et le traitement des exceptions doivent être évités pour assurer le temps réel. 4) La programmation des modèles et les fonctions en ligne aident à l'optimisation des performances. 5) Dans les applications pratiques, C peut être utilisé pour implémenter un système de journalisation efficace.

La mesure des performances du thread en C peut utiliser les outils de synchronisation, les outils d'analyse des performances et les minuteries personnalisées dans la bibliothèque standard. 1. Utilisez la bibliothèque pour mesurer le temps d'exécution. 2. Utilisez le GPROF pour l'analyse des performances. Les étapes incluent l'ajout de l'option -pg pendant la compilation, l'exécution du programme pour générer un fichier gmon.out et la génération d'un rapport de performances. 3. Utilisez le module Callgrind de Valgrind pour effectuer une analyse plus détaillée. Les étapes incluent l'exécution du programme pour générer le fichier callgrind.out et la visualisation des résultats à l'aide de Kcachegrind. 4. Les minuteries personnalisées peuvent mesurer de manière flexible le temps d'exécution d'un segment de code spécifique. Ces méthodes aident à bien comprendre les performances du thread et à optimiser le code.

Méthodes efficaces pour les données d'insertion par lots dans MySQL Incluent: 1. Utilisation d'inserto ... Syntaxe des valeurs, 2. Utilisation de la commande chargedatainfile, 3. Utilisation du traitement des transactions, 4. Ajuster la taille du lot, 5. Désactiver l'indexation, 6. Utilisation de l'insertion ou de l'insert ... onduplicatekeyupdate, ces méthodes peuvent améliorer considérablement l'efficacité du fonctionnement de la base de données.

Les étapes principales et les précautions pour l'utilisation de flux de chaîne en C sont les suivantes: 1. Créez un flux de chaîne de sortie et convertissez des données, telles que la conversion des entiers en chaînes. 2. Appliquer à la sérialisation des structures de données complexes, telles que la conversion du vecteur en chaînes. 3. Faites attention aux problèmes de performances et évitez l'utilisation fréquente des flux de chaînes lors du traitement de grandes quantités de données. Vous pouvez envisager d'utiliser la méthode d'ajout de Std :: String. 4. Faites attention à la gestion de la mémoire et évitez la création et la destruction fréquentes des objets de flux de chaîne. Vous pouvez réutiliser ou utiliser Std :: Stringstream.
