Le premier au monde ! En examinant près de 400 documents, le laboratoire Pengcheng et le CUHK analysent en profondeur l'intelligence incarnée-IA-php.cn

Maison

Le premier au monde ! En examinant près de 400 documents, le laboratoire Pengcheng et le CUHK analysent en profondeur l'intelligence incarnée

王林

Jul 26, 2024 pm 04:07 PM

理论具身智能 Laboratoire Pengcheng

Le premier au monde ! En examinant près de 400 documents, le laboratoire Pengcheng et le CUHK analysent en profondeur lintelligence incarnée

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'intelligence incorporée est le seul moyen d'atteindre l'intelligence artificielle générale. Elle repose essentiellement sur l'interaction d'agents intelligents avec l'espace numérique et le monde physique. Effectuez des tâches complexes. Ces dernières années, les grands modèles multimodaux et la technologie robotique ont fait de grands progrès, et l’intelligence incorporée est devenue un nouveau centre de concurrence technologique et industrielle mondiale. Cependant, il manque actuellement une étude capable d’analyser de manière exhaustive l’état actuel du développement de l’intelligence incorporée. Par conséquent, l’Institut d’intelligence multi-agents et d’intelligence incorporée du Laboratoire de Pengcheng, en collaboration avec des chercheurs du Laboratoire HCP de l’Université Sun Yat-sen, a mené une analyse complète des derniers progrès en matière d’intelligence incorporée et a lancé une ère mondiale de grands modèles multimodaux. La première revue de l’intelligence incarnée.

Cette revue a examiné près de 400 documents et mené une analyse complète de la recherche sur l'intelligence incarnée sous de multiples dimensions. Cette revue présente d'abord quelques
robots incarnés et plates-formes de simulation incarnées

représentatifs, et fournit une analyse approfondie de leurs objectifs de recherche et de leurs limites. Ensuite, quatre contenus de recherche principaux sont analysés en profondeur : 1)

Perception incarnée, 2) Interaction incarnée, 3) Intelligence incarnée et 4) Transfert du virtuel à la réalité, ces contenus de recherche couvrent l'état de l'art. méthodes artistiques, paradigmes de base et ensembles de données complets. En outre, cette revue explore les défis auxquels sont confrontés les agents incarnés dans les espaces numériques et les mondes physiques, en soulignant leur importance pour l'interaction active dans des environnements numériques et physiques dynamiques. Enfin, la revue résume les défis et les limites de l’intelligence incarnée et discute de ses orientations futures potentielles. Cette revue espère fournir une référence de base pour la recherche sur l’intelligence incorporée et promouvoir l’innovation technologique connexe. En outre, cette revue a également publié une liste d'articles sur l'intelligence incorporée sur Github. Les articles et référentiels de codes associés seront continuellement mis à jour, alors soyez attentif.

Adresse du papier T : https://arxiv.org/pdf/2407.06886

1. Le passé et le présent de l'intelligence incarnée

Le concept d'intelligence incarnée a été proposé pour la première fois par Alan Turing dans le test de Turing incarné. créé en 1950 pour déterminer si un agent intelligent peut montrer plus qu'une simple intelligence qui résout des problèmes abstraits dans un environnement virtuel (espace numérique) (les agents intelligents sont la base de l'intelligence incarnée, existent dans l'espace numérique et le monde physique et sont incarnés dans sous la forme de diverses entités, comprenant non seulement des robots mais aussi d'autres appareils ), peuvent également faire face à la complexité et à l'imprévisibilité du monde physique. Par conséquent, le développement de l’intelligence incorporée est considéré comme un moyen fondamental de parvenir à une intelligence artificielle générale. Il est particulièrement important d’approfondir la complexité de l’intelligence incarnée, d’évaluer son état de développement actuel et d’envisager sa trajectoire future. Aujourd'hui, l'intelligence incarnée couvre plusieurs technologies clés telles que la vision par ordinateur, le traitement du langage naturel et la robotique. Les plus représentatives sont la

perception incarnée, l'interaction incarnée, l'intelligence incarnée et la migration du virtuel vers la réalité. Dans les tâches incarnées, les agents incarnés doivent pleinement comprendre les intentions humaines dans les instructions linguistiques, explorer de manière proactive l'environnement environnant, percevoir de manière globale les éléments multimodaux des environnements virtuels et physiques et effectuer les opérations appropriées pour accomplir des tâches complexes. Les progrès rapides des modèles multimodaux démontrent une plus grande diversité, flexibilité et capacités de généralisation que les méthodes traditionnelles d'apprentissage par renforcement profond dans des environnements complexes. Les représentations visuelles pré-entraînées par des encodeurs visuels de pointe fournissent des estimations précises des catégories d'objets, des poses et des géométries, permettant aux modèles incarnés de percevoir de manière globale des environnements complexes et dynamiques. De puissants modèles de langage de grande taille permettent aux robots de mieux comprendre les instructions du langage humain et constituent un moyen réalisable d'aligner les représentations visuelles et linguistiques des robots incarnés. Les modèles mondiaux démontrent des capacités de simulation significatives et une bonne compréhension des lois physiques, permettant aux modèles incorporés de comprendre pleinement la physique et les environnements réels. Ces avancées permettent à l’intelligence incarnée de percevoir de manière globale des environnements complexes, d’interagir naturellement avec les humains et d’effectuer des tâches de manière fiable. La figure ci-dessous montre l'architecture typique d'un agent incarné.

Robots incarnés

—— outil Solution matérielle pour les robots incarnés l'intelligence dans le monde physique ; (2)
Plateforme de simulation incarnée

- un espace numérique pour entraîner l'intelligence incarnée de manière efficace et sûre (3)

Perception incarnée - Percevoir et synthétiser activement l'espace 3D Plusieurs modalités sensorielles ; - Interagir avec l'environnement de manière efficace et raisonnable et même modifier l'environnement pour accomplir des tâches spécifiées ; (5)

Intelligence incorporée

- Utiliser de grands modèles multimodaux pour comprendre les instructions d'abstraction et les diviser en une série de sous-tâches, puis les exécuter étape par étape. par étape ; (6) Le premier au monde ! En examinant près de 400 documents, le laboratoire Pengcheng et le CUHK analysent en profondeur lintelligence incarnée Transfert du virtuel à la réalité

- Transférer et généraliser les compétences acquises dans l'espace numérique au monde physique. La figure ci-dessous montre le cadre système de l'intelligence incarnée, de l'espace numérique au monde physique. Cette revue vise à fournir une connaissance de base complète, les tendances de la recherche et des informations techniques sur l'intelligence incorporée.

^{L'ensemble architecture de cette revue}

2. Robot incarné

forme physique, y compris les robots, les appareils électroménagers intelligents, les lunettes intelligentes et les véhicules autonomes, entre autres. Parmi eux, les robots, en tant qu’une des formes incarnées les plus importantes, ont attiré beaucoup d’attention. Selon différents scénarios d'application, les robots sont conçus sous diverses formes pour exploiter pleinement leurs fonctionnalités matérielles afin d'accomplir des tâches spécifiques. Comme le montre la figure ci-dessous, les robots incorporés peuvent généralement être divisés en : (1) robots à base fixe, tels que les bras robotiques, qui sont souvent utilisés dans la synthèse d'automatisation de laboratoire, l'éducation, l'industrie et d'autres domaines, (2) robots à roues, qui ; sont très efficaces Célèbres pour leur mobilité, ils sont largement utilisés dans les inspections de logistique, d'entreposage et de sécurité (3) Les robots sur chenilles, dotés de fortes capacités et de mobilité tout-terrain, ont montré leur potentiel dans l'agriculture, la construction et la réponse aux catastrophes (4) ; Quadrupèdes Le robot, connu pour sa stabilité et son adaptabilité, est idéal pour la détection en terrain complexe, les missions de sauvetage et les applications militaires. (5) Les robots humanoïdes, dont la clé est leurs mains adroites, sont largement utilisés dans le secteur des services, les soins de santé et les environnements collaboratifs. (6) Les robots bioniques effectuent des tâches dans des environnements complexes et dynamiques en simulant les mouvements et les fonctions efficaces des organismes naturels.

^{Différentes formes de robots incarnés}

3. Plateforme de simulation d'intelligence incorporée

Les plateformes de simulation d'intelligence incorporée sont cruciales pour l'intelligence incorporée car elles fournissent une solution rentable. méthode expérimentale, peut garantir la sécurité en simulant des scénarios potentiellement dangereux, a l'évolutivité nécessaire pour tester dans une variété d'environnements, a des capacités de prototypage rapide, peut offrir une commodité à une communauté de recherche plus large et fournit un environnement contrôlé pour une recherche précise, générant des données pour la formation et évaluation, et fournir une référence standardisée pour la comparaison des algorithmes. Pour que l’agent puisse interagir avec l’environnement, un environnement simulé réaliste doit être construit. Cela nécessite de prendre en compte les caractéristiques physiques de l'environnement, les propriétés des objets et leurs interactions. Comme le montre la figure ci-dessous, cette revue analysera deux plateformes de simulation : une plateforme générale basée sur une simulation sous-jacente et une plateforme de simulation basée sur des scénarios réels.

^{Plateforme de simulation basée sur des scènes réelles}

4. Perception incarnée

L'« étoile du Nord » de la perception visuelle future » est un raisonnement visuel centré sur l'incarnation et intelligence sociale. Comme le montre la figure ci-dessous, au lieu de simplement reconnaître les objets dans les images, les agents dotés d'une perception incarnée doivent se déplacer dans le monde physique et interagir avec l'environnement, ce qui nécessite une compréhension plus approfondie de l'espace tridimensionnel et des environnements dynamiques. La perception incarnée nécessite des capacités de perception visuelle et de raisonnement, la compréhension des relations tridimensionnelles dans une scène, ainsi que la prévision et l'exécution de tâches complexes basées sur des informations visuelles. Cette revue introduit la perception visuelle active, la localisation visuelle 3D, la navigation linguistique visuelle, la perception non visuelle (capteurs tactiles), etc.
^{Cadre de perception visuelle active}

5. Interaction incarnée

Scènes d'interaction avec l'humain et l'environnement. Les tâches d'interaction incarnée typiques incluent la réponse aux questions incarnées et la saisie incarnée. Comme le montre la figure ci-dessous, dans la tâche de questions et réponses incorporée, l'agent doit explorer l'environnement du point de vue de la première personne pour collecter les informations nécessaires pour répondre à la question. Un agent doté de capacités autonomes d’exploration et de prise de décision doit non seulement réfléchir aux actions à entreprendre pour explorer l’environnement, mais également décider quand arrêter l’exploration pour répondre aux questions, comme le montre la figure ci-dessous.架 En plus du cadre de questions et réponses 问 En plus de l'interaction avec les humains, l'interaction implique également d'effectuer des opérations basées sur des instructions humaines, telles que saisir et placer des objets, complétant ainsi les corps et les êtres humains intelligents et les interactions entre les objets. Comme indiqué, la saisie incarnée nécessite une compréhension sémantique complète, une connaissance de la scène, une prise de décision et une planification de contrôle robuste. La méthode de saisie incorporée combine la saisie cinématique robotique traditionnelle avec des modèles à grande échelle (tels que de grands modèles de langage et des modèles de base du langage visuel), permettant aux agents d'effectuer des tâches de saisie sous perception multisensorielle, notamment la perception visuelle active, la compréhension du langage et le raisonnement.

^{Cadre d'exploration interactif guidé par le langage}

6. Agent incarné

Un agent est défini comme étant capable de ressentir l'environnement et de prendre des mesures pour atteindre un objectif spécifique. entité autonome. Les progrès récents dans les grands modèles multimodaux ont encore élargi l'application des agents dans des scénarios du monde réel. Lorsque ces agents multimodaux basés sur de grands modèles sont incarnés dans des entités physiques, ils sont capables de transférer efficacement leurs capacités de l'espace virtuel vers le monde physique, devenant ainsi des agents incarnés. Afin que les agents incarnés puissent opérer dans un monde réel complexe et riche en informations, ils ont été développés avec de puissantes capacités de perception, d’interaction et de planification multimodales. Comme le montre la figure ci-dessous, afin d'accomplir des tâches, les agents incarnés impliquent généralement les processus suivants :

(1) Décomposer les tâches abstraites et complexes en sous-tâches spécifiques, c'est-à-dire une planification des tâches incarnées de haut niveau. (2) Mettez progressivement en œuvre ces sous-tâches en utilisant efficacement les modèles de perception incarnée et d'interaction incarnée, ou en utilisant les fonctions stratégiques du modèle de base, appelé planification d'action incarnée de bas niveau.

Il convient de noter que la planification de mission implique de réfléchir avant d'agir et est donc souvent envisagée dans l'espace numérique. En revanche, la planification d'action doit prendre en compte les interactions efficaces avec l'environnement et renvoyer ces informations au planificateur de mission pour ajuster la planification de la mission. Il est donc crucial pour les agents incarnés d’aligner et de généraliser leurs capacités de l’espace numérique au monde physique.模 Basé sur un modèle multi-mode et grand, le cadre corporel du corps

7 (adaptation Sim-to-Real) fait référence au processus de transfert de capacités ou de comportements appris dans un environnement simulé (. espace numérique) au monde réel (monde physique). Le processus comprend la validation et l'amélioration de l'efficacité des algorithmes, des modèles et des stratégies de contrôle développés en simulation pour garantir qu'ils fonctionnent de manière stable et fiable dans l'environnement physique. Afin de parvenir à une adaptation de la simulation à la réalité, les modèles du monde incarné, les méthodes de collecte de données et de formation, ainsi que les algorithmes de contrôle incorporés sont trois éléments clés. La figure ci-dessous montre cinq paradigmes différents de la simulation au réel.

# Cinq solutions de migration du virtuel vers la réalité

8.
a relevé quelques défis et a présenté des orientations futures passionnantes :

(1)
Ensemble de données robotiques de haute qualité
. Obtenir suffisamment de données robotiques réelles reste un défi de taille. La collecte de ces données prend du temps et nécessite beaucoup de ressources. S’appuyer uniquement sur des données simulées exacerbera le problème de l’écart entre la simulation et la réalité. La création de divers ensembles de données robotiques du monde réel nécessite une collaboration étroite et étendue entre les institutions. De plus, le développement de simulateurs plus réalistes et plus efficaces est crucial pour améliorer la qualité des données de simulation. Afin de créer un modèle incorporé universel capable de réaliser des applications multi-scénarios et multi-tâches dans le domaine de la robotique, il est nécessaire de créer des ensembles de données à grande échelle et d'utiliser des données d'environnement simulé de haute qualité pour assister les données du monde réel.

(2)Utilisation efficace des données de démonstration humaine
. L’utilisation efficace des données de démonstration humaine implique de tirer parti des actions et des comportements humains démontrés pour former et améliorer les systèmes robotiques. Ce processus implique la collecte, le traitement et l’apprentissage à partir d’ensembles de données à grande échelle et de haute qualité, les humains effectuant les tâches que le robot doit apprendre. Par conséquent, il est important d’utiliser efficacement de grandes quantités de données de démonstration humaine non structurées, multi-étiquettes et multimodales, combinées à des données d’étiquettes d’action pour former des modèles incarnés capables d’apprendre une variété de tâches dans un temps relativement court. En exploitant efficacement les données de démonstration humaine, les systèmes robotiques peuvent atteindre des niveaux plus élevés de performances et d’adaptabilité, les rendant ainsi mieux à même d’effectuer des tâches complexes dans des environnements dynamiques.

(3)Cognition de l'environnement complexe
. La cognition des environnements complexes fait référence à la capacité des agents incarnés à percevoir, comprendre et naviguer dans des environnements complexes du monde réel dans des environnements physiques ou virtuels. Pour les environnements ouverts non structurés, les travaux actuels s'appuient généralement sur le mécanisme de décomposition des tâches d'un LLM pré-entraîné, exploitant des connaissances approfondies de bon sens pour une planification simple des tâches, mais manquent de compréhension spécifique de la scène. Il est essentiel d’améliorer le transfert et la généralisation des connaissances dans des environnements complexes. Un système robotique véritablement polyvalent devrait être capable de comprendre et d’exécuter des instructions en langage naturel dans une variété de scénarios différents et inédits. Cela nécessite le développement d’architectures d’agents incorporés adaptables et évolutives.

(4)Exécution de mission à longue portée
. L'exécution d'une seule commande implique généralement que le robot exécute une tâche à longue portée, telle qu'une commande telle que « nettoyer la cuisine », qui implique de réorganiser les objets, de balayer le sol, d'essuyer la table, etc. La réussite de ces tâches nécessite que le robot soit capable de planifier et d’exécuter une série d’actions de bas niveau sur une période de temps prolongée. Bien que les planificateurs de tâches de haut niveau actuels aient connu un succès initial, ils échouent souvent dans divers scénarios en raison d'un manque d'adaptation aux tâches incarnées. Relever ce défi nécessite le développement de planificateurs efficaces dotés de fortes capacités de perception et de connaissances approfondies de bon sens.

(5)Découverte d'une relation causale
. Les agents incarnés existants basés sur les données prennent des décisions basées sur des corrélations au sein des données. Cependant, cette méthode de modélisation ne peut pas permettre au modèle de véritablement comprendre la relation causale entre les connaissances, le comportement et l’environnement, ce qui entraîne des stratégies biaisées. Cela les rend difficiles à exploiter de manière interprétable, robuste et fiable dans des environnements réels. Par conséquent, l’intelligence incarnée doit être guidée par la connaissance du monde et disposer de capacités de raisonnement causal autonomes.

(6)Continuer à apprendre
. Dans les applications robotiques, l’apprentissage continu est crucial pour déployer des stratégies d’apprentissage robotique dans divers environnements, mais ce domaine reste sous-exploré. Bien que certaines recherches récentes aient exploré des sous-thèmes de l'apprentissage continu, tels que l'apprentissage incrémentiel, l'adaptation rapide des mouvements et l'apprentissage par interaction homme-machine, ces solutions sont généralement conçues pour une tâche ou une plate-forme unique et n'ont pas encore pris en compte le modèle sous-jacent. Les questions de recherche ouvertes et les approches possibles incluent : 1) mélanger différentes proportions de distributions de données précédentes lors de l'ajustement fin des données les plus récentes pour atténuer les oublis catastrophiques, 2) développer des prototypes efficaces à partir de distributions ou de cours précédents pour de nouvelles tâches d'apprentissage par inférence, 3) améliorer la la stabilité de la formation et l'efficacité des échantillons d'algorithmes d'apprentissage en ligne, 4) identifier des méthodes de principe pour intégrer de manière transparente des modèles de grande capacité dans des cadres de contrôle, éventuellement par le biais d'un apprentissage hiérarchique ou d'un contrôle lent-rapide, pour parvenir à un raisonnement en temps réel.

(7)Référence d'évaluation unifiée
. Bien qu’il existe de nombreux critères d’évaluation des stratégies de contrôle de bas niveau, leurs compétences d’évaluation diffèrent souvent de manière significative. De plus, les objets et scènes inclus dans ces benchmarks sont souvent limités au simulateur. Pour évaluer pleinement les modèles incorporés, des références couvrant plusieurs compétences à l’aide de simulateurs réalistes sont nécessaires. En termes de planification des tâches de haut niveau, de nombreux critères évaluent les capacités de planification au moyen de tâches de questions et réponses.Ein idealerer Ansatz wäre jedoch eine umfassende Bewertung der Ausführungsfähigkeiten von Missionsplanern auf hoher Ebene und von Kontrollstrategien auf niedriger Ebene, insbesondere bei der Durchführung von Langzeitmissionen und der Messung der Erfolgsraten, anstatt sich ausschließlich auf die Bewertung von Planern allein zu verlassen. Dieser umfassende Ansatz ermöglicht eine umfassendere Bewertung der Fähigkeiten verkörperter intelligenter Systeme.

Kurz gesagt ermöglicht die verkörperte Intelligenz intelligenten Agenten, verschiedene Objekte im digitalen Raum und in der physischen Welt wahrzunehmen, zu erkennen und mit ihnen zu interagieren, was ihre Bedeutung für die Verwirklichung allgemeiner künstlicher Intelligenz zeigt. Diese Übersicht bietet einen umfassenden Überblick über verkörperte Roboter, verkörperte Simulationsplattformen, verkörperte Wahrnehmung, verkörperte Interaktion, verkörperte Agenten, virtuelle Robotersteuerung und zukünftige Forschungsrichtungen, die Auswirkungen auf die Förderung der Entwicklung verkörperter Intelligenz haben.

Über das Institut für Multi-Agenten und verkörperte Intelligenz des Pengcheng-Labors

Das dem Pengcheng-Labor angegliederte Institut für Multi-Agenten und verkörperte Intelligenz bringt Dutzende von Experten für intelligente Wissenschaft und Robotik zusammen. Top-Nachwuchs Wissenschaftler auf diesem Gebiet, die sich auf unabhängig steuerbare KI-Infrastrukturen wie Pengcheng Cloud Brain und China Computing Network stützen, engagieren sich für den Aufbau von Multi-Agenten-Kollaborations- und Simulationstrainingsplattformen, Cloud-kollaborativen verkörperten multimodalen Großmodellen und anderen allgemeinen Basisplattformen, um dies zu ermöglichen kann wichtige Anwendungsanforderungen wie industrielles Internet, soziale Governance und Dienste erfüllen.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semaines By DDD

Inzoi: Comment postuler à l'école et à l'université

4 Il y a quelques semaines By DDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

2 Il y a quelques semaines By DDD

Où trouver la clé du bureau du site dans Atomfall

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7864

Tutoriel Java

1649

Tutoriel CakePHP

1406

Tutoriel Laravel

1301

Tutoriel PHP

1243

Afficher plus

Related knowledge

Repoussant les limites de la détection de défauts traditionnelle, « Defect Spectrum » permet pour la première fois une détection de défauts industriels d'une ultra haute précision et d'une sémantique riche. Jul 26, 2024 pm 05:38 PM

Dans la fabrication moderne, une détection précise des défauts est non seulement la clé pour garantir la qualité des produits, mais également la clé de l’amélioration de l’efficacité de la production. Cependant, les ensembles de données de détection de défauts existants manquent souvent de précision et de richesse sémantique requises pour les applications pratiques, ce qui rend les modèles incapables d'identifier des catégories ou des emplacements de défauts spécifiques. Afin de résoudre ce problème, une équipe de recherche de premier plan composée de l'Université des sciences et technologies de Hong Kong, Guangzhou et de Simou Technology a développé de manière innovante l'ensemble de données « DefectSpectrum », qui fournit une annotation à grande échelle détaillée et sémantiquement riche des défauts industriels. Comme le montre le tableau 1, par rapport à d'autres ensembles de données industrielles, l'ensemble de données « DefectSpectrum » fournit le plus grand nombre d'annotations de défauts (5 438 échantillons de défauts) et la classification de défauts la plus détaillée (125 catégories de défauts).

Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Jul 26, 2024 am 08:40 AM

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science Aug 08, 2024 pm 09:22 PM

Editeur | KX À ce jour, les détails structurels et la précision déterminés par cristallographie, des métaux simples aux grandes protéines membranaires, sont inégalés par aucune autre méthode. Cependant, le plus grand défi, appelé problème de phase, reste la récupération des informations de phase à partir d'amplitudes déterminées expérimentalement. Des chercheurs de l'Université de Copenhague au Danemark ont développé une méthode d'apprentissage en profondeur appelée PhAI pour résoudre les problèmes de phase cristalline. Un réseau neuronal d'apprentissage en profondeur formé à l'aide de millions de structures cristallines artificielles et de leurs données de diffraction synthétique correspondantes peut générer des cartes précises de densité électronique. L'étude montre que cette méthode de solution structurelle ab initio basée sur l'apprentissage profond peut résoudre le problème de phase avec une résolution de seulement 2 Angströms, ce qui équivaut à seulement 10 à 20 % des données disponibles à la résolution atomique, alors que le calcul ab initio traditionnel

Google AI a remporté la médaille d'argent de l'Olympiade mathématique de l'OMI, le modèle de raisonnement mathématique AlphaProof a été lancé et l'apprentissage par renforcement est de retour. Jul 26, 2024 pm 02:40 PM

Pour l’IA, l’Olympiade mathématique n’est plus un problème. Jeudi, l'intelligence artificielle de Google DeepMind a réalisé un exploit : utiliser l'IA pour résoudre la vraie question de l'Olympiade mathématique internationale de cette année, l'OMI, et elle n'était qu'à un pas de remporter la médaille d'or. Le concours de l'OMI qui vient de se terminer la semaine dernière comportait six questions portant sur l'algèbre, la combinatoire, la géométrie et la théorie des nombres. Le système d'IA hybride proposé par Google a répondu correctement à quatre questions et a marqué 28 points, atteignant le niveau de la médaille d'argent. Plus tôt ce mois-ci, le professeur titulaire de l'UCLA, Terence Tao, venait de promouvoir l'Olympiade mathématique de l'IA (AIMO Progress Award) avec un prix d'un million de dollars. De manière inattendue, le niveau de résolution de problèmes d'IA s'était amélioré à ce niveau avant juillet. Posez les questions simultanément sur l'OMI. La chose la plus difficile à faire correctement est l'OMI, qui a la plus longue histoire, la plus grande échelle et la plus négative.

PRO | Pourquoi les grands modèles basés sur le MoE méritent-ils davantage d'attention ? Aug 07, 2024 pm 07:08 PM

En 2023, presque tous les domaines de l’IA évoluent à une vitesse sans précédent. Dans le même temps, l’IA repousse constamment les limites technologiques de domaines clés tels que l’intelligence embarquée et la conduite autonome. Sous la tendance multimodale, le statut de Transformer en tant qu'architecture dominante des grands modèles d'IA sera-t-il ébranlé ? Pourquoi l'exploration de grands modèles basés sur l'architecture MoE (Mixture of Experts) est-elle devenue une nouvelle tendance dans l'industrie ? Les modèles de grande vision (LVM) peuvent-ils constituer une nouvelle avancée dans la vision générale ? ...Dans la newsletter des membres PRO 2023 de ce site publiée au cours des six derniers mois, nous avons sélectionné 10 interprétations spéciales qui fournissent une analyse approfondie des tendances technologiques et des changements industriels dans les domaines ci-dessus pour vous aider à atteindre vos objectifs dans le nouveau année. Cette interprétation provient de la Week50 2023

Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Jul 25, 2024 am 06:42 AM

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Épluchant des concombres et pliant des vêtements sur place, le robot de rasage autrefois populaire a de nouveau évolué, le cerveau intelligent incarné de Qiongche est là ! Jul 11, 2024 pm 12:42 PM

Le 4 juillet, lors de la Conférence mondiale sur l'intelligence artificielle 2024, la société d'intelligence incarnée Qiongche Intelligent Noematrix (stand n° : H1-A715) a annoncé le lancement de Qiongche Embodied Brain NoematrixBrain pour accélérer la mise en œuvre de modèles d'intelligence incarnée à grande échelle. Combiné avec le robot physique, Qiongche a démontré au public à bout portant dans un environnement complètement ouvert « plier des vêtements qui peuvent être pliés d'un simple coup » (liberté infinie de manipulation d'objets, compréhension d'objets complexes comparables à ceux des humains) et « peuvent être plié après découpe Des technologies révolutionnaires telles que « manger des épluchures de concombre » (opération de surface irrégulière, précision même au-delà du niveau humain), ainsi que des applications pratiques telles que le nettoyage des sols de la maison. Grâce à ces démonstrations en temps réel et à ces interactions réelles, le monde du cerveau incarné

Le taux de précision atteint 60,8 %. Le modèle de prédiction de rétrosynthèse chimique de l'Université du Zhejiang basé sur Transformer a été publié dans la sous-journal Nature. Aug 06, 2024 pm 07:34 PM

Editeur | KX La rétrosynthèse est une tâche essentielle dans la découverte de médicaments et la synthèse organique, et l'IA est de plus en plus utilisée pour accélérer le processus. Les méthodes d’IA existantes ont des performances insatisfaisantes et une diversité limitée. En pratique, les réactions chimiques provoquent souvent des modifications moléculaires locales, avec un chevauchement considérable entre les réactifs et les produits. Inspirée par cela, l'équipe de Hou Tingjun de l'Université du Zhejiang a proposé de redéfinir la prédiction rétrosynthétique en une seule étape en tant que tâche d'édition de chaînes moléculaires, en affinant de manière itérative la chaîne moléculaire cible pour générer des composés précurseurs. Et un modèle rétrosynthétique basé sur l'édition, EditRetro, est proposé, qui permet d'obtenir des prédictions diverses et de haute qualité. Des expériences approfondies montrent que le modèle atteint d'excellentes performances sur l'ensemble de données de référence standard USPTO-50 K, avec une précision top 1 de 60,8 %.

See all articles