


[Interprétation papier] Architecture de prédiction d'intégration conjointe d'apprentissage auto-supervisé basée sur des graphiques
1. Brève introduction
Cet article présente une méthode d'apprentissage de représentations d'images hautement sémantiques sans recourir à une augmentation de données artisanale. L'article présente l'architecture de prédiction d'intégration conjointe basée sur l'image (I-JEPA), une méthode non générative d'apprentissage auto-supervisé à partir d'images. L'idée derrière I-JEPA est simple : prédire la représentation de différents patchs cibles dans la même image à partir d'un seul patch de contexte. Le choix de conception principal guidant I-JEPA pour générer des représentations sémantiques est la stratégie de masquage, plus précisément, (a) prédire plusieurs correctifs cibles dans l'image, (b) échantillonner des correctifs cibles à une échelle suffisamment grande (15 % de l'image - 20) %), (c) l’utilisation de blocs de contexte suffisamment riches (répartis spatialement) est cruciale. Empiriquement, l'article a révélé qu'I-JEPA est hautement évolutif lorsqu'il est associé à un transformateur visuel. Par exemple, l'article forme un ViT-Huge/16 sur ImageNet en 38 heures à l'aide de 32 GPU A100 pour obtenir de solides performances en aval sur un large éventail de tâches nécessitant différents niveaux d'abstraction, de la classification linéaire au comptage d'objets et à la prédiction de profondeur.
2. Contexte de recherche
En vision par ordinateur, il existe deux méthodes courantes d'apprentissage auto-supervisé des images.
Méthodes basées sur l'invariance et méthodes de génération. En optimisant l'encodeur grâce à une approche de pré-entraînement basée sur l'invariance, des intégrations similaires peuvent être générées pour deux vues ou plus de la même image. En règle générale, les vues d'images sont construites à l'aide d'un ensemble de méthodes artisanales d'augmentation des données, telles que la mise à l'échelle aléatoire, le recadrage, le tramage des couleurs, etc. Ces méthodes de pré-formation peuvent générer des représentations de haut niveau sémantique, mais en même temps elles introduisent également de forts biais qui peuvent avoir un impact négatif sur certaines tâches en aval ou même sur des tâches de pré-formation avec différentes distributions de données.
La théorie de l'apprentissage cognitif estime ces représentations dans les systèmes biologiques L'un des mécanismes moteurs de l'apprentissage est l'adaptation d'un modèle interne pour prédire les réponses aux entrées sensorielles. Cette idée est au cœur des méthodes génératives auto-supervisées, qui suppriment ou corrompent des parties de l’entrée et apprennent à prédire ce qui est corrompu. En particulier, les méthodes de débruitage de masque apprennent les représentations en reconstruisant des patchs de masque aléatoires à partir du niveau de pixel ou de jeton de l'entrée. Par rapport aux méthodes invariantes de vue, la tâche de pré-entraînement des masques nécessite moins de connaissances préalables et est facilement généralisée au-delà des modalités d'image. Cependant, les représentations résultantes ont souvent des niveaux sémantiques inférieurs et manquent de pré-formation basée sur l'invariance dans les évaluations standard telles que les paramètres de sondage et de transfert linéaires avec une supervision limitée sur les tâches de classification sémantique. Par conséquent, un mécanisme d’adaptation plus sophistiqué (par exemple, un réglage fin de bout en bout) est nécessaire pour obtenir tous les avantages de ces méthodes.
Dans ce travail, l'article explore comment améliorer le niveau sémantique des représentations auto-supervisées sans utiliser de connaissances préalables supplémentaires sur les transformations d'images codées. À cette fin, l’article présente une architecture de prédiction d’intégration conjointe d’images (I-JEPA). La figure 3 fournit une illustration de cette approche. L'idée derrière I-JEPA est de prédire les informations manquantes dans un espace de représentation abstrait ; par exemple, étant donné un patch de contexte, prédire la représentation de différents patchs cibles dans la même image, où la représentation cible est calculée par un réseau d'encodeurs cibles appris.
Par rapport aux méthodes génératives qui prédisent dans l'espace pixel/marqueur, I-JEPA utilise des cibles de prédiction abstraites qui peuvent éliminer les détails inutiles au niveau des pixels, ce qui permet au modèle d'apprendre davantage de fonctionnalités sémantiques. Un autre choix de conception fondamental guidant I-JEPA dans la production de représentations sémantiques est la stratégie de masquage multibloc proposée. Plus précisément, l'article démontre l'importance d'utiliser un patch contextuel informatif (distribué spatialement) pour prédire plusieurs patchs cibles (d'une échelle suffisamment grande) dans une image. Contenu réécrit : par rapport aux méthodes génératives qui prédisent dans l'espace pixel/marqueur, I-JEPA utilise des cibles de prédiction abstraites, éliminant potentiellement les détails inutiles au niveau des pixels, permettant ainsi au modèle d'apprendre davantage de fonctionnalités sémantiques. Un autre choix de conception fondamental d’I-JEPA consiste à adopter une stratégie de masquage multibloc pour générer des représentations sémantiques. Plus précisément, l'article démontre l'importance d'utiliser des correctifs contextuels informatifs (distribués dans l'espace) pour prédire plusieurs correctifs cibles (à échelle suffisamment grande) dans une image
Basée sur une évaluation empirique approfondie, l'étude montre :
I-JEPA apprend de manière puissante -représentations sémantiques standard sans utiliser d'augmentations de vue fabriquées à la main (Figure 1). I-JEPA surpasse les méthodes de reconstruction de pixels telles que MAE sur la détection linéaire ImageNet-1K, ImageNet-1K semi-supervisée à 1 % et les tâches de transfert sémantique.
I-JEPA est compétitif par rapport aux méthodes de pré-entraînement invariantes de vue sur les tâches sémantiques et obtient de meilleures performances sur les tâches de vision de bas niveau telles que le comptage d'objets et la prédiction de profondeur. En utilisant un modèle plus simple et un biais inductif moins rigide, I-JEPA est applicable à un ensemble plus large de tâches.
I-JEPA est également évolutif et efficace. La pré-formation du ViT-H/14 sur ImageNet prend environ 2 400 heures GPU, ce qui est 50 % plus rapide que le ViTB/16 pré-entraîné avec iBOT et 140 % plus rapide que le ViT-L/16 pré-entraîné avec MAE. Les prédictions dans l'espace de représentation réduisent considérablement le calcul total requis pour la pré-formation auto-supervisée.
L'apprentissage auto-supervisé est une méthode d'apprentissage par représentation dans laquelle un système apprend à capturer les relations entre ses entrées. Cet objectif peut être facilement décrit à l’aide du cadre des modèles basés sur l’énergie (EBM), où l’objectif de l’auto-supervision est d’attribuer une énergie élevée aux intrants incompatibles et une énergie faible aux intrants compatibles. De nombreuses méthodes d'apprentissage auto-supervisées génératives et non génératives existantes peuvent en effet être converties dans ce cadre ; voir Figure 2
Contenu réécrit : les architectures Joint-Embedding (Joint-Embedding Architectures) sont une nouvelle méthode basée sur la méthode de pré-entraînement dégénérative. peut être utilisé dans le cadre EBM pour effectuer une conversion forcée, voir Figure 2a. L'objectif d'apprentissage de l'architecture d'intégration conjointe est de faire en sorte que les entrées compatibles x et y génèrent des intégrations similaires, tandis que les entrées incompatibles génèrent des intégrations différentes. Dans la pré-formation basée sur des images, les paires x et y compatibles sont généralement construites en appliquant de manière aléatoire des augmentations de données artisanales aux mêmes images d'entrée. Le principal défi de JEA est l'effondrement de la représentation, où le paysage énergétique est plat (c'est-à-dire l'encodeur). produit une sortie constante quelle que soit l’entrée). Au cours des dernières années, plusieurs méthodes ont été étudiées pour empêcher l'effondrement de la représentation, telles que les pertes contrastives qui poussent explicitement les intégrations d'exemples négatifs, les pertes non contrastées qui minimisent la redondance des informations intégrées et les méthodes basées sur le clustering pour maximiser l'entropie intégrée moyenne. Il existe également des méthodes heuristiques qui utilisent une conception architecturale asymétrique entre l'encodeur x et l'encodeur y pour éviter l'effondrement. Architectures génératives. Les méthodes d'apprentissage auto-supervisées basées sur la reconstruction peuvent également être intégrées dans des cadres EBM à l'aide d'architectures génératives ; voir la figure 2b.
Les architectures génératives apprennent à reconstruire directement le signal y à partir d'un signal compatible x, en utilisant un réseau de décodeurs supplémentaire (éventuellement latent) pour la variable z. pour faciliter la reconstruction. Dans la pré-formation basée sur l'image, une approche courante en vision par ordinateur consiste à utiliser des masques pour générer des paires x,y compatibles, où x est une copie de l'image y mais avec certains correctifs masqués. La variable de conditionnement z correspond alors à un ensemble de masques (éventuellement apprenables) et de marqueurs de position qui précisent le décodeur du patch d'image à reconstruire. Tant que la capacité informationnelle de z est inférieure au signal y, ces architectures ne se concentrent pas sur l’effondrement des représentations.
Archites prédictives à intégration conjointe. Comme le montre la figure 2c, l'architecture de prédiction d'intégration conjointe est conceptuellement similaire à l'architecture générative, cependant, une différence clé est que la fonction de perte est appliquée à l'espace d'intégration plutôt qu'à l'espace d'entrée ; JEPA apprend à prédire l'intégration du signal y à partir d'un signal compatible x, en utilisant un réseau de prédiction de variables supplémentaires (éventuellement latentes) z pour faciliter la prédiction. L'I-JEPA proposé fournit une instanciation de cette architecture dans le contexte d'images utilisant des masques (voir Figure 3). Contrairement aux architectures d'intégration conjointe, JEPA ne recherche pas de représentations invariantes à un ensemble d'augmentations de données faites à la main, mais plutôt des représentations qui se prédisent mutuellement lorsque des conditions z d'informations supplémentaires sont présentes. Cependant, comme pour les architectures d’intégration conjointe, l’effondrement de la représentation est également une préoccupation pour le JEPA. L'article exploite une architecture asymétrique entre les encodeurs x et y pour éviter l'effondrement de la représentation dans I-JEPA.
3. Introduction à la méthode
L'article décrit maintenant l'architecture de prédiction d'intégration conjointe basée sur l'image (I-JEPA) proposée, comme le montre la figure 3. L'objectif global est le suivant : étant donné un patch de contexte, prédire la représentation de différents patchs cibles dans la même image. L'article utilise l'architecture Visual Transformer (ViT) comme encodeur de contexte, encodeur cible et prédicteur. Un ViT se compose d'une pile de couches Transformer, dont chacune consiste en une opération d'auto-attention et un MLP entièrement connecté. L'architecture encodeur/prédicteur de l'article rappelle l'approche de l'encodeur automatique de masque génératif (MAE). Cependant, une différence essentielle réside dans le fait que la méthode I-JEPA est non générative et que les prédictions sont faites dans l’espace de représentation.
Classification des images
Pour démontrer qu'I-JEPA apprend des représentations de haut niveau sans s'appuyer sur une augmentation de données artisanale, l'article rapporte les résultats de diverses tâches de classification d'images utilisant des protocoles de détection linéaire et de réglage partiel. Dans cette section, l'article considère les modèles auto-supervisés pré-entraînés sur l'ensemble de données ImageNet-1K. Voir l'Annexe A pour les détails de mise en œuvre de la pré-formation et de l'évaluation. Tous les modèles I-JEPA sont formés à la résolution 224 × 224, sauf indication contraire explicite.
ImageNet-1K. Le tableau 1 montre les performances sur le benchmark d'évaluation linéaire commun ImageNet-1K. Après une pré-formation auto-supervisée, les poids du modèle sont gelés et un classificateur linéaire est formé par-dessus à l'aide de l'ensemble de formation complet ImageNet-1K. Comparé aux méthodes populaires d'encodeurs automatiques masqués (MAE) et de data2vec, qui ne reposent pas non plus sur une augmentation approfondie des données artisanales avant la formation, l'article constate que I-JEPA améliore considérablement les performances de détection linéaire tout en utilisant moins de calculs. De plus, l’I-JEPA bénéficie d’une grande échelle. ViT-H/16 formé à la résolution 448 correspond aux performances des méthodes invariantes de vue telles que iBOT sans nécessiter une augmentation manuelle supplémentaire des données.
Faible taille d'échantillon ImageNet-1K. Le tableau 2 montre les performances sur le benchmark 1 % ImageNet. Ces méthodes utilisent des modèles pré-entraînés pour la classification ImageNet, en utilisant seulement 1 % des étiquettes ImageNet, avec environ 12 ou 13 images par catégorie. Le modèle est ajusté via un réglage fin ou un sondage linéaire, en fonction de ce qui fonctionne le mieux pour chaque méthode. Lors de l'utilisation d'une architecture d'encodeur similaire, I-JEPA surpasse le MAE et nécessite moins d'époques de pré-formation. I-JEPA utilisant l'architecture ViTH/14 a des performances comparables à celles du ViT-L/16 pré-entraîné à l'aide de données 2vec, mais la charge de calcul est nettement inférieure. En augmentant la résolution d'entrée de l'image, I-JEPA fonctionne mieux que les méthodes précédentes, y compris les méthodes d'intégration conjointe et l'exploitation de méthodes d'augmentation de données artisanales supplémentaires avant la formation, telles que MSN, DINO et iBOT
Apprentissage par transfert. Le tableau 3 montre les performances d'utilisation. de sondes linéaires pour diverses tâches de classification d'images en aval. I-JEPA surpasse considérablement les méthodes précédentes qui n'utilisent pas d'augmentation (MAE et Data2vec) et réduit l'écart avec les meilleures méthodes qui exploitent l'invariant du point de vue artisanal avant la formation, dépassant même les méthodes populaires sur CIFAR100 et Place205 DINO.
5. Tâches de prédiction locales
I-JEPA apprend la représentation sémantique des images et améliore considérablement les performances de classification des images en aval des méthodes précédentes, telles que MAE et data2vec. De plus, I-JEPA bénéficie de l'échelle et peut combler l'écart et même au-delà, en tirant parti d'augmentations de données artisanales supplémentaires basées sur des méthodes basées sur l'invariance de vue. Dans cette section, nous constatons qu'I-JEPA peut également apprendre les caractéristiques des images locales et surpasser les méthodes basées sur l'invariance de vue dans les tâches de prédiction de bas niveau et intensives telles que le comptage d'objets et la prédiction de profondeur.
Le tableau 4 montre les performances sur diverses tâches de bas niveau utilisant le sondage linéaire. En particulier, après le pré-entraînement, les poids du modèle sont gelés et un modèle linéaire est entraîné par-dessus pour le comptage d'objets et la prédiction de profondeur sur l'ensemble de données Clevr. Par rapport aux méthodes invariantes de vue telles que DINO et iBOT, la méthode I-JEPA capture efficacement les caractéristiques de l'image de bas niveau avant l'entraînement et surpasse celles-ci en matière de comptage d'objets (Clevr/Count) et (en grande partie) de prédiction de profondeur (Clevr/Dist). . 6. Évolutivité
Le contenu réécrit est le suivant : Sur la base d'une comparaison avec les méthodes précédentes, I-JEPA est hautement évolutif en termes d'efficacité du modèle. La figure 5 montre les résultats semi-supervisés de l'évaluation GPU-heure sur 1% d'ImageNet-1K. I-JEPA nécessite moins de calculs que les méthodes précédentes et atteint de solides performances sans recourir à une augmentation manuelle des données. Par rapport aux méthodes basées sur la reconstruction telles que MAE, qui utilise les pixels directement comme cibles, etc., I-JEPA introduit une surcharge supplémentaire en calculant les cibles dans l'espace de représentation (le temps par itération est environ 7 % plus lent)
Mise à l'échelle de la taille des données . Le document révèle également que l'I-JEPA bénéficie d'une pré-formation sur un ensemble de données plus vaste. Le tableau 5 montre les performances d'apprentissage par transfert sur les tâches sémantiques et les tâches de bas niveau lors de l'augmentation de la taille de l'ensemble de données de pré-formation (IN1K vs IN22K). Les performances d'apprentissage par transfert sur ces tâches conceptuellement distinctes s'améliorent lorsqu'elles sont pré-formées sur des ensembles de données plus grands et plus diversifiés. Mise à l'échelle de la taille du modèle. Le tableau 5 montre également que I-JEPA bénéficie d'une taille de modèle plus grande lorsqu'il est pré-entraîné sur IN22K. Par rapport au modèle ViT-H/14, la pré-formation sur ViT-G/16 améliore considérablement les performances en aval sur les tâches de classification d'images telles que Place205 et INat18. Le modèle ViTG/16 n'améliore pas les performances sur les tâches en aval de bas niveau. ViT-G/16 utilise une taille de patch d'entrée plus grande, ce qui peut nuire aux tâches de prédiction locales.
7. Les visualisations du prédicteur peuvent être réécrites
La fonction du prédicteur dans I-JEPA est de prendre la sortie de l'encodeur de contexte et de la conditionner sur le jeton du masque de position, et le jeton du masque de prédiction est spécifié. le bloc cible à la position. Une question est de savoir si les prédicteurs conditionnés par les jetons de masque de position apprennent à capturer correctement l'incertitude de position dans la cible. Pour étudier cette question qualitativement, nous visualisons la sortie du prédicteur. Après la pré-formation, l'article gèle les poids de l'encodeur de contexte et du prédicteur, et entraîne un décodeur selon le cadre RCDM pour mapper le pool moyen de sortie du prédicteur dans l'espace des pixels. La figure 6 montre la sortie du décodeur pour diverses graines aléatoires. Les caractéristiques communes à tous les échantillons représentent les informations contenues dans la représentation moyenne des prédicteurs regroupés. Le prédicteur I-JEPA capture correctement l'incertitude de position et produit des parties d'objets de haut niveau avec des poses correctes (par exemple, le dos d'un oiseau et le toit d'une voiture). Différentes masses dans différents échantillons représentent des informations non contenues dans la représentation. Dans ce cas, le prédicteur I-JEPA ignore les détails précis de bas niveau et les informations de base.
8. L'importance des ablations
Prédire dans l'espace de représentation. Le tableau 7 compare les performances à faible tir lors du calcul d'ImageNet-1K à 1 % dans l'espace de pixels et l'espace de représentation. L'article suppose qu'un élément clé de l'I-JEPA est que la perte est entièrement calculée dans l'espace de représentation, permettant à l'encodeur cible de produire des cibles de prédiction abstraites qui éliminent les détails non pertinents au niveau des pixels. Il ressort clairement du tableau 7 que la prédiction dans l'espace des pixels entraîne une dégradation significative des performances de détection linéaire.
Contenu réécrit : La stratégie de masquage a été modifiée dans le tableau 8. Cette étude réduit le nombre de blocs cibles dans la stratégie de masque multi-blocs proposée dans le processus de pré-formation I-JEPA et ajuste l'échelle du contexte et des blocs cibles, comme le montre la figure 4. Nous avons formé I-JEPA pendant 300 époques en utilisant divers paramètres multiblocs et effectué des comparaisons de performances sur le benchmark 1 % ImageNet-1K à l'aide de sondes linéaires. Pour résumer, nous avons constaté qu'il est très important de prédire plusieurs correctifs cibles (sémantiques) relativement grands, combinés à des correctifs contextuels informatifs (distribués spatialement)
Tableau 6 en comparaison avec d'autres stratégies de masquage. Une ablation similaire a également été réalisée. L'article se compare à une stratégie de masquage rastérisé, dans laquelle l'image est segmentée en quatre grands quadrants et l'objectif est d'utiliser un quadrant comme contexte pour prédire les trois autres quadrants. L'article compare également les stratégies traditionnelles de masquage par blocs et aléatoires couramment utilisées pour les méthodes basées sur la reconstruction. Dans le masquage de bloc, la cible est un patch d'image unique et le contexte est le complément d'image. Dans le masquage aléatoire, la cible est un ensemble aléatoire (éventuellement discontinu) de patchs d'image, et le contexte est le complément de l'image. Notez que dans toutes les stratégies de masquage considérées, il n'y a pas de chevauchement entre le contexte et les blocs cibles. La stratégie de masquage multibloc proposée est la clé permettant à I-JEPA d'apprendre la représentation sémantique. Même le passage aux masques de bloc traditionnels réduit les performances d'ImageNet de plus de 24 %.
9. Conclusion Paper
a proposé une méthode appelée I-JEPA pour apprendre la représentation sémantique des images. La méthode ne repose pas sur une augmentation manuelle des données. Des études montrent qu'en effectuant des prédictions dans l'espace de représentation, I-JEPA converge plus rapidement que les méthodes de reconstruction de pixels et est capable d'apprendre des représentations de haut niveau sémantique. Par rapport aux méthodes basées sur l'invariance de vue, I-JEPA met l'accent sur la voie de l'apprentissage des représentations générales en utilisant des architectures d'intégration conjointes sans s'appuyer sur des améliorations de vue artisanales
Annexe Voir le texte original, lien original : https://arxiv.org /abs /2301.08243
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Ce site a rapporté le 27 juin que Jianying est un logiciel de montage vidéo développé par FaceMeng Technology, une filiale de ByteDance. Il s'appuie sur la plateforme Douyin et produit essentiellement du contenu vidéo court pour les utilisateurs de la plateforme. Il est compatible avec iOS, Android et. Windows, MacOS et autres systèmes d'exploitation. Jianying a officiellement annoncé la mise à niveau de son système d'adhésion et a lancé un nouveau SVIP, qui comprend une variété de technologies noires d'IA, telles que la traduction intelligente, la mise en évidence intelligente, l'emballage intelligent, la synthèse humaine numérique, etc. En termes de prix, les frais mensuels pour le clipping SVIP sont de 79 yuans, les frais annuels sont de 599 yuans (attention sur ce site : équivalent à 49,9 yuans par mois), l'abonnement mensuel continu est de 59 yuans par mois et l'abonnement annuel continu est de 59 yuans par mois. est de 499 yuans par an (équivalent à 41,6 yuans par mois) . En outre, le responsable de Cut a également déclaré que afin d'améliorer l'expérience utilisateur, ceux qui se sont abonnés au VIP d'origine

Dans la fabrication moderne, une détection précise des défauts est non seulement la clé pour garantir la qualité des produits, mais également la clé de l’amélioration de l’efficacité de la production. Cependant, les ensembles de données de détection de défauts existants manquent souvent de précision et de richesse sémantique requises pour les applications pratiques, ce qui rend les modèles incapables d'identifier des catégories ou des emplacements de défauts spécifiques. Afin de résoudre ce problème, une équipe de recherche de premier plan composée de l'Université des sciences et technologies de Hong Kong, Guangzhou et de Simou Technology a développé de manière innovante l'ensemble de données « DefectSpectrum », qui fournit une annotation à grande échelle détaillée et sémantiquement riche des défauts industriels. Comme le montre le tableau 1, par rapport à d'autres ensembles de données industrielles, l'ensemble de données « DefectSpectrum » fournit le plus grand nombre d'annotations de défauts (5 438 échantillons de défauts) et la classification de défauts la plus détaillée (125 catégories de défauts).

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Editeur | KX À ce jour, les détails structurels et la précision déterminés par cristallographie, des métaux simples aux grandes protéines membranaires, sont inégalés par aucune autre méthode. Cependant, le plus grand défi, appelé problème de phase, reste la récupération des informations de phase à partir d'amplitudes déterminées expérimentalement. Des chercheurs de l'Université de Copenhague au Danemark ont développé une méthode d'apprentissage en profondeur appelée PhAI pour résoudre les problèmes de phase cristalline. Un réseau neuronal d'apprentissage en profondeur formé à l'aide de millions de structures cristallines artificielles et de leurs données de diffraction synthétique correspondantes peut générer des cartes précises de densité électronique. L'étude montre que cette méthode de solution structurelle ab initio basée sur l'apprentissage profond peut résoudre le problème de phase avec une résolution de seulement 2 Angströms, ce qui équivaut à seulement 10 à 20 % des données disponibles à la résolution atomique, alors que le calcul ab initio traditionnel

Pour l’IA, l’Olympiade mathématique n’est plus un problème. Jeudi, l'intelligence artificielle de Google DeepMind a réalisé un exploit : utiliser l'IA pour résoudre la vraie question de l'Olympiade mathématique internationale de cette année, l'OMI, et elle n'était qu'à un pas de remporter la médaille d'or. Le concours de l'OMI qui vient de se terminer la semaine dernière comportait six questions portant sur l'algèbre, la combinatoire, la géométrie et la théorie des nombres. Le système d'IA hybride proposé par Google a répondu correctement à quatre questions et a marqué 28 points, atteignant le niveau de la médaille d'argent. Plus tôt ce mois-ci, le professeur titulaire de l'UCLA, Terence Tao, venait de promouvoir l'Olympiade mathématique de l'IA (AIMO Progress Award) avec un prix d'un million de dollars. De manière inattendue, le niveau de résolution de problèmes d'IA s'était amélioré à ce niveau avant juillet. Posez les questions simultanément sur l'OMI. La chose la plus difficile à faire correctement est l'OMI, qui a la plus longue histoire, la plus grande échelle et la plus négative.

Editeur | ScienceAI Sur la base de données cliniques limitées, des centaines d'algorithmes médicaux ont été approuvés. Les scientifiques se demandent qui devrait tester les outils et comment le faire au mieux. Devin Singh a vu un patient pédiatrique aux urgences subir un arrêt cardiaque alors qu'il attendait un traitement pendant une longue période, ce qui l'a incité à explorer l'application de l'IA pour réduire les temps d'attente. À l’aide des données de triage des salles d’urgence de SickKids, Singh et ses collègues ont construit une série de modèles d’IA pour fournir des diagnostics potentiels et recommander des tests. Une étude a montré que ces modèles peuvent accélérer les visites chez le médecin de 22,3 %, accélérant ainsi le traitement des résultats de près de 3 heures par patient nécessitant un examen médical. Cependant, le succès des algorithmes d’intelligence artificielle dans la recherche ne fait que le vérifier.

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

En 2023, presque tous les domaines de l’IA évoluent à une vitesse sans précédent. Dans le même temps, l’IA repousse constamment les limites technologiques de domaines clés tels que l’intelligence embarquée et la conduite autonome. Sous la tendance multimodale, le statut de Transformer en tant qu'architecture dominante des grands modèles d'IA sera-t-il ébranlé ? Pourquoi l'exploration de grands modèles basés sur l'architecture MoE (Mixture of Experts) est-elle devenue une nouvelle tendance dans l'industrie ? Les modèles de grande vision (LVM) peuvent-ils constituer une nouvelle avancée dans la vision générale ? ...Dans la newsletter des membres PRO 2023 de ce site publiée au cours des six derniers mois, nous avons sélectionné 10 interprétations spéciales qui fournissent une analyse approfondie des tendances technologiques et des changements industriels dans les domaines ci-dessus pour vous aider à atteindre vos objectifs dans le nouveau année. Cette interprétation provient de la Week50 2023
