Nous mettons derrière nous une autre année de développements passionnants dans le domaine de l'apprentissage profond de l'intelligence artificielle (IA), une année remplie d'avancées notables, de controverses et, bien sûr, de controverses. Alors que nous terminons 2022 et nous préparons à accueillir 2023, voici les tendances générales les plus notables en matière d’apprentissage profond cette année.
Un thème qui est resté constant dans l'apprentissage profond au cours des dernières années est la volonté de créer des réseaux de neurones plus vastes. La disponibilité des ressources informatiques permet le développement d'architectures évolutives telles que des réseaux neuronaux évolutifs ainsi que du matériel d'IA spécialisé, de grands ensembles de données et des modèles de transformateurs.
Actuellement, les entreprises obtiennent de meilleurs résultats en étendant les réseaux de neurones à des échelles plus grandes. L'année dernière, DeepMind a publié Gopher, un grand modèle de langage (LLM) avec 280 milliards de paramètres ; Google a publié le modèle de langage Pathways (PaLM) avec 540 milliards de paramètres et le modèle de langage général (GLaM) avec jusqu'à 1 200 milliards de paramètres. Microsoft et NVIDIA ont publié Megatron-Turing NLG, un LLM de 530 milliards de paramètres.
L'un des aspects intéressants de l'échelle est la capacité d'émerger, où des modèles plus grands accomplissent avec succès des tâches qui seraient impossibles pour des modèles plus petits. Ce phénomène est particulièrement intéressant dans les LLM, où à mesure que l'échelle augmente, les modèles montrent des résultats prometteurs sur un plus large éventail de tâches et de tests.
Cependant, il convient de noter que même dans les modèles les plus grands, certains problèmes fondamentaux du deep learning restent non résolus (nous y reviendrons plus tard).
De nombreuses applications d'apprentissage profond réussies nécessitent que les humains étiquetent les exemples de formation, également appelés apprentissage supervisé. Mais la plupart des données disponibles sur Internet ne sont pas accompagnées des étiquettes claires requises pour l’apprentissage supervisé. L'annotation des données est coûteuse et lente, créant des goulots d'étranglement. C'est pourquoi les chercheurs recherchent depuis longtemps des progrès dans l'apprentissage non supervisé, dans lequel les modèles d'apprentissage profond sont formés sans données annotées par l'homme.
Ce domaine a fait d'énormes progrès ces dernières années, notamment dans le domaine des LLM, qui sont pour la plupart formés sur des ensembles massifs de données brutes collectées sur Internet. Alors que le LL.M continue de gagner du terrain en 2022, nous constatons également que d’autres tendances en matière de techniques d’apprentissage non supervisé gagnent en popularité.
Par exemple, les modèles texte-image ont fait des progrès incroyables cette année. Des modèles tels que DALL-E 2 d’OpenAI, Imagen de Google et Stable Diffusion de Stability AI démontrent la puissance de l’apprentissage non supervisé. Contrairement aux anciens modèles de conversion texte-image qui nécessitent des paires d'images et de descriptions bien annotées, ces modèles utilisent de grands ensembles de données d'images faiblement sous-titrées qui existent déjà sur Internet. La taille même de leur ensemble de données de formation (ce qui n'est possible que parce qu'aucun étiquetage manuel n'est requis) et la variabilité des schémas de sous-titres permettent à ces modèles de trouver une variété de modèles complexes entre les informations textuelles et visuelles. Par conséquent, ils sont plus flexibles dans la génération d’images pour diverses descriptions.
Les générateurs de texte en image ont une autre fonctionnalité intéressante : ils combinent plusieurs types de données dans un seul modèle. Être capable de gérer plusieurs modèles permet aux modèles d'apprentissage profond d'effectuer des tâches plus complexes.
La multimodalité est très importante pour l'intelligence humaine et animale. Par exemple, lorsque vous voyez un arbre et entendez le vent bruisser dans ses branches, votre cerveau peut rapidement les connecter. De même, lorsque vous voyez le mot « arbre », vous pouvez rapidement évoquer l’image d’un arbre, vous souvenir de l’odeur des pins après la pluie ou vous rappeler d’autres expériences que vous avez vécues auparavant.
De toute évidence, la multimodalité joue un rôle important en rendant les systèmes d'apprentissage profond plus flexibles. Ceci est peut-être mieux démontré par Gato de DeepMind, un modèle d'apprentissage en profondeur formé sur une variété de types de données, notamment des images, du texte et des données proprioceptives. Gato excelle dans plusieurs tâches, notamment le sous-titrage d'images, le dialogue interactif, le contrôle des bras robotiques et les jeux. Cela contraste avec les modèles classiques d’apprentissage en profondeur conçus pour effectuer une seule tâche.
Certains chercheurs ont proposé le concept selon lequel nous n'avons besoin que de systèmes comme Gato pour mettre en œuvre l'intelligence artificielle (AGI). Bien que de nombreux scientifiques ne soient pas d’accord avec ce point de vue, il est certain que la multimodalité a apporté d’importantes avancées en matière d’apprentissage profond.
Malgré les réalisations impressionnantes du deep learning, certains problèmes dans le domaine restent non résolus. Ceux-ci incluent la causalité, la compositionnalité, le bon sens, le raisonnement, la planification, la physique intuitive, ainsi que l’abstraction et l’analogie.
Voici quelques mystères de l'intelligence qui sont encore étudiés par des scientifiques dans différents domaines. Les approches d’apprentissage profond purement basées sur des données et à grande échelle ont permis de réaliser des progrès progressifs sur certains de ces problèmes, mais n’ont pas réussi à fournir des solutions claires.
Par exemple, un LLM plus volumineux peut maintenir la cohérence et l'homogénéité de textes plus longs. Mais ils ont échoué dans des tâches qui nécessitaient un raisonnement et une planification minutieux, étape par étape.
De même, les générateurs de texte en image créent des graphiques époustouflants mais commettent des erreurs fondamentales lorsqu'on leur demande de dessiner des images qui nécessitent une composition ou ont des descriptions complexes.
Différents scientifiques discutent et explorent ces défis, y compris certains pionniers du deep learning. Le plus célèbre d’entre eux est Yann LeCun, inventeur des réseaux de neurones convolutifs (CNN), lauréat du prix Turing, qui a récemment écrit un long article sur les limites des LLM qui apprennent uniquement du texte. LeCun travaille sur une architecture d'apprentissage en profondeur capable d'apprendre un modèle du monde et de résoudre certains des défis auxquels le domaine est actuellement confronté.
Le deep learning a parcouru un long chemin. Mais plus nous progressons, plus nous réalisons les défis liés à la création de systèmes véritablement intelligents. L’année prochaine sera certainement aussi excitante que cette année.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!