


La gestion des données est devenue le plus grand goulot d'étranglement dans le développement de l'intelligence artificielle
Le véritable signe de grandeur en matière d’infrastructure est qu’il est facile de l’ignorer en la faisant voler. Plus il est performant, moins on y pense. Par exemple, l’importance de l’infrastructure mobile ne nous vient à l’esprit que lorsque nous avons du mal à nous connecter. Tout comme lorsque nous roulons sur une nouvelle autoroute fraîchement pavée, nous ne prêtons guère attention à la surface de la route qui passe silencieusement sous nos roues. En revanche, une autoroute mal entretenue nous rappelle son existence à chaque nid-de-poule, gazon et bosse que nous rencontrons.
Les infrastructures n’ont besoin de notre attention que lorsqu’elles sont manquantes, inadéquates ou endommagées. Et dans la vision par ordinateur, l’infrastructure – ou plutôt ce qui en manque – est ce qui préoccupe actuellement de nombreuses personnes.
Le calcul établit la norme en matière d'infrastructure
Chaque projet d'IA/ML (y compris la vision par ordinateur) repose sur trois piliers de développement de base : les données, les algorithmes/modèles et le calcul. Parmi ces trois piliers, l’informatique est de loin celui doté de l’infrastructure la plus puissante et la plus solide. Avec des décennies d'investissement et de développement dédiés aux entreprises, le cloud computing est devenu la référence en matière d'infrastructure informatique dans les environnements informatiques d'entreprise, et la vision par ordinateur ne fait pas exception.
Dans un modèle d'infrastructure en tant que service, les développeurs bénéficient d'un accès à la demande et avec paiement à l'utilisation à un pipeline de puissance de calcul en constante expansion depuis près de 20 ans. Au cours de cette période, il a révolutionné l’informatique d’entreprise en améliorant considérablement l’agilité, la rentabilité, l’évolutivité et bien plus encore. Avec l’avènement des GPU dédiés au machine learning, on peut affirmer sans se tromper que cette partie de la pile d’infrastructure de vision par ordinateur est bel et bien vivante. Si nous voulons voir la vision par ordinateur et l’IA réaliser leur plein potentiel, il serait judicieux d’utiliser le calcul comme modèle sur lequel repose le reste de la pile d’infrastructure CV.
Lignée et limites du développement piloté par les modèles
Jusqu'à récemment, le développement d'algorithmes et de modèles a été le moteur du développement de la vision par ordinateur et de l'intelligence artificielle. Tant du côté de la recherche que du développement commercial, les équipes ont travaillé dur pendant des années pour tester, corriger et améliorer progressivement les modèles IA/ML, et partager leurs progrès dans les communautés open source comme Kaggle. Les domaines de la vision par ordinateur et de l’intelligence artificielle ont fait de grands progrès au cours des deux premières décennies du nouveau millénaire en concentrant leurs efforts sur le développement et la modélisation d’algorithmes.
Cependant, ces dernières années, ces progrès ont ralenti car l'optimisation centrée sur le modèle viole la loi des rendements décroissants. De plus, les approches centrées sur les modèles présentent plusieurs limites. Par exemple, vous ne pouvez pas utiliser les mêmes données pour l'entraînement, puis recycler le modèle. Les approches centrées sur les modèles nécessitent également davantage de travail manuel en termes de nettoyage des données, de validation des modèles et de formation, ce qui peut faire perdre un temps et des ressources précieux à des tâches génératrices de revenus plus innovantes.
Aujourd'hui, grâce à des communautés comme Hugging Face, les équipes CV ont un accès gratuit et ouvert à une vaste gamme d'algorithmes, de modèles et d'architectures vastes et complexes, chacun prenant en charge différentes capacités de base du CV - de la reconnaissance d'objets et de repères faciaux à l'estimation de pose et aux fonctionnalités. correspondant. Ces actifs sont devenus aussi proches d'une solution « prêt à l'emploi » qu'on pourrait l'imaginer : fournissant aux équipes de vision par ordinateur et d'IA un tableau blanc prêt à l'emploi pour se former sur un certain nombre de tâches et de cas d'utilisation spécialisés.
Tout comme les capacités humaines de base telles que la coordination œil-main peuvent être appliquées et entraînées à une variété de compétences différentes - du tennis de table au lancer - ces algorithmes ML modernes peuvent également être entraînés pour exécuter une gamme d'applications spécifiques. Cependant, alors que les humains se spécialisent au fil des années de pratique et de sueur, les machines y parviennent grâce à la formation sur les données.
Intelligence artificielle centrée sur les données et goulots d'étranglement du Big Data
Cela a incité de nombreuses personnalités du domaine de l'intelligence artificielle à appeler à une nouvelle ère de développement de l'apprentissage profond - une ère dans laquelle le principal moteur de progrès est les données. Il y a quelques années à peine, Andrew Ng et d’autres ont annoncé que l’orientation vers les données était la direction du développement de l’IA. Durant cette courte période, l’industrie a prospéré. En quelques années seulement, une pléthore de nouvelles applications commerciales et de cas d'utilisation de la vision par ordinateur ont vu le jour, couvrant un large éventail d'industries, de la robotique et de l'AR/VR à la construction automobile et à la sécurité domestique.
Récemment, nous avons mené des recherches sur la détection des mains sur le volant dans les voitures en utilisant une approche centrée sur les données. Nos expériences montrent qu'en utilisant cette approche et des données synthétiques, nous sommes capables d'identifier et de générer des cas extrêmes spécifiques qui manquent dans l'ensemble de données de formation.
Datagen génère des images synthétiques pour le test du volant en main (Image fournie par : Datagen)
Bien que l'industrie de la vision par ordinateur soit en pleine effervescence au sujet des données, elles ne sont pas toutes fanatiques. Bien que le domaine ait établi que les données constituent la voie à suivre, le chemin comporte de nombreux obstacles et pièges, dont beaucoup ont déjà entravé les équipes CV. Une récente enquête menée auprès de professionnels américains de la vision par ordinateur a révélé que le domaine est en proie à de longs retards dans les projets, à des processus non standardisés et à un manque de ressources, qui proviennent tous des données. Dans la même enquête, 99 % des personnes interrogées ont déclaré qu'au moins un projet de CV avait été annulé indéfiniment en raison de données de formation insuffisantes.
Même les 1% chanceux qui ont évité l'annulation d'un projet jusqu'à présent ne peuvent pas éviter les retards du projet. Dans l'enquête, tous les répondants ont déclaré avoir subi des retards importants dans leurs projets en raison de données de formation insuffisantes ou insuffisantes, 80 % d'entre eux ayant signalé des retards de trois mois ou plus. En fin de compte, le but de l’infrastructure est un objectif d’utilité : faciliter, accélérer ou communiquer. Dans un monde où les retards importants font partie intégrante des activités commerciales, il est clair qu'il manque certaines infrastructures vitales.
Les données de formation traditionnelles défient l'infrastructure
Cependant, contrairement à l'informatique et aux algorithmes, le troisième pilier du développement de l'IA/ML ne se prête pas à l'infrastructure - en particulier dans le domaine de la vision par ordinateur, où de grandes quantités de données sont désorganisées et très chronophages. la collecte et la gestion nécessitent beaucoup de ressources. Bien qu'il existe de nombreuses bases de données de formation visuelle labellisées et disponibles gratuitement en ligne (telles que la désormais célèbre base de données ImageNet), elles se sont révélées insuffisantes à elles seules en tant que source de données de formation pour le développement de CV commerciaux.
En effet, contrairement aux modèles qui généralisent par conception, les données d'entraînement sont par nature spécifiques à une application. Les données sont ce qui distingue une application d'un modèle donné d'une autre et doivent donc être uniques non seulement à une tâche spécifique, mais également à l'environnement ou au contexte dans lequel cette tâche est exécutée. Contrairement à la puissance de calcul, qui peut être générée et accessible à la vitesse de la lumière, les données visuelles traditionnelles doivent être créées ou collectées par des humains (en prenant des photos sur le terrain ou en recherchant des images appropriées sur Internet), puis minutieusement nettoyées et étiquetées par des humains. (il s'agit d'un processus sujet aux erreurs humaines, aux incohérences et aux préjugés).
Cela soulève la question : « Comment pouvons-nous créer des visualisations de données qui soient à la fois adaptées à des applications spécifiques et facilement banalisées (c'est-à-dire rapides, bon marché et polyvalentes) ? » Bien que ces deux qualités puissent sembler contradictoires, le potentiel de la solution a émergé. il s'avère très prometteur comme moyen de concilier ces deux qualités fondamentales mais apparemment incompatibles.
Chemin d'accès aux données synthétiques et à la pile de CV complète
La vision par ordinateur (CV) est l'un des principaux domaines de l'intelligence artificielle moderne
Produire des applications avec des applications spécifiques et économiser du temps et des ressources à La seule façon de visualiser les données d'entraînement est d'utiliser des données synthétiques. Pour ceux qui ne connaissent pas ce concept, les données synthétiques sont des informations générées par l’homme et conçues pour représenter fidèlement un équivalent du monde réel. En termes de données visuelles synthétiques, cela signifie des images 3D réalistes générées par ordinateur (CGI) sous la forme d’images fixes ou de vidéos.
En réponse aux nombreux problèmes apparus à l'ère des centres de données, une industrie émergente a commencé à se former autour de la génération de données synthétiques - un écosystème croissant de petites et moyennes startups proposant une variété de solutions exploitant les données synthétiques pour résoudre les problèmes énumérés ci-dessus une série de points douloureux.
Les solutions les plus prometteuses utilisent des algorithmes d'IA/ML pour générer des images 3D photoréalistes et générer automatiquement la vérité terrain associée (c'est-à-dire des métadonnées) pour chaque point de données. Les données synthétiques éliminent donc le processus manuel d’étiquetage et d’annotation qui dure souvent des mois, tout en éliminant également la possibilité d’erreur humaine et de biais.
Dans notre article (publié à NeurIPS 2021), Découvrir les biais de groupe dans la détection de repères faciaux à l'aide de données synthétiques, nous avons constaté que pour analyser les performances d'un modèle entraîné et identifier ses faiblesses, il est nécessaire de mettre de côté une partie des données. pour les tests. L'ensemble de tests doit être suffisamment grand pour détecter des écarts statistiquement significatifs par rapport à tous les sous-groupes pertinents au sein de la population cible. Cette exigence peut être difficile à satisfaire, en particulier dans les applications gourmandes en données.
Nous proposons de surmonter cette difficulté en générant des ensembles de tests synthétiques. Nous validons notre proposition en utilisant la tâche de détection de repères faciaux en montrant que tous les biais observés sur des ensembles de données réels peuvent également être observés sur des ensembles de données synthétiques bien conçus. Cela montre que les ensembles de tests synthétiques peuvent détecter efficacement les faiblesses du modèle et surmonter les limitations de taille ou de diversité des ensembles de tests réels.
Aujourd'hui, les startups fournissent aux équipes CV des entreprises des plates-formes de génération de données synthétiques en libre-service éprouvées qui atténuent les biais et permettent d'étendre la collecte de données. Ces plates-formes permettent aux équipes CV des entreprises de générer des données de formation spécifiques à un cas d'utilisation, de manière mesurée et à la demande, comblant ainsi le fossé entre spécificité et échelle qui rend les données traditionnelles impropres à l'infrastructure.
De nouveaux espoirs pour les soi-disant « gestionnaires de données » de la vision par ordinateur
Il est indéniable que nous vivons une période passionnante pour le domaine de la vision par ordinateur. Mais comme dans tout autre domaine en évolution, nous traversons une période difficile. De grands talents et des esprits brillants se précipitent dans un domaine plein d'idées et d'enthousiasme, pour se retrouver freinés par le manque de pipelines de données adéquats. Le domaine est tellement embourbé dans l’inefficacité que les data scientists sont aujourd’hui connus pour être un domaine dans lequel une organisation sur trois est déjà aux prises avec un déficit de compétences, et nous ne pouvons pas nous permettre de gaspiller de précieuses ressources humaines.
Les données synthétiques ouvrent la porte à une véritable infrastructure de données d'entraînement - un jour, cela pourrait être aussi simple que d'ouvrir le robinet pour un verre d'eau ou de fournir des calculs. Ce sera certainement un rafraîchissement bienvenu pour les gestionnaires de données du monde entier.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

La détection d'objets est une tâche importante dans le domaine de la vision par ordinateur, utilisée pour identifier des objets dans des images ou des vidéos et localiser leur emplacement. Cette tâche est généralement divisée en deux catégories d'algorithmes, à une étape et à deux étapes, qui diffèrent en termes de précision et de robustesse. Algorithme de détection de cible en une seule étape L'algorithme de détection de cible en une seule étape convertit la détection de cible en un problème de classification. Son avantage est qu'il est rapide et peut terminer la détection en une seule étape. Cependant, en raison d'une simplification excessive, la précision n'est généralement pas aussi bonne que celle de l'algorithme de détection d'objets en deux étapes. Les algorithmes courants de détection d'objets en une seule étape incluent YOLO, SSD et FasterR-CNN. Ces algorithmes prennent généralement l’image entière en entrée et exécutent un classificateur pour identifier l’objet cible. Contrairement aux algorithmes traditionnels de détection de cibles en deux étapes, ils n'ont pas besoin de définir des zones à l'avance, mais de prédire directement

La restauration de photos anciennes est une méthode d'utilisation de la technologie de l'intelligence artificielle pour réparer, améliorer et améliorer de vieilles photos. Grâce à des algorithmes de vision par ordinateur et d’apprentissage automatique, la technologie peut identifier et réparer automatiquement les dommages et les imperfections des anciennes photos, les rendant ainsi plus claires, plus naturelles et plus réalistes. Les principes techniques de la restauration de photos anciennes incluent principalement les aspects suivants : 1. Débruitage et amélioration de l'image Lors de la restauration de photos anciennes, elles doivent d'abord être débruitées et améliorées. Des algorithmes et des filtres de traitement d'image, tels que le filtrage moyen, le filtrage gaussien, le filtrage bilatéral, etc., peuvent être utilisés pour résoudre les problèmes de bruit et de taches de couleur, améliorant ainsi la qualité des photos. 2. Restauration et réparation d'images Les anciennes photos peuvent présenter certains défauts et dommages, tels que des rayures, des fissures, une décoloration, etc. Ces problèmes peuvent être résolus par des algorithmes de restauration et de réparation d’images

La reconstruction d'images en super-résolution est le processus de génération d'images haute résolution à partir d'images basse résolution à l'aide de techniques d'apprentissage en profondeur, telles que les réseaux neuronaux convolutifs (CNN) et les réseaux contradictoires génératifs (GAN). Le but de cette méthode est d'améliorer la qualité et les détails des images en convertissant des images basse résolution en images haute résolution. Cette technologie trouve de nombreuses applications dans de nombreux domaines, comme l’imagerie médicale, les caméras de surveillance, les images satellites, etc. Grâce à la reconstruction d’images en super-résolution, nous pouvons obtenir des images plus claires et plus détaillées, ce qui permet d’analyser et d’identifier plus précisément les cibles et les caractéristiques des images. Méthodes de reconstruction Les méthodes de reconstruction d'images en super-résolution peuvent généralement être divisées en deux catégories : les méthodes basées sur l'interpolation et les méthodes basées sur l'apprentissage profond. 1) Méthode basée sur l'interpolation Reconstruction d'images en super-résolution basée sur l'interpolation

L'algorithme SIFT (Scale Invariant Feature Transform) est un algorithme d'extraction de caractéristiques utilisé dans les domaines du traitement d'images et de la vision par ordinateur. Cet algorithme a été proposé en 1999 pour améliorer les performances de reconnaissance et de correspondance d'objets dans les systèmes de vision par ordinateur. L'algorithme SIFT est robuste et précis et est largement utilisé dans la reconnaissance d'images, la reconstruction tridimensionnelle, la détection de cibles, le suivi vidéo et d'autres domaines. Il obtient l'invariance d'échelle en détectant les points clés dans plusieurs espaces d'échelle et en extrayant des descripteurs de caractéristiques locales autour des points clés. Les principales étapes de l'algorithme SIFT comprennent la construction d'un espace d'échelle, la détection des points clés, le positionnement des points clés, l'attribution de directions et la génération de descripteurs de caractéristiques. Grâce à ces étapes, l’algorithme SIFT peut extraire des fonctionnalités robustes et uniques, permettant ainsi un traitement d’image efficace.

Le suivi d'objets est une tâche importante en vision par ordinateur et est largement utilisé dans la surveillance du trafic, la robotique, l'imagerie médicale, le suivi automatique des véhicules et d'autres domaines. Il utilise des méthodes d'apprentissage profond pour prédire ou estimer la position de l'objet cible dans chaque image consécutive de la vidéo après avoir déterminé la position initiale de l'objet cible. Le suivi d'objets a un large éventail d'applications dans la vie réelle et revêt une grande importance dans le domaine de la vision par ordinateur. Le suivi d'objets implique généralement le processus de détection d'objets. Voici un bref aperçu des étapes de suivi des objets : 1. Détection d'objets, où l'algorithme classe et détecte les objets en créant des cadres de délimitation autour d'eux. 2. Attribuez une identification (ID) unique à chaque objet. 3. Suivez le mouvement des objets détectés dans des images tout en stockant les informations pertinentes. Types de cibles de suivi de cible

Dans les domaines de l'apprentissage automatique et de la vision par ordinateur, l'annotation d'images est le processus d'application d'annotations humaines à des ensembles de données d'images. Les méthodes d’annotation d’images peuvent être principalement divisées en deux catégories : l’annotation manuelle et l’annotation automatique. L'annotation manuelle signifie que les annotateurs humains annotent les images via des opérations manuelles. Cette méthode nécessite que les annotateurs humains possèdent des connaissances et une expérience professionnelles et soient capables d'identifier et d'annoter avec précision les objets, scènes ou caractéristiques cibles dans les images. L’avantage de l’annotation manuelle est que les résultats de l’annotation sont fiables et précis, mais l’inconvénient est qu’elle prend du temps et est coûteuse. L'annotation automatique fait référence à la méthode d'utilisation de programmes informatiques pour annoter automatiquement les images. Cette méthode utilise la technologie d'apprentissage automatique et de vision par ordinateur pour réaliser une annotation automatique par des modèles de formation. Les avantages de l’étiquetage automatique sont la rapidité et le faible coût, mais l’inconvénient est que les résultats de l’étiquetage peuvent ne pas être précis.

L'intégration est un modèle d'apprentissage automatique largement utilisé dans des domaines tels que le traitement du langage naturel (NLP) et la vision par ordinateur (CV). Sa fonction principale est de transformer des données de grande dimension en un espace d'intégration de faible dimension tout en conservant les caractéristiques et les informations sémantiques des données d'origine, améliorant ainsi l'efficacité et la précision du modèle. Les modèles intégrés peuvent mapper des données similaires à des espaces d'intégration similaires en apprenant la corrélation entre les données, afin que le modèle puisse mieux comprendre et traiter les données. Le principe du modèle embarqué repose sur l'idée de représentation distribuée, qui code les informations sémantiques des données dans l'espace vectoriel en représentant chaque point de données sous forme de vecteur. L’avantage de cette méthode est que vous pouvez tirer parti des propriétés de l’espace vectoriel. Par exemple, la distance entre les vecteurs peut être utilisée.

L'apprentissage profond a connu un grand succès dans le domaine de la vision par ordinateur, et l'une des avancées importantes est l'utilisation de réseaux neuronaux convolutifs profonds (CNN) pour la classification d'images. Cependant, les CNN profonds nécessitent généralement de grandes quantités de données étiquetées et de ressources informatiques. Afin de réduire la demande en ressources informatiques et en données étiquetées, les chercheurs ont commencé à étudier comment fusionner des caractéristiques superficielles et des caractéristiques profondes pour améliorer les performances de classification des images. Cette méthode de fusion peut tirer parti de la grande efficacité de calcul des entités superficielles et de la forte capacité de représentation des entités profondes. En combinant les deux, les coûts de calcul et les exigences d’étiquetage des données peuvent être réduits tout en conservant une grande précision de classification. Cette méthode est particulièrement importante pour les scénarios d’application dans lesquels la quantité de données est faible ou les ressources informatiques limitées. Par une étude approfondie de la méthode de fusion des entités peu profondes et des entités profondes, nous pouvons approfondir
