


Bilan de fin d'année : les dix startups de science des données et d'apprentissage automatique les plus en vogue en 2022
À mesure que les entreprises traitent des quantités croissantes de données (à la fois générées au sein de l'organisation et collectées à partir de sources externes), il devient de plus en plus impératif de trouver des moyens efficaces d'analyser et de « manipuler » ces données pour obtenir un avantage concurrentiel.
Cela stimule également la demande de nouveaux outils et technologies dans les domaines de la science des données et de l'apprentissage automatique. Selon le rapport « Fortune Business Insights », le marché mondial de l'apprentissage automatique atteindra 15,44 milliards de dollars américains en 2021 et atteindra 21,17 milliards de dollars américains cette année. Il devrait atteindre 209,91 milliards de dollars américains d'ici 2029, avec un taux de croissance annuel composé de . 38,8%.
Dans le même temps, selon un rapport d'Allied Market Research, la taille du marché mondial des plateformes de science des données était de 4,7 milliards de dollars en 2020 et devrait atteindre 79,7 milliards de dollars d'ici 2030, avec un taux de croissance annuel composé de 33,6 %. .
« Science des données » et « apprentissage automatique » peuvent parfois sembler un peu déroutants, voire utilisés de manière interchangeable. Il s’agit en fait de deux concepts différents, mais ils sont liés car les pratiques de science des données sont essentielles aux projets d’apprentissage automatique.
Selon la définition du site Web du Master en science des données, la science des données est un domaine d'études qui utilise des méthodes scientifiques pour extraire du sens et des informations à partir des données, notamment en formulant des stratégies d'analyse de données, en préparant les données pour l'analyse, en développant des visualisations de données et en construisant modèles de données.
Selon le rapport « Fortune Business Insights », l'apprentissage automatique est une sous-section du domaine plus large de l'intelligence artificielle. Il fait référence à l'utilisation de l'analyse de données pour enseigner aux ordinateurs comment apprendre (c'est-à-dire imiter les méthodes d'apprentissage humaines) à l'aide d'algorithmes. et le modèle des données.
La demande en outils de science des données et d'apprentissage automatique a donné naissance à un certain nombre de startups développant des technologies de pointe dans le domaine de la science des données ou de l'apprentissage automatique. Jetons un coup d'œil à 10 d'entre elles :
- Aporia
- Baseten
- . Deci
- Galileo
- Neuton
- Pinecone
- Predibase
- Snorkel AI
- Vectice
- Verta
Aporia
Aporia développe une plateforme d'observabilité d'apprentissage automatique full-stack et hautement personnalisable , la science des données et le Machine Learning peuvent utiliser la plate-forme pour surveiller, déboguer, interpréter et améliorer les modèles et les données d'apprentissage automatique.
Aporia a été fondée en 2020 et a reçu 25 millions de dollars supplémentaires en financement de série A en mars 2022, 10 mois après avoir reçu 5 millions de dollars en financement de démarrage.
Aporia utilisera ce financement pour tripler la taille de ses effectifs d'ici début 2023, tout en élargissant sa présence aux États-Unis et en élargissant la gamme de cas d'utilisation couverts par sa technologie.
Baseten
Baseten a été officiellement lancé en avril de cette année, fournissant des produits capables d'accélérer le processus depuis le développement de modèles d'apprentissage automatique jusqu'aux applications de niveau production.
Selon Baseten, la technologie, qui est en version bêta interne depuis l'été 2021, peut automatiser de nombreuses compétences requises pour mettre en production des modèles d'apprentissage automatique, aidant ainsi les équipes de science des données et d'apprentissage automatique à intégrer l'apprentissage automatique dans les processus métier, sans backend. , frontend ou connaissances MLOps requises.
Baseten a été fondée en 2019 par le PDG Tuhin Srivastava, le directeur de la technologie Amir Haghighat et le scientifique en chef Philip Howes, qui ont tous travaillé auparavant chez le développeur de plateforme de commerce électronique Gumroad. Baseten a levé 12 millions de dollars en financement de série A en avril de cette année, après un précédent financement de démarrage de 8 millions de dollars.
Deci
Deci a développé une plateforme de développement d'apprentissage profond pour créer la prochaine génération d'applications d'intelligence artificielle et d'apprentissage profond. La technologie de Deci est conçue pour aider à combler le « déficit d’efficacité de l’IA », où le matériel informatique est incapable de répondre aux exigences des modèles d’apprentissage automatique dont la taille et la complexité augmentent.
La plateforme Deci prend en compte la production dès le début du cycle de vie du développement, aidant les data scientists à combler cette lacune et à réduire le temps et le coût de résolution des problèmes lors du déploiement de modèles en production. Selon Deci, la plate-forme intègre la technologie exclusive AutoNAC (Automatic Neural Architecture Construction) de Deci pour fournir « un paradigme de développement plus efficace » pour aider les développeurs d’IA à créer des modèles d’apprentissage en profondeur à l’aide d’une « recherche d’architecture neuronale » sensible au matériel pour répondre à des objectifs de demande de production spécifiques. .
Deci a été fondée en 2019 et a reçu 25 millions de dollars de financement de série B dirigé par Insight Partners en juillet de cette année. Il y a à peine 7 mois, Deci venait de recevoir 21 millions de dollars de financement de série A.
Galileo
Galileo a développé une plateforme d'intelligence des données d'apprentissage automatique pour les données non structurées, permettant aux scientifiques des données d'inspecter, de découvrir et de corriger les erreurs critiques d'apprentissage automatique tout au long du cycle de vie de l'apprentissage automatique.
Début novembre de cette année, Galileo a lancé une version gratuite de la plateforme, Galileo Community Edition, permettant aux data scientists engagés dans le traitement du langage naturel d'utiliser des données d'entraînement de meilleure qualité pour créer des modèles plus rapidement.
Galileo est sorti du mode furtif lorsqu'il a reçu 5,1 millions de dollars de financement de démarrage en mai de cette année, puis le 1er novembre, il a reçu 18 millions de dollars de financement de série A dirigé par Battery Ventures. Les cofondateurs de Galileo comprennent le PDG Vikram Chatterji, qui était responsable de la gestion des projets d'IA cloud chez Google ; Atindriyo Sanyal, ancien ingénieur logiciel chez Apple et Uber ; et Yash Sheth, ancien ingénieur logiciel du système de reconnaissance vocale de Google.
Neuton
Fondée en 2021, Neuton développe une plateforme automatisée « tinyML » sans code et d'autres outils pour développer de minuscules modèles d'apprentissage automatique qui peuvent être intégrés dans des microcontrôleurs pour rendre les appareils de pointe intelligents.
La technologie de Neuton est utilisée dans un large éventail d'applications, notamment la maintenance prédictive des pompes à eau des compresseurs, la prévention des surcharges du réseau, la détection de l'occupation des pièces, la reconnaissance de l'écriture manuscrite sur les appareils portables, la prévision des pannes de transmission et les équipements de surveillance de la pollution de l'eau.
Pinecone
La base de données vectorielles et la technologie de recherche développées par Pinecone prennent principalement en charge les applications d'intelligence artificielle et d'apprentissage automatique. En octobre 2021, Pinecone a lancé Pinecone 2.0, faisant passer le logiciel des laboratoires de recherche aux applications de production.
Pinecone a été fondée en 2019, officiellement lancée l'année dernière et a reçu 10 millions de dollars américains en financement d'amorçage en janvier 2021 et 28 millions de dollars américains en financement de série A en mars de cette année.
En octobre de cette année, Pinecone a élargi son portefeuille d'infrastructures de recherche d'apprentissage automatique avec le lancement d'une nouvelle solution de « recherche vectorielle » qui combine des capacités de recherche sémantique et par mot clé.
Gartner a nommé Pinecone « Cool Vendor » dans le domaine de l'intelligence artificielle et des données d'apprentissage automatique en 2021.
Predibase
En mai de cette année, Predibase est sorti du mode furtif avec une plate-forme d'apprentissage automatique low-code qui permet aux scientifiques des données et aux non-experts de développer rapidement des modèles d'apprentissage automatique avec la meilleure infrastructure d'apprentissage automatique de sa catégorie. . Le logiciel est actuellement utilisé en version bêta dans de nombreuses entreprises Fortune 500.
Predibase propose sa technologie comme alternative à l'AutoML traditionnel pour développer des modèles d'apprentissage automatique afin de résoudre des problèmes du monde réel. La plate-forme utilise l'apprentissage automatique déclaratif, qui, selon Predibase, permet aux utilisateurs de spécifier des modèles d'apprentissage automatique sous forme de « configurations » ou de simples fichiers, indiquant au système ce que veut l'utilisateur et laissant le système déterminer la meilleure façon de répondre à ce besoin.
Predibase a été cofondée par le PDG Piero Molino, le directeur de la technologie Travis Addair, le directeur des produits Devvret Rishi et le professeur agrégé de l'Université de Stanford Chris Molino et Addair ont tous deux travaillé chez Uber. Chez Uber, les deux ont développé le framework open source Ludwig pour les modèles d'apprentissage profond et le framework open source Horovod pour étendre et distribuer la formation des modèles d'apprentissage profond à des données massives (Predibase est construit sur Ludwig et Horovod.)
En mai de cette année , Predibase a reçu 16,5 millions de dollars américains en financement d'amorçage et de série A dirigé par Greylock.
Snorkel AI
Snorkel a été fondée en 2019 et est issue du laboratoire d'intelligence artificielle de l'université de Stanford, où les cinq fondateurs de l'entreprise ont travaillé sur des moyens de résoudre le problème du manque de données d'entraînement étiquetées pour le développement de l'apprentissage automatique.
Snorkel a développé Snorkel Flow, un système centré sur les données qui accélère le travail manuel grâce à l'utilisation de l'étiquetage programmatique, une étape clé dans la préparation des données et le développement et la formation de modèles d'apprentissage automatique, et entièrement lancé sur le marché en mars de cette année. de l'intelligence et de l'apprentissage automatique.
La valorisation de Snorkel a atteint 1 milliard de dollars en août 2021, lorsque la startup a obtenu 85 millions de dollars en financement de série C, utilisant les fonds pour développer ses équipes d'ingénierie et de vente et accélérer le développement de la plateforme.
Vectice
Vectice développe une solution automatisée de capture et de partage de connaissances en science des données. La technologie de Vectice capture automatiquement les actifs que les équipes de science des données créent pour les projets, notamment les ensembles de données, le code, les modèles, les blocs-notes, les exécutions et les illustrations, et génère de la documentation tout au long du cycle de vie du projet, depuis les exigences commerciales jusqu'au déploiement en production.
Le logiciel de Vectice est censé aider les entreprises à gérer la transparence, la gouvernance et l'alignement avec les projets d'IA et d'apprentissage automatique et à fournir des résultats de projet cohérents.
Vectice, fondée en 2020 par le PDG Cyril Brignone et le CTO Gregory Haardt, a reçu 12,6 millions de dollars en financement de série A en janvier de cette année, portant le financement total à 15,6 millions de dollars.
Verta
Verta développe un logiciel de gestion et d'exploitation de modèles IA/ML qui permet aux équipes de science des données et d'apprentissage automatique de déployer, d'exploiter, de gérer et de surveiller la complexité inhérente au déploiement, à l'exploitation, à la gestion et à la surveillance de l'ensemble du modèle IA et ML. cycle de vie.
En août de cette année, Verta a amélioré les capacités d'entreprise de sa plate-forme MLOps, notamment en ajoutant un écosystème d'intégration natif, des fonctionnalités supplémentaires en matière de sécurité d'entreprise, de confidentialité et de contrôle d'accès, ainsi que de gestion des risques de modèle.
Verta a été fondée en 2018 et officiellement lancée en 2020. Cette année, elle a été nommée « Cool Vendor » dans le domaine principal de la technologie de l'IA par Gartner.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

Cet article présentera comment identifier efficacement le surajustement et le sous-apprentissage dans les modèles d'apprentissage automatique grâce à des courbes d'apprentissage. Sous-ajustement et surajustement 1. Surajustement Si un modèle est surentraîné sur les données de sorte qu'il en tire du bruit, alors on dit que le modèle est en surajustement. Un modèle surajusté apprend chaque exemple si parfaitement qu'il classera mal un exemple inédit/inédit. Pour un modèle surajusté, nous obtiendrons un score d'ensemble d'entraînement parfait/presque parfait et un score d'ensemble/test de validation épouvantable. Légèrement modifié : "Cause du surajustement : utilisez un modèle complexe pour résoudre un problème simple et extraire le bruit des données. Parce qu'un petit ensemble de données en tant qu'ensemble d'entraînement peut ne pas représenter la représentation correcte de toutes les données."

En termes simples, un modèle d’apprentissage automatique est une fonction mathématique qui mappe les données d’entrée à une sortie prédite. Plus précisément, un modèle d'apprentissage automatique est une fonction mathématique qui ajuste les paramètres du modèle en apprenant à partir des données d'entraînement afin de minimiser l'erreur entre la sortie prédite et la véritable étiquette. Il existe de nombreux modèles dans l'apprentissage automatique, tels que les modèles de régression logistique, les modèles d'arbre de décision, les modèles de machines à vecteurs de support, etc. Chaque modèle a ses types de données et ses types de problèmes applicables. Dans le même temps, il existe de nombreux points communs entre les différents modèles, ou il existe une voie cachée pour l’évolution du modèle. En prenant comme exemple le perceptron connexionniste, en augmentant le nombre de couches cachées du perceptron, nous pouvons le transformer en un réseau neuronal profond. Si une fonction noyau est ajoutée au perceptron, elle peut être convertie en SVM. celui-ci

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

MetaFAIR s'est associé à Harvard pour fournir un nouveau cadre de recherche permettant d'optimiser le biais de données généré lors de l'apprentissage automatique à grande échelle. On sait que la formation de grands modèles de langage prend souvent des mois et utilise des centaines, voire des milliers de GPU. En prenant comme exemple le modèle LLaMA270B, sa formation nécessite un total de 1 720 320 heures GPU. La formation de grands modèles présente des défis systémiques uniques en raison de l’ampleur et de la complexité de ces charges de travail. Récemment, de nombreuses institutions ont signalé une instabilité dans le processus de formation lors de la formation des modèles d'IA générative SOTA. Elles apparaissent généralement sous la forme de pics de pertes. Par exemple, le modèle PaLM de Google a connu jusqu'à 20 pics de pertes au cours du processus de formation. Le biais numérique est à l'origine de cette imprécision de la formation,
