Sur la base de ce que nous avons vu jusqu'à présent en 2022, Datanami est convaincu de pouvoir faire ces cinq prédictions pour le reste de l'année.
Le premier semestre a été énorme pour l'observabilité des données, permettant aux clients de mieux comprendre ce qui se passe avec leurs flux de données et de développer des métriques pertinentes. À mesure que les données deviennent plus importantes pour la prise de décision, leur état et leur disponibilité deviennent également plus importants.
Nous avons vu un certain nombre de startups d'observabilité des données recevoir des centaines de millions de dollars en capital-risque, notamment Cribl (150 millions de dollars de série D) ; Monte Carlo (135 millions de dollars de série D) d'une valeur de 142 $ ; millions); et autres. Parmi les autres sociétés qui font l'actualité figurent Bigeye, qui a lancé des métriques de métadonnées ; StreamSets, acquis par Software AG pour 580 millions de dollars ; et IBM, qui a acquis la startup d'observabilité Databand le mois dernier.
Cet élan se poursuivra au second semestre 2022, alors que davantage de startups d'observabilité des données sortiront du bois et que les startups existantes chercheront à consolider leurs positions sur ce marché émergent.
Les données en temps réel sont mises en veilleuse depuis des années, servant certains cas d'utilisation de niche, mais ne sont pas réellement utilisées dans les entreprises classiques. Cependant, grâce à la pandémie de COVID-19 et à la restructuration des plans d’affaires qui en a résulté au cours des dernières années, les conditions sont désormais réunies pour que les données en temps réel entrent sur la scène technologique grand public.
«Je pense que le streaming est enfin possible», a déclaré Ali Ghodsi, PDG de Databricks, lors du récent Data + AI Summit, notant une multiplication par 2,5 des charges de travail de streaming sur la plate-forme de données cloud de l'entreprise. «Ils ont de plus en plus de cas d'utilisation de l'IA qui nécessitent du temps réel.»
Les bases de données et les grilles de données en mémoire sont également sur le point de bénéficier d'une renaissance du temps réel (si tel est le cas). RocksDB, une base de données d'analyse rapide qui améliore les systèmes basés sur des événements comme Kafka, a désormais un remplaçant appelé Speedb. SingleStore, qui combine les capacités OLTP et OLAP dans un cadre relationnel unique, a atteint une valorisation de 1,3 milliard de dollars lors d'un cycle de financement le mois dernier.
Il y a aussi StarRocks, qui a récemment reçu un financement pour une nouvelle base de données OLAP rapide basée sur Apache Doris ; Imply a clôturé un cycle de série D de 100 millions de dollars en mai pour poursuivre son activité d'analyse en temps réel basée sur Apache DataStax et ajoute Apache Pulsar ; à sa boîte à outils Apache Cassandra et a levé 115 millions de dollars pour faire progresser le développement d'applications en temps réel. Datanami s'attend à ce que cette concentration sur l'analyse des données en temps réel se poursuive.
Cela fait quatre ans que le RGPD est entré en vigueur, mettant les utilisateurs du Big Data sous les projecteurs et accélérant la montée en puissance de la gouvernance des données en tant que composante nécessaire des initiatives responsables en matière de données. Aux États-Unis, la tâche de réglementer l’accès aux données incombe aux États, la Californie ouvrant la voie avec le CCPA, qui à bien des égards s’inspire du GPDR. Mais d’autres États devraient emboîter le pas, ce qui compliquera l’équation de la confidentialité des données pour les entreprises américaines.
Mais le RGPD et le CCPA ne sont que le début d’une réglementation. Nous sommes également confrontés à la disparition des cookies tiers, qui rendent plus difficile pour les entreprises de suivre le comportement en ligne des utilisateurs. La décision de Google de retarder la fin des cookies tiers sur sa plateforme jusqu'au 1er janvier 2023 donne aux marketeurs un délai supplémentaire pour s'adapter, mais les informations issues des cookies seront difficiles à reproduire.
En plus de la réglementation sur les données, nous sommes également à l'aube de nouvelles réglementations concernant l'utilisation de l'intelligence artificielle. L’UE a présenté son projet de loi sur l’intelligence artificielle en 2021, et les experts prédisent qu’il pourrait devenir une loi d’ici fin 2022 ou début 2023.
Une bataille technologique classique s'annonce comme le nouveau format de feuille de données qui déterminera comment les données sont stockées dans les systèmes Big Data, qui peut y accéder et ce que les utilisateurs peuvent en faire.
Ces derniers mois, Apache Iceberg a pris de l'ampleur en tant que nouveau standard potentiel pour les formats de tables de données. Les géants de l'entrepôt de données cloud, Snowflake et AWS, ont soutenu plus tôt cette année Iceberg, qui fournit des contrôles de données transactionnelles et autres et est issu de travaux chez Netflix et Apple. L'ancien distributeur Hadoop, Cloudera, a également soutenu Iceberg en juin.
Mais les gens de Databricks proposent une alternative tabulaire à Delta Lake qui offre des fonctionnalités similaires à Iceberg. Les bailleurs de fonds d'Apache Spark ont initialement développé le format tabulaire Delta Lake de manière exclusive, ce qui a conduit à des accusations selon lesquelles Databricks établissait un verrouillage pour les clients. Mais lors du Data + AI Summit en juin, la société a annoncé qu'elle rendrait l'intégralité du format open source, permettant à quiconque de l'utiliser.
Apache Hudi est perdu dans le mélange, qui assure également la cohérence des données puisqu'il réside dans un référentiel Big Data et est accessible par divers moteurs informatiques. Onehouse, une entreprise soutenue par les créateurs d'Apache Hudi, a lancé une plateforme Lakehouse basée sur Hudi plus tôt cette année.
L'écosystème du big data aime la compétition, il sera donc intéressant de voir ces formats évoluer et s'affronter tout au long de l'année 2022.
Les frontières de l'IA se précisent chaque mois, et aujourd'hui, le fer de lance de l'IA réside dans les grands modèles linguistiques, qui s'améliorent de plus en plus. En fait, les grands modèles de langage sont devenus si efficaces qu'en juin, un ingénieur de Google a affirmé que le système conversationnel LaMDA de l'entreprise était devenu sensible.
L’intelligence artificielle n’est pas encore sensible, mais cela ne veut pas dire qu’elle n’est pas utile aux entreprises. Pour rappel, Salesforce dispose d'un grand projet de modélisation de langage (LLM) appelé CodeGen, conçu pour comprendre le code source et même générer son propre code dans différents langages de programmation.
Le mois dernier, Meta (la société mère de Facebook) a lancé un modèle linguistique massif capable de traduire 200 langues. Nous avons également assisté à des efforts visant à démocratiser l’IA à travers des projets tels que le BigScience Large Open Science Open Access Multilingual Language Model, ou BLOOM.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!