


Prévisions technologiques des données et de l'intelligence artificielle pour le second semestre 2022
Sur la base de ce que nous avons vu jusqu'à présent en 2022, Datanami est convaincu de pouvoir faire ces cinq prédictions pour le reste de l'année.
L'observabilité des données continue de fonctionner
Le premier semestre a été énorme pour l'observabilité des données, permettant aux clients de mieux comprendre ce qui se passe avec leurs flux de données et de développer des métriques pertinentes. À mesure que les données deviennent plus importantes pour la prise de décision, leur état et leur disponibilité deviennent également plus importants.
Nous avons vu un certain nombre de startups d'observabilité des données recevoir des centaines de millions de dollars en capital-risque, notamment Cribl (150 millions de dollars de série D) ; Monte Carlo (135 millions de dollars de série D) d'une valeur de 142 $ ; millions); et autres. Parmi les autres sociétés qui font l'actualité figurent Bigeye, qui a lancé des métriques de métadonnées ; StreamSets, acquis par Software AG pour 580 millions de dollars ; et IBM, qui a acquis la startup d'observabilité Databand le mois dernier.
Cet élan se poursuivra au second semestre 2022, alors que davantage de startups d'observabilité des données sortiront du bois et que les startups existantes chercheront à consolider leurs positions sur ce marché émergent.
Les données en temps réel apparaissent
Les données en temps réel sont mises en veilleuse depuis des années, servant certains cas d'utilisation de niche, mais ne sont pas réellement utilisées dans les entreprises classiques. Cependant, grâce à la pandémie de COVID-19 et à la restructuration des plans d’affaires qui en a résulté au cours des dernières années, les conditions sont désormais réunies pour que les données en temps réel entrent sur la scène technologique grand public.
«Je pense que le streaming est enfin possible», a déclaré Ali Ghodsi, PDG de Databricks, lors du récent Data + AI Summit, notant une multiplication par 2,5 des charges de travail de streaming sur la plate-forme de données cloud de l'entreprise. «Ils ont de plus en plus de cas d'utilisation de l'IA qui nécessitent du temps réel.»
Les bases de données et les grilles de données en mémoire sont également sur le point de bénéficier d'une renaissance du temps réel (si tel est le cas). RocksDB, une base de données d'analyse rapide qui améliore les systèmes basés sur des événements comme Kafka, a désormais un remplaçant appelé Speedb. SingleStore, qui combine les capacités OLTP et OLAP dans un cadre relationnel unique, a atteint une valorisation de 1,3 milliard de dollars lors d'un cycle de financement le mois dernier.
Il y a aussi StarRocks, qui a récemment reçu un financement pour une nouvelle base de données OLAP rapide basée sur Apache Doris ; Imply a clôturé un cycle de série D de 100 millions de dollars en mai pour poursuivre son activité d'analyse en temps réel basée sur Apache DataStax et ajoute Apache Pulsar ; à sa boîte à outils Apache Cassandra et a levé 115 millions de dollars pour faire progresser le développement d'applications en temps réel. Datanami s'attend à ce que cette concentration sur l'analyse des données en temps réel se poursuive.
Croissance réglementaire
Cela fait quatre ans que le RGPD est entré en vigueur, mettant les utilisateurs du Big Data sous les projecteurs et accélérant la montée en puissance de la gouvernance des données en tant que composante nécessaire des initiatives responsables en matière de données. Aux États-Unis, la tâche de réglementer l’accès aux données incombe aux États, la Californie ouvrant la voie avec le CCPA, qui à bien des égards s’inspire du GPDR. Mais d’autres États devraient emboîter le pas, ce qui compliquera l’équation de la confidentialité des données pour les entreprises américaines.
Mais le RGPD et le CCPA ne sont que le début d’une réglementation. Nous sommes également confrontés à la disparition des cookies tiers, qui rendent plus difficile pour les entreprises de suivre le comportement en ligne des utilisateurs. La décision de Google de retarder la fin des cookies tiers sur sa plateforme jusqu'au 1er janvier 2023 donne aux marketeurs un délai supplémentaire pour s'adapter, mais les informations issues des cookies seront difficiles à reproduire.
En plus de la réglementation sur les données, nous sommes également à l'aube de nouvelles réglementations concernant l'utilisation de l'intelligence artificielle. L’UE a présenté son projet de loi sur l’intelligence artificielle en 2021, et les experts prédisent qu’il pourrait devenir une loi d’ici fin 2022 ou début 2023.
Guerre des formats de feuilles de données
Une bataille technologique classique s'annonce comme le nouveau format de feuille de données qui déterminera comment les données sont stockées dans les systèmes Big Data, qui peut y accéder et ce que les utilisateurs peuvent en faire.
Ces derniers mois, Apache Iceberg a pris de l'ampleur en tant que nouveau standard potentiel pour les formats de tables de données. Les géants de l'entrepôt de données cloud, Snowflake et AWS, ont soutenu plus tôt cette année Iceberg, qui fournit des contrôles de données transactionnelles et autres et est issu de travaux chez Netflix et Apple. L'ancien distributeur Hadoop, Cloudera, a également soutenu Iceberg en juin.
Mais les gens de Databricks proposent une alternative tabulaire à Delta Lake qui offre des fonctionnalités similaires à Iceberg. Les bailleurs de fonds d'Apache Spark ont initialement développé le format tabulaire Delta Lake de manière exclusive, ce qui a conduit à des accusations selon lesquelles Databricks établissait un verrouillage pour les clients. Mais lors du Data + AI Summit en juin, la société a annoncé qu'elle rendrait l'intégralité du format open source, permettant à quiconque de l'utiliser.
Apache Hudi est perdu dans le mélange, qui assure également la cohérence des données puisqu'il réside dans un référentiel Big Data et est accessible par divers moteurs informatiques. Onehouse, une entreprise soutenue par les créateurs d'Apache Hudi, a lancé une plateforme Lakehouse basée sur Hudi plus tôt cette année.
L'écosystème du big data aime la compétition, il sera donc intéressant de voir ces formats évoluer et s'affronter tout au long de l'année 2022.
L'IA linguistique continue d'étonner
Les frontières de l'IA se précisent chaque mois, et aujourd'hui, le fer de lance de l'IA réside dans les grands modèles linguistiques, qui s'améliorent de plus en plus. En fait, les grands modèles de langage sont devenus si efficaces qu'en juin, un ingénieur de Google a affirmé que le système conversationnel LaMDA de l'entreprise était devenu sensible.
L’intelligence artificielle n’est pas encore sensible, mais cela ne veut pas dire qu’elle n’est pas utile aux entreprises. Pour rappel, Salesforce dispose d'un grand projet de modélisation de langage (LLM) appelé CodeGen, conçu pour comprendre le code source et même générer son propre code dans différents langages de programmation.
Le mois dernier, Meta (la société mère de Facebook) a lancé un modèle linguistique massif capable de traduire 200 langues. Nous avons également assisté à des efforts visant à démocratiser l’IA à travers des projets tels que le BigScience Large Open Science Open Access Multilingual Language Model, ou BLOOM.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Ce site a rapporté le 27 juin que Jianying est un logiciel de montage vidéo développé par FaceMeng Technology, une filiale de ByteDance. Il s'appuie sur la plateforme Douyin et produit essentiellement du contenu vidéo court pour les utilisateurs de la plateforme. Il est compatible avec iOS, Android et. Windows, MacOS et autres systèmes d'exploitation. Jianying a officiellement annoncé la mise à niveau de son système d'adhésion et a lancé un nouveau SVIP, qui comprend une variété de technologies noires d'IA, telles que la traduction intelligente, la mise en évidence intelligente, l'emballage intelligent, la synthèse humaine numérique, etc. En termes de prix, les frais mensuels pour le clipping SVIP sont de 79 yuans, les frais annuels sont de 599 yuans (attention sur ce site : équivalent à 49,9 yuans par mois), l'abonnement mensuel continu est de 59 yuans par mois et l'abonnement annuel continu est de 59 yuans par mois. est de 499 yuans par an (équivalent à 41,6 yuans par mois) . En outre, le responsable de Cut a également déclaré que afin d'améliorer l'expérience utilisateur, ceux qui se sont abonnés au VIP d'origine

Améliorez la productivité, l’efficacité et la précision des développeurs en intégrant une génération et une mémoire sémantique améliorées par la récupération dans les assistants de codage IA. Traduit de EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, auteur JanakiramMSV. Bien que les assistants de programmation d'IA de base soient naturellement utiles, ils ne parviennent souvent pas à fournir les suggestions de code les plus pertinentes et les plus correctes, car ils s'appuient sur une compréhension générale du langage logiciel et des modèles d'écriture de logiciels les plus courants. Le code généré par ces assistants de codage est adapté à la résolution des problèmes qu’ils sont chargés de résoudre, mais n’est souvent pas conforme aux normes, conventions et styles de codage des équipes individuelles. Cela aboutit souvent à des suggestions qui doivent être modifiées ou affinées pour que le code soit accepté dans l'application.

Les grands modèles linguistiques (LLM) sont formés sur d'énormes bases de données textuelles, où ils acquièrent de grandes quantités de connaissances du monde réel. Ces connaissances sont intégrées à leurs paramètres et peuvent ensuite être utilisées en cas de besoin. La connaissance de ces modèles est « réifiée » en fin de formation. À la fin de la pré-formation, le modèle arrête effectivement d’apprendre. Alignez ou affinez le modèle pour apprendre à exploiter ces connaissances et répondre plus naturellement aux questions des utilisateurs. Mais parfois, la connaissance du modèle ne suffit pas, et bien que le modèle puisse accéder à du contenu externe via RAG, il est considéré comme bénéfique de l'adapter à de nouveaux domaines grâce à un réglage fin. Ce réglage fin est effectué à l'aide de la contribution d'annotateurs humains ou d'autres créations LLM, où le modèle rencontre des connaissances supplémentaires du monde réel et les intègre.

Pour en savoir plus sur l'AIGC, veuillez visiter : 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou est différent de la banque de questions traditionnelle que l'on peut voir partout sur Internet. nécessite de sortir des sentiers battus. Les grands modèles linguistiques (LLM) sont de plus en plus importants dans les domaines de la science des données, de l'intelligence artificielle générative (GenAI) et de l'intelligence artificielle. Ces algorithmes complexes améliorent les compétences humaines et stimulent l’efficacité et l’innovation dans de nombreux secteurs, devenant ainsi la clé permettant aux entreprises de rester compétitives. LLM a un large éventail d'applications. Il peut être utilisé dans des domaines tels que le traitement du langage naturel, la génération de texte, la reconnaissance vocale et les systèmes de recommandation. En apprenant de grandes quantités de données, LLM est capable de générer du texte

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Editeur | KX Dans le domaine de la recherche et du développement de médicaments, il est crucial de prédire avec précision et efficacité l'affinité de liaison des protéines et des ligands pour le criblage et l'optimisation des médicaments. Cependant, les études actuelles ne prennent pas en compte le rôle important des informations sur la surface moléculaire dans les interactions protéine-ligand. Sur cette base, des chercheurs de l'Université de Xiamen ont proposé un nouveau cadre d'extraction de caractéristiques multimodales (MFE), qui combine pour la première fois des informations sur la surface des protéines, la structure et la séquence 3D, et utilise un mécanisme d'attention croisée pour comparer différentes modalités. alignement. Les résultats expérimentaux démontrent que cette méthode atteint des performances de pointe dans la prédiction des affinités de liaison protéine-ligand. De plus, les études d’ablation démontrent l’efficacité et la nécessité des informations sur la surface des protéines et de l’alignement des caractéristiques multimodales dans ce cadre. Les recherches connexes commencent par "S

Les dernières versions d'Apple des systèmes iOS18, iPadOS18 et macOS Sequoia ont ajouté une fonctionnalité importante à l'application Photos, conçue pour aider les utilisateurs à récupérer facilement des photos et des vidéos perdues ou endommagées pour diverses raisons. La nouvelle fonctionnalité introduit un album appelé "Récupéré" dans la section Outils de l'application Photos qui apparaîtra automatiquement lorsqu'un utilisateur a des photos ou des vidéos sur son appareil qui ne font pas partie de sa photothèque. L'émergence de l'album « Récupéré » offre une solution aux photos et vidéos perdues en raison d'une corruption de la base de données, d'une application d'appareil photo qui n'enregistre pas correctement dans la photothèque ou d'une application tierce gérant la photothèque. Les utilisateurs n'ont besoin que de quelques étapes simples

Selon les informations de ce site le 1er août, SK Hynix a publié un article de blog aujourd'hui (1er août), annonçant sa participation au Global Semiconductor Memory Summit FMS2024 qui se tiendra à Santa Clara, Californie, États-Unis, du 6 au 8 août, présentant de nombreuses nouvelles technologies de produit. Introduction au Future Memory and Storage Summit (FutureMemoryandStorage), anciennement Flash Memory Summit (FlashMemorySummit) principalement destiné aux fournisseurs de NAND, dans le contexte de l'attention croissante portée à la technologie de l'intelligence artificielle, cette année a été rebaptisée Future Memory and Storage Summit (FutureMemoryandStorage) pour invitez les fournisseurs de DRAM et de stockage et bien d’autres joueurs. Nouveau produit SK hynix lancé l'année dernière
