Aujourd'hui, le big data et l'analytique entrent dans une phase de déploiement plus mature. C’est une bonne nouvelle pour les petites et moyennes entreprises qui déploient ces technologies et qui ont du mal à définir une architecture big data pour leur entreprise.
L'incertitude sur la manière de définir l'architecture globale du Big Data et de l'analyse est l'une des raisons pour lesquelles les PME sont à la traîne dans le déploiement du Big Data et de l'analyse. Dans de nombreux cas, ils attendent et observent l’évolution de tendances telles que l’informatique hybride, les data marts, les bases de données principales, etc., et l’évolution des contrôles en matière de sécurité et de gouvernance.
Enfin, une architecture de données émergente de bonnes pratiques que tout le monde peut suivre sera fournie. Dans cette architecture : Les services de cloud computing sont utilisés pour stocker et traiter le Big Data, tandis que les centres de données sur site sont utilisés pour développer des datamarts locaux dans l'entreprise.
Regardons de plus près les raisons de cette architecture big data et analytique :
Si l'entreprise est petite, il est coûteux d'acheter des clusters de serveurs pour traiter le Big Data en parallèle dans le centre de données, sans parler de l'embauche ou de la formation de professionnels très coûteux qui savent comment optimiser, mettre à niveau et maintenir l'environnement de traitement parallèle. Les entreprises qui choisissent de traiter et de stocker des données sur site investissent également considérablement dans le matériel, les logiciels et les équipements de stockage. L’achat de matériel et de logiciels Big Data, ainsi que l’externalisation du traitement et du stockage informatiques vers le cloud coûteront tous très cher.
La gouvernance des données (par exemple, les problèmes de sécurité et de conformité) est l'une des raisons pour lesquelles les entreprises hésitent à fournir toutes leurs données critiques vers le cloud, car elles sont plus difficiles à gérer. Par conséquent, une fois les données traitées dans le cloud, de nombreuses entreprises choisissent de migrer les données vers leurs propres centres de données sur site.
Il existe une autre raison pour laquelle de nombreuses entreprises choisissent d'utiliser leurs centres de données : se concentrer sur les applications et les algorithmes propriétaires qui développent ces données, car la politique de nombreux fournisseurs de cloud computing est que toutes les applications développées par les clients dans le cloud puissent être partagées. avec d'autres clients.
En conservant les applications sur site dans le centre de données et en développant un ensemble de données principales sur site dont les plus petits datamarts peuvent être séparés, les entreprises ont un contrôle direct sur leurs données et applications.
Par exemple, si une entreprise a besoin d'anonymiser des données, le processus qu'elle met en œuvre doit être documenté et convenu avec son fournisseur de cloud, car celui-ci se chargera de l'anonymisation. Si une entreprise souhaite nettoyer ses propres données, elle doit également fournir des instructions écrites détaillées à son fournisseur de cloud computing sur le processus de nettoyage. Par exemple, l'entreprise souhaite-t-elle simplement unifier les abréviations de tous les États américains (par exemple, « Tenn » et « Tennessee » = « TN ») ou d'autres modifications apportées aux données les rendent-elles uniformes et plus faciles à traiter ? que votre entreprise fonctionne dans le locataire dédié d'un fournisseur de services de cloud computing ou dans un environnement multi-tenant, le fournisseur de cloud computing doit être en mesure de garantir que les données de l'entreprise ne sont jamais partagées avec d'autres clients.
De nombreux services informatiques d'entreprises manquent complètement cette tâche. Ils commencent tout juste à mettre en œuvre des projets Big Data, mais oublient que les politiques et procédures de développement d'applications existantes proviennent du domaine d'application de la transaction. Les entreprises ne devraient pas commettre cette erreur. Les entreprises doivent plutôt réviser leurs politiques et procédures dans les domaines où la probabilité d’interagir avec le Big Data est plus élevée (par exemple, stockage, gestion de bases de données, applications).
Dans le cas de tests DR basés sur le cloud, les organisations doivent inclure des dispositions dans le contrat pour l'enregistrement et l'exécution de la DR. Les plans de reprise après sinistre (DR) (qui se concentrent sur les données et les systèmes transactionnels) doivent également être à jour et inclure des scripts de récupération et de test pour le Big Data et l'analyse.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!