La clé de l'utilisation des données à l'ère du Big Data est la réutilisation des données. Le Big Data fait référence à une collection de données qui ne peuvent pas être capturées, gérées et traitées dans un certain laps de temps à l'aide d'outils logiciels conventionnels. Le Big Data se caractérise par un volume important, une vitesse élevée, une diversité, une faible densité de valeur et une authenticité.
L'environnement d'exploitation de ce tutoriel : système Windows 10, ordinateur Dell G3.
Introduction détaillée :
Le Big data, terme de l'industrie informatique, fait référence à un ensemble de données qui ne peuvent pas être capturées, gérées et traitées dans un certain laps de temps à l'aide d'outils logiciels conventionnels. besoin Le nouveau modèle de traitement peut produire des actifs d'informations massifs, à forte croissance et diversifiés avec un pouvoir de décision plus fort, des capacités de découverte d'informations et d'optimisation des processus.
Dans "L'ère du Big Data" [1] écrit par Victor Meier-Schoenberg et Kenneth Cukier, le big data fait référence à l'utilisation de raccourcis tels que l'analyse aléatoire (enquête par échantillonnage) au lieu de Toutes les données sont analysées et traité. Les caractéristiques 5V du big data (proposées par IBM) : Volume, Vélocité, Variété, Valeur et Véracité.
Caractéristiques :
Volume : La taille des données détermine la valeur et l'information potentielle des données considérées
Variété : la diversité des types de données ;
Vitesse : fait référence à la vitesse à laquelle les données sont obtenues ;
Variabilité : entrave le processus de traitement et de gestion efficace des données.
Véracité : la qualité des données.
Complexité : La quantité de données est énorme et provient de plusieurs canaux.
Valeur : utilisation rationnelle du Big Data pour créer une valeur élevée à faible coût.
Expansion connexe :
Gartner, un organisme de recherche sur le « big data », a donné cette définition. Le « Big Data » nécessite de nouveaux modèles de traitement dotés d'un pouvoir de décision plus fort, de capacités de découverte d'informations et d'optimisation des processus pour s'adapter au taux de croissance massif et élevé et aux actifs informationnels diversifiés.
La définition donnée par McKinsey Global Institute est la suivante : une collection de données si vaste que son acquisition, son stockage, sa gestion et son analyse dépassent largement les capacités des outils logiciels de bases de données traditionnels. Elle a une échelle de données massive et rapide. présente quatre caractéristiques principales : le flux de données, la diversité des types de données et une faible densité de valeurs.
L'importance stratégique de la technologie du Big Data ne réside pas dans la maîtrise d'énormes informations de données, mais dans le traitement professionnel de ces données significatives. En d'autres termes, si l'on compare le Big Data à une industrie, alors la clé de la rentabilité de cette industrie réside dans l'amélioration des « capacités de traitement » des données et dans la réalisation de la « valeur ajoutée » des données grâce au « traitement ».
Techniquement, la relation entre le big data et le cloud computing est aussi indissociable que les deux faces d'une même médaille. Le Big Data ne peut pas être traité par un seul ordinateur et doit utiliser une architecture distribuée. Sa particularité réside dans le data mining distribué de données massives. Mais il doit s'appuyer sur un traitement distribué, des bases de données distribuées et un stockage cloud, ainsi que sur la technologie de virtualisation du cloud computing.
Avec l'avènement de l'ère du cloud, le big data (Big data) a également attiré de plus en plus d'attention. L’équipe d’analystes estime que le big data est généralement utilisé pour décrire les grandes quantités de données non structurées et semi-structurées créées par une entreprise, dont le téléchargement dans une base de données relationnelle à des fins d’analyse prendrait trop de temps et d’argent. L'analyse du Big Data est souvent associée au cloud computing, car l'analyse en temps réel de grands ensembles de données nécessite des frameworks tels que MapReduce pour répartir le travail sur des dizaines, des centaines, voire des milliers d'ordinateurs.
Le Big Data nécessite des techniques spéciales pour gérer efficacement de grandes quantités de données sur une durée tolérable. Les technologies applicables au Big Data comprennent les bases de données de traitement massivement parallèle (MPP), l'exploration de données, les systèmes de fichiers distribués, les bases de données distribuées, les plates-formes de cloud computing, Internet et les systèmes de stockage évolutifs.
La plus petite unité de base est le bit, toutes les unités sont données dans l'ordre : bit, Byte, KB, MB, GB, TB, PB, EB, ZB, YB, BB, NB, DB.
Ils sont calculés selon le taux d'avance de 1024 (2 à la puissance dixième) :
1 Octet =8 bits
1 Ko = 1,024 Octets = 8192 bits
1 Mo = 1 024 Ko = 1 048 576 octets
1 Go = 1 024 Mo = 1 048 576 Ko
1 To = 1 024 Go = 1 048 576 Mo
1 Po = 1 024 To = 1 048 576 Go
1 EB = 1 024 Po = 1 048 576 To
1 ZB = 1 024 EB = 1 048 576 PB
1 YB = 1 024 ZB = 1 048,5 76 EB
1 BB = 1,024 yb = 1,048,576 yb
1 nb = 1,024 BB = 1,048,576 yb
1 db = 1,024 nb = 1,048,576 bb
Vidéo de programmationCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!