Le rôle de HDFS dans Hadoop est de fournir un stockage de données massives et de fournir un accès aux données à haut débit. HDFS présente les caractéristiques d'une tolérance aux pannes élevée et est conçu pour être déployé sur du matériel à faible coût. un accès à haut débit aux données d'application et convient aux applications avec des ensembles de données extrêmement volumineux.
Hadoop est une infrastructure système distribuée développée par la Fondation Apache. Les utilisateurs peuvent développer des programmes distribués sans comprendre les détails sous-jacents de la distribution. Exploitez pleinement la puissance des clusters pour le calcul et le stockage à haut débit.
Hadoop implémente un système de fichiers distribué (Hadoop Distributed File System), dont HDFS.
HDFS est hautement tolérant aux pannes et conçu pour être déployé sur du matériel à faible coût ; il offre un débit élevé pour accéder aux données d'application, ce qui le rend adapté aux utilisateurs d'applications comportant de grands ensembles de données. HDFS assouplit les exigences POSIX et peut accéder aux données du système de fichiers sous forme d'accès en streaming.
La conception de base du framework Hadoop est : HDFS et MapReduce. HDFS permet le stockage de données massives, tandis que MapReduce permet le calcul de données massives.
HDFS
Pour les clients externes, HDFS agit comme un système de fichiers hiérarchique traditionnel. Les fichiers peuvent être créés, supprimés, déplacés ou renommés, et bien plus encore. Mais l'architecture de HDFS repose sur un ensemble spécifique de nœuds (voir Figure 1), qui est déterminé par ses propres caractéristiques. Ces nœuds incluent le NameNode (un seul), qui fournit des services de métadonnées au sein de HDFS, et le DataNode, qui fournit des blocs de stockage à HDFS. Il s'agit d'un inconvénient (point de défaillance unique) des versions HDFS 1.x puisqu'un seul NameNode existe. Dans la version Hadoop 2.x, deux NameNodes peuvent exister, ce qui résout le problème de défaillance d'un seul nœud.
Les fichiers stockés dans HDFS sont divisés en morceaux et ces morceaux sont ensuite copiés sur plusieurs machines (DataNodes). Ceci est très différent de l'architecture RAID traditionnelle. La taille des blocs (64 Mo par défaut pour 1.x et 128 Mo pour 2.x) et le nombre de blocs copiés sont déterminés par le client lors de la création du fichier. Le NameNode contrôle toutes les opérations sur les fichiers. Toutes les communications au sein de HDFS sont basées sur le protocole standard TCP/IP.
Pour plus de connaissances connexes, veuillez visiter : Site Web PHP chinois !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!