Maison interface Web tutoriel HTML Une brève discussion sur ce qu'est Hadoop et son parcours d'apprentissage

Une brève discussion sur ce qu'est Hadoop et son parcours d'apprentissage

Mar 14, 2017 am 09:46 AM

Hadoop implémente un Système de fichiers(HadoopDistributedFileSystème ), appelé HDFS, a une tolérance aux pannes élevée et est conçu pour être déployé sur du matériel à faible coût et offre un débit élevé pour accéder aux données d'application, ce qui convient à ceux qui disposent d'applications avec de grands ensembles de données (largedataset) ; . HDFS assouplit les exigences POSIX et peut accéder aux données du système de fichiers sous forme d'accès en streaming. Le framework de Hadoop
La conception de base est : HDFS et MapReduce fournit un stockage massif. données, et MapReduce fournit le calcul pour des données massives. En un mot, Hadoop est un stockage plus un calcul 🎜> Le nom Hadoop n'est pas une abréviation, mais un nom fictif. Le créateur du projet, Doug Cutting, a expliqué comment Hadoop tire son nom. : "Le nom a été donné à un jouet éléphant marron par mon enfant. Hadoop est une plateforme informatique distribuée qui permet aux utilisateurs de structurer
et de l'utiliser facilement. Les utilisateurs peuvent facilement développer et exécuter des applications qui gèrent d'énormes quantités de données sur Hadoop. Il présente principalement les avantages suivants :
1. Haute fiabilité La capacité de Hadoop à stocker et à traiter les données petit à petit est digne de la confiance des gens. 2. Hadoop hautement évolutif distribue les données et effectue des tâches informatiques entre les clusters d'ordinateurs disponibles. Ces clusters peuvent être facilement étendus à des milliers de nœuds. 3. Efficacité Hadoop peut déplacer dynamiquement les données entre les nœuds et assurer l'équilibre dynamique de chaque nœud, de sorte que la vitesse de traitement est très rapide.
4. Hadoop, hautement tolérant aux pannes, peut enregistrer automatiquement plusieurs copies de données et redistribuer automatiquement les tâches ayant échoué.
5. Faible coût Comparé aux ordinateurs tout-en-un, aux entrepôts de données commerciaux et aux magasins de données tels que QlikView et YonghongZ-Suite, hadoop est open source, le coût logiciel du projet sera donc considérablement réduit.
Hadoop est livré avec un framework écrit en langage Java, il est donc idéal pour fonctionner sur des plateformes de production
Linux
. Les applications sur Hadoop peuvent également être écrites dans d'autres langages, comme le C.
L'importance du traitement du Big Data Hadoop La large application de Hadoop dans les applications de traitement du Big Data bénéficie de ses avantages naturels en matière d'extraction, de transformation et de chargement de données (ETL). L'architecture distribuée de Hadoop place le moteur de traitement du Big Data aussi près que possible du stockage, ce qui est relativement adapté aux opérations de traitement par lots telles que ETL, car les résultats du traitement par lots de ces opérations peuvent aller directement au stockage. La fonction MapReduce de Hadoop divise une tâche unique en morceaux et envoie les tâches fragmentées (Map) à plusieurs nœuds, puis les charge (Reduce) dans l'entrepôt de données sous la forme d'un seul ensemble de données. Informations sur le parcours d'apprentissage Hadoop du site Web chinois PHP :
1. HadoopCommon : un module au bas du système Hadoop, fournissant divers outils pour les sous-projets Hadoop, tels que :
fichiers de configuration
et journal opérations, etc.
2. HDFS : système de fichiers distribué, offrant un accès aux données d'application à haut débit pour les clients externes, HDFS est comme un système de fichiers hiérarchique traditionnel. Les fichiers peuvent être créés, supprimés, déplacés ou renommés, et bien plus encore. Cependant, l'architecture de HDFS est construite sur la base d'un ensemble spécifique de nœuds (voir Figure 1), qui est déterminé par ses propres caractéristiques. Ces nœuds incluent NameNode (un seul), qui fournit des services de métadonnées dans HDFS ; DataNode, qui fournit des blocs de stockage à HDFS. C'est un inconvénient (point de défaillance unique) de HDFS puisqu'un seul NameNode existe.
Les fichiers stockés dans HDFS sont divisés en blocs, et ces blocs sont ensuite copiés sur plusieurs ordinateurs (DataNode). Ceci est très différent de l'architecture RAID traditionnelle. La taille du bloc (généralement 64 Mo) et le nombre de blocs copiés sont déterminés par le client lors de la création du fichier. NameNode peut contrôler toutes les opérations sur les fichiers. Toutes les communications au sein de HDFS sont basées sur le protocole standard TCP/IP.
3. MapReduce : un framework logiciel pour cluster informatique de traitement de données massif distribué. 4. Avro : projet RPC hébergé par dougcutting, principalement responsable de la sérialisation des données
. Un peu similaire au protobuf de Google et au thr
ift de Facebook. avro sera utilisé pour le RPC de Hadoop à l'avenir, rendant la communication du module RPC de Hadoop plus rapide et la structure des données plus compacte. 5. Hive : Semblable à CloudBase, il s'agit également d'un ensemble de logiciels basés sur la plateforme informatique distribuée Hadoop qui fournit la fonction SQL d'entrepôt de données. Il simplifie la synthèse et la requête ad hoc des données massives stockées dans Hadoop. hive fournit un ensemble de langage de requête QL, basé sur SQL, très pratique à utiliser.
 6. HBase : Basée sur HadoopDistributedFileSystem, il s'agit d'une base de données distribuée open source et évolutive basée sur le modèle de stockage en colonnes , qui prend en charge le stockage de données structurées dans de grandes tables.
7. Pig : Il s'agit d'un langage de flux de données avancé et d'un cadre d'exécution pour le calcul parallèle. Le langage de type SQL est un langage de requête avancé construit sur MapReduce. Il compile certaines opérations dans Map et Reduction du modèle MapReduce. les utilisateurs peuvent définir leurs propres fonctions.
8. ZooKeeper : une implémentation open source de Chubby de Google. Il s'agit d'un système de coordination fiable pour les systèmes distribués à grande échelle. Il fournit des fonctions telles que : la maintenance de la configuration, le service de noms, la synchronisation distribuée, le service de groupe, etc. L'objectif de ZooKeeper est d'encapsuler des services clés complexes et sujets aux erreurs, et de fournir aux utilisateurs des interfaces simples et faciles à utiliser et un système avec des performances efficaces et des fonctions stables.
9. Chukwa : un système de collecte de données pour la gestion des grands systèmes distribués fourni par Yahoo.
 10. Cassandra : Une base de données multi-maîtres évolutive sans point de défaillance unique.
 11. Mahout : Une bibliothèque évolutive d'apprentissage automatique et d'exploration de données.
Les objectifs de conception initiaux de Hadoop étaient une fiabilité élevée, une évolutivité élevée, une tolérance aux pannes élevée et une efficacité élevée qui ont rendu Hadoop populaire auprès de nombreuses grandes entreprises dès son apparition, et qui ont également été largement appréciés. l'attention de la communauté des chercheurs. Jusqu’à présent, la technologie Hadoop a été largement utilisée dans le domaine Internet.
Ce qui précède est une introduction détaillée de ce qu'est Hadoop et du parcours d'apprentissage Hadoop. Si vous souhaitez en savoir plus sur Hadoop, veuillez prêter attention au site officiel de la plateforme, WeChat et aux autres plateformes informatiques. La plate-forme d'apprentissage et d'éducation en ligne de carrière vous offre une autorité. Le cours de formation Big Data Hadoop et le système de didacticiels vidéo sont le premier système de cours vidéo en ligne adaptatif Hadoop enregistré en ligne par un conférencier médaillé d'or sur la grande plate-forme, vous permettant maîtriser rapidement les compétences pratiques de Hadoop, de l'entrée à la maîtrise du développement Big Data.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Erreurs Java : erreurs Hadoop, comment les gérer et les éviter Erreurs Java : erreurs Hadoop, comment les gérer et les éviter Jun 24, 2023 pm 01:06 PM

Erreurs Java : erreurs Hadoop, comment les gérer et les éviter Lorsque vous utilisez Hadoop pour traiter des données volumineuses, vous rencontrez souvent des erreurs d'exception Java, qui peuvent affecter l'exécution des tâches et provoquer l'échec du traitement des données. Cet article présentera quelques erreurs Hadoop courantes et fournira des moyens de les gérer et de les éviter. Java.lang.OutOfMemoryErrorOutOfMemoryError est une erreur provoquée par une mémoire insuffisante de la machine virtuelle Java. Quand Hadoop est

Comment apprendre le développement PHP ? Comment apprendre le développement PHP ? Jun 12, 2023 am 08:09 AM

Avec le développement d’Internet, la demande de pages Web dynamiques augmente. En tant que langage de programmation courant, PHP est largement utilisé dans le développement Web. Alors, pour les débutants, comment apprendre le développement PHP ? 1. Comprendre les connaissances de base de PHP. PHP est un langage de script qui peut être directement intégré au code HTML, analysé et exécuté via un serveur Web. Par conséquent, avant d'apprendre PHP, vous pouvez d'abord comprendre les bases des technologies front-end telles que HTML, CSS et JavaScript pour mieux comprendre le fonctionnement de PHP.

Utilisation de Hadoop et HBase dans Beego pour le stockage et les requêtes Big Data Utilisation de Hadoop et HBase dans Beego pour le stockage et les requêtes Big Data Jun 22, 2023 am 10:21 AM

Avec l'avènement de l'ère du Big Data, le traitement et le stockage des données sont devenus de plus en plus importants, et la gestion et l'analyse efficaces de grandes quantités de données sont devenues un défi pour les entreprises. Hadoop et HBase, deux projets de la Fondation Apache, proposent une solution de stockage et d'analyse du Big Data. Cet article explique comment utiliser Hadoop et HBase dans Beego pour le stockage et les requêtes Big Data. 1. Introduction à Hadoop et HBase Hadoop est un système informatique et de stockage distribué open source qui peut

Comment utiliser PHP et Hadoop pour le traitement du Big Data Comment utiliser PHP et Hadoop pour le traitement du Big Data Jun 19, 2023 pm 02:24 PM

Alors que la quantité de données continue d’augmenter, les méthodes traditionnelles de traitement des données ne peuvent plus relever les défis posés par l’ère du Big Data. Hadoop est un cadre informatique distribué open source qui résout le problème de goulot d'étranglement des performances causé par les serveurs à nœud unique dans le traitement du Big Data grâce au stockage distribué et au traitement de grandes quantités de données. PHP est un langage de script largement utilisé dans le développement Web et présente les avantages d'un développement rapide et d'une maintenance facile. Cet article explique comment utiliser PHP et Hadoop pour le traitement du Big Data. Qu'est-ce que HadoopHadoop ?

Explorez l'application de Java dans le domaine du big data : compréhension de Hadoop, Spark, Kafka et d'autres piles technologiques Explorez l'application de Java dans le domaine du big data : compréhension de Hadoop, Spark, Kafka et d'autres piles technologiques Dec 26, 2023 pm 02:57 PM

Pile technologique Java Big Data : Comprendre l'application de Java dans le domaine du Big Data, comme Hadoop, Spark, Kafka, etc. Alors que la quantité de données continue d'augmenter, la technologie Big Data est devenue un sujet brûlant à l'ère d'Internet d'aujourd'hui. Dans le domaine du big data, on entend souvent les noms de Hadoop, Spark, Kafka et d’autres technologies. Ces technologies jouent un rôle essentiel et Java, en tant que langage de programmation largement utilisé, joue également un rôle majeur dans le domaine du Big Data. Cet article se concentrera sur l'application de Java en général

Comment installer Hadoop sous Linux Comment installer Hadoop sous Linux May 18, 2023 pm 08:19 PM

1 : Installez JDK1. Exécutez la commande suivante pour télécharger le package d'installation de JDK1.8. wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2 Exécutez la commande suivante pour décompresser le package d'installation JDK1.8 téléchargé. . tar-zxvfjdk-8u151-linux-x64.tar.gz3 Déplacez et renommez le package JDK. mvjdk1.8.0_151//usr/java84. Configurez les variables d'environnement Java. écho'

Utiliser PHP pour réaliser des traitements de données à grande échelle : Hadoop, Spark, Flink, etc. Utiliser PHP pour réaliser des traitements de données à grande échelle : Hadoop, Spark, Flink, etc. May 11, 2023 pm 04:13 PM

Alors que la quantité de données continue d’augmenter, le traitement des données à grande échelle est devenu un problème auquel les entreprises doivent faire face et résoudre. Les bases de données relationnelles traditionnelles ne peuvent plus répondre à cette demande pour le stockage et l'analyse de données à grande échelle, les plateformes informatiques distribuées telles que Hadoop, Spark et Flink sont devenues les meilleurs choix. Dans le processus de sélection des outils de traitement de données, PHP devient de plus en plus populaire parmi les développeurs en tant que langage facile à développer et à maintenir. Dans cet article, nous explorerons comment exploiter PHP pour le traitement de données à grande échelle et comment

Explication détaillée du parcours d'apprentissage avancé de Python Explication détaillée du parcours d'apprentissage avancé de Python Jun 10, 2023 am 10:46 AM

Python est un langage de programmation puissant qui est devenu l'un des langages les plus populaires dans de nombreux domaines. Des simples scripts aux applications Web complexes et aux calculs scientifiques, Python peut tout faire. Cet article présentera le parcours d'apprentissage avancé de Python et fournira un parcours d'apprentissage clair pour vous aider à maîtriser les compétences avancées de la programmation Python. Améliorer les connaissances de base Avant d'entrer dans l'apprentissage avancé de Python, nous devons revoir les connaissances de base de Python. Cela inclut la syntaxe Python, les données

See all articles