Hadoop ne fait pas seulement référence au modèle de calcul Hadoop de MapReduce, mais fait référence à l'écosystème Hadoop, comprenant HDFS, HBase, Hive, etc. Spark remplace et enrichit uniquement le modèle de calcul dans Hadoop, et son fonctionnement dépend également d'autres parties de l'écosystème Hadoop. Donc je pense que s'il ne fait référence qu'au modèle de calcul Hadoop dans MapReduce, il est effectivement dépassé dans une certaine mesure (mais il existe aussi des scénarios adaptés).
Si vous êtes intéressé, vous pouvez lire cet article : Spark et Hadoop sont amis, pas ennemis
Actuellement, Hadoop est entré dans l'ère 2.0. Il comporte trois composants : HDFS, YARN et MapReduce. HDFS est un système de fichiers distribué , responsable du stockage des données d'entrée et de sortie ; YARN est un système de gestion de ressources distribué , responsable de la planification du processeur et de la mémoire du cluster ; et MapReduce Il s'agit d'un framework informatique distribué , conçu par Google pour le classement des pages Web (PageRank). Il s'agit d'un modèle de programmation très général qui peut être utilisé pour écrire diverses données volumineuses telles que le nombre de mots. et classement des pages Web (PageRank).
Hadoop MapReduce, Spark, Storm, etc. sont tous des frameworks informatiques distribués, qui conviennent à différents scénarios d'application. Hadoop MapReduce effectue du calcul hors ligne tel que le traitement des journaux, Spark exécute l'apprentissage automatique et Storm effectue du calcul de flux en temps réel. En d’autres termes, elles sont équivalentes à différentes applications sur téléphones mobiles avec des fonctions différentes. Par conséquent, à proprement parler, il n’est pas question de savoir qui remplace qui. Différents cadres informatiques conviennent à différents scénarios d’application. Bien sûr, Spark et Hadoop YARN peuvent être utilisés pour effectuer la même tâche, et Spark a de meilleures performances d'exécution, mais Spark consomme plus de mémoire. Par conséquent, Spark ne peut pas remplacer complètement Hadoop MapReduce, car certaines applications n'ont aucun problème à utiliser Hadoop MapReduce pendant un temps d'exécution plus long et peuvent économiser des ressources mémoire.
De plus, Hadoop Mapreduce, Spark, Storm et bien d'autres frameworks informatiques distribués appartiennent à l'écosystème Hadoop, et ils peuvent s'exécuter dans le même cluster Hadoop, partageant HDFS et YARN . Si ces cadres informatiques sont comparés aux applications sur un téléphone mobile, alors HDFS et YARN de Hadoop sont équivalents au système d'exploitation du téléphone mobile.
Donc, ma suggestion est :
Hadoop est un incontournable pour se lancer dans le big data. Parce que MapReduce est le framework informatique distribué le plus basique, et d'autres frameworks informatiques distribués tels que Spark sont construits dessus. Ce n'est qu'en comprenant MapReduce que vous pourrez comprendre d'autres systèmes. Ensuite, Hadoop est la plate-forme d'exécution pour d'autres écosystème Hadoop frameworks informatiques et ne peut être évité.
Apprenez d'autres frameworks informatiques tels que Spark en fonction des besoins de l'entreprise. L'auto-apprentissage n'est qu'une introduction, et vous pouvez vraiment le maîtriser en écrivant des applications pratiques.
Mon blog peut vous aider à mettre en place rapidement un environnement de test Hadoop :
Création d'une version améliorée du cluster Hadoop basée sur Docker
Hadoop est l'infrastructure de l'informatique distribuée. Au mieux, Spark ne peut que remplacer Hadoop MapReduce. De nombreux outils technologiques Big Data sont basés sur HDFS et MapReduce, notamment HBASE Hive Sqoop kafka, etc. Bien sûr, il est préférable d'apprendre Spark directement lors du développement, et il est facile de démarrer
Il n'y a pas de conflit entre l'apprentissage de Hadoop et celui de Spark. Actuellement, lorsque la plupart des entreprises utilisent Spark, leur stockage de données est toujours sur Hadoop HDFS. Spark SQL et Hive peuvent utiliser des méthodes de type SQL et sont similaires.
Hadoop
ne fait pas seulement référence au modèle de calculHadoop
deMapReduce
, mais fait référence à l'écosystèmeHadoop
, comprenantHDFS
,HBase
,Hive
, etc.Spark
remplace et enrichit uniquement le modèle de calcul dansHadoop
, et son fonctionnement dépend également d'autres parties de l'écosystèmeHadoop
. Donc je pense que s'il ne fait référence qu'au modèle de calculHadoop
dansMapReduce
, il est effectivement dépassé dans une certaine mesure (mais il existe aussi des scénarios adaptés).Si vous êtes intéressé, vous pouvez lire cet article : Spark et Hadoop sont amis, pas ennemis
Actuellement, Hadoop est entré dans l'ère 2.0. Il comporte trois composants : HDFS, YARN et MapReduce. HDFS est un système de fichiers distribué , responsable du stockage des données d'entrée et de sortie ; YARN est un système de gestion de ressources distribué , responsable de la planification du processeur et de la mémoire du cluster ; et MapReduce Il s'agit d'un framework informatique distribué , conçu par Google pour le classement des pages Web (PageRank). Il s'agit d'un modèle de programmation très général qui peut être utilisé pour écrire diverses données volumineuses telles que le nombre de mots. et classement des pages Web (PageRank).
Hadoop MapReduce, Spark, Storm, etc. sont tous des frameworks informatiques distribués, qui conviennent à différents scénarios d'application. Hadoop MapReduce effectue du calcul hors ligne tel que le traitement des journaux, Spark exécute l'apprentissage automatique et Storm effectue du calcul de flux en temps réel. En d’autres termes, elles sont équivalentes à différentes applications sur téléphones mobiles avec des fonctions différentes. Par conséquent, à proprement parler, il n’est pas question de savoir qui remplace qui. Différents cadres informatiques conviennent à différents scénarios d’application. Bien sûr, Spark et Hadoop YARN peuvent être utilisés pour effectuer la même tâche, et Spark a de meilleures performances d'exécution, mais Spark consomme plus de mémoire. Par conséquent, Spark ne peut pas remplacer complètement Hadoop MapReduce, car certaines applications n'ont aucun problème à utiliser Hadoop MapReduce pendant un temps d'exécution plus long et peuvent économiser des ressources mémoire.
De plus, Hadoop Mapreduce, Spark, Storm et bien d'autres frameworks informatiques distribués appartiennent à l'écosystème Hadoop, et ils peuvent s'exécuter dans le même cluster Hadoop, partageant HDFS et YARN . Si ces cadres informatiques sont comparés aux applications sur un téléphone mobile, alors HDFS et YARN de Hadoop sont équivalents au système d'exploitation du téléphone mobile.
Donc, ma suggestion est :
Hadoop est un incontournable pour se lancer dans le big data. Parce que MapReduce est le framework informatique distribué le plus basique, et d'autres frameworks informatiques distribués tels que Spark sont construits dessus. Ce n'est qu'en comprenant MapReduce que vous pourrez comprendre d'autres systèmes. Ensuite, Hadoop est la plate-forme d'exécution pour d'autres écosystème Hadoop frameworks informatiques et ne peut être évité.
Apprenez d'autres frameworks informatiques tels que Spark en fonction des besoins de l'entreprise. L'auto-apprentissage n'est qu'une introduction, et vous pouvez vraiment le maîtriser en écrivant des applications pratiques.
Mon blog peut vous aider à mettre en place rapidement un environnement de test Hadoop :
Création d'une version améliorée du cluster Hadoop basée sur Docker
Hadoop est l'infrastructure de l'informatique distribuée. Au mieux, Spark ne peut que remplacer Hadoop MapReduce. De nombreux outils technologiques Big Data sont basés sur HDFS et MapReduce, notamment HBASE Hive Sqoop kafka, etc. Bien sûr, il est préférable d'apprendre Spark directement lors du développement, et il est facile de démarrer
Il n'y a pas de conflit entre l'apprentissage de Hadoop et celui de Spark. Actuellement, lorsque la plupart des entreprises utilisent Spark, leur stockage de données est toujours sur Hadoop HDFS. Spark SQL et Hive peuvent utiliser des méthodes de type SQL et sont similaires.