java - 最近对大数据感兴趣，hadoop是不是过时了，应该深入学习spark？

Question

最近对大数据感兴趣，后面想往这方面发展，hadoop是不是过时了，应该深入学习spark？
因为也在上班，时间有限，担心花了时间学习hadoop后，公司却都不使用了，
因为了解到现在公司都在搞spark，因为是内存运算，效率会搞很多，
往过来人解惑，感谢！！

天蓬老师 · Answer

Hadoop ne fait pas seulement référence au modèle de calcul Hadoop de MapReduce, mais fait référence à l'écosystème Hadoop, comprenant HDFS, HBase, Hive, etc. Spark remplace et enrichit uniquement le modèle de calcul dans Hadoop, et son fonctionnement dépend également d'autres parties de l'écosystème Hadoop. Donc je pense que s'il ne fait référence qu'au modèle de calcul Hadoop dans MapReduce, il est effectivement dépassé dans une certaine mesure (mais il existe aussi des scénarios adaptés).

Si vous êtes intéressé, vous pouvez lire cet article : Spark et Hadoop sont amis, pas ennemis

迷茫 · Answer

Actuellement, Hadoop est entré dans l'ère 2.0. Il comporte trois composants : HDFS, YARN et MapReduce. HDFS est un système de fichiers distribué , responsable du stockage des données d'entrée et de sortie ; YARN est un système de gestion de ressources distribué , responsable de la planification du processeur et de la mémoire du cluster ; et MapReduce Il s'agit d'un framework informatique distribué , conçu par Google pour le classement des pages Web (PageRank). Il s'agit d'un modèle de programmation très général qui peut être utilisé pour écrire diverses données volumineuses telles que le nombre de mots. et classement des pages Web (PageRank).

Hadoop MapReduce, Spark, Storm, etc. sont tous des frameworks informatiques distribués, qui conviennent à différents scénarios d'application. Hadoop MapReduce effectue du calcul hors ligne tel que le traitement des journaux, Spark exécute l'apprentissage automatique et Storm effectue du calcul de flux en temps réel. En d’autres termes, elles sont équivalentes à différentes applications sur téléphones mobiles avec des fonctions différentes. Par conséquent, à proprement parler, il n’est pas question de savoir qui remplace qui. Différents cadres informatiques conviennent à différents scénarios d’application. Bien sûr, Spark et Hadoop YARN peuvent être utilisés pour effectuer la même tâche, et Spark a de meilleures performances d'exécution, mais Spark consomme plus de mémoire. Par conséquent, Spark ne peut pas remplacer complètement Hadoop MapReduce, car certaines applications n'ont aucun problème à utiliser Hadoop MapReduce pendant un temps d'exécution plus long et peuvent économiser des ressources mémoire.

De plus, Hadoop Mapreduce, Spark, Storm et bien d'autres frameworks informatiques distribués appartiennent à l'écosystème Hadoop, et ils peuvent s'exécuter dans le même cluster Hadoop, partageant HDFS et YARN . Si ces cadres informatiques sont comparés aux applications sur un téléphone mobile, alors HDFS et YARN de Hadoop sont équivalents au système d'exploitation du téléphone mobile.

Donc, ma suggestion est :

Hadoop est un incontournable pour se lancer dans le big data. Parce que MapReduce est le framework informatique distribué le plus basique, et d'autres frameworks informatiques distribués tels que Spark sont construits dessus. Ce n'est qu'en comprenant MapReduce que vous pourrez comprendre d'autres systèmes. Ensuite, Hadoop est la plate-forme d'exécution pour d'autres écosystème Hadoop frameworks informatiques et ne peut être évité.
Apprenez d'autres frameworks informatiques tels que Spark en fonction des besoins de l'entreprise. L'auto-apprentissage n'est qu'une introduction, et vous pouvez vraiment le maîtriser en écrivant des applications pratiques.

Mon blog peut vous aider à mettre en place rapidement un environnement de test Hadoop :

Création d'une version améliorée du cluster Hadoop basée sur Docker

阿神 · Answer

Hadoop est l'infrastructure de l'informatique distribuée. Au mieux, Spark ne peut que remplacer Hadoop MapReduce. De nombreux outils technologiques Big Data sont basés sur HDFS et MapReduce, notamment HBASE Hive Sqoop kafka, etc. Bien sûr, il est préférable d'apprendre Spark directement lors du développement, et il est facile de démarrer

阿神 · Answer

Il n'y a pas de conflit entre l'apprentissage de Hadoop et celui de Spark. Actuellement, lorsque la plupart des entreprises utilisent Spark, leur stockage de données est toujours sur Hadoop HDFS. Spark SQL et Hive peuvent utiliser des méthodes de type SQL et sont similaires.