Pour les programmeurs Java, la plate-forme Big Data grand public Hadoop est développée sur la base de Java, de sorte que les programmeurs Java Big Data disposent d'un environnement linguistique plus fluide et il existe de nombreuses applications basées sur le Big Data. Le framework est également en Java, donc maîtriser le langage Java présente certains avantages dans de nombreux projets big data.
Bien sûr, la valeur fondamentale de hadoop est de fournir un système de fichiers distribué et un moteur informatique distribué. Pour la plupart des entreprises, il n'est pas nécessaire de modifier ce moteur. À l’heure actuelle, en plus d’être familier avec la programmation, vous devez généralement également acquérir des connaissances en traitement et en exploration de données. Surtout si vous évoluez vers un ingénieur en exploration de données, vous devez maîtriser davantage de connaissances liées aux algorithmes.
Pour les ingénieurs en data mining, bien qu'ils doivent également maîtriser les outils de programmation, dans la plupart des cas Hadoop est utilisé comme plateforme et outil. A l'aide des interfaces fournies par cette plateforme et ces outils, divers langages de script. sont utilisés pour le traitement des données et l’exploration de données. Par conséquent, si vous vous dirigez vers l'ingénierie d'exploration de données, il peut être plus important de maîtriser les langages de programmation distribués tels que scala, spark-mllib, etc.
Feuille de route d'apprentissage pour les ingénieurs Big Data Java :
Étape 1 : Framework informatique distribué
Maîtriser le framework informatique distribué Hadoop et Spark, Comprendre le fichier système, file d'attente de messages et base de données Nosql, et apprenez les composants associés tels que hadoop, MR, spark, hive, hbase, redies, kafka, etc.
Étape 2 : algorithmes et outils
Apprenez à comprendre divers algorithmes de data mining, tels que la classification, le clustering, les règles d'association, la régression, les arbres de décision, les réseaux de neurones, etc., et maîtrisez un outil de programmation de data mining : Python ou Scala. À l'heure actuelle, les plates-formes et frameworks grand public fournissent des bibliothèques d'algorithmes, telles que Mahout sur Hadoop et Mllib sur Spark. Vous pouvez également commencer à apprendre ces algorithmes en apprenant ces interfaces et langages de script.Étape 3 : Mathématiques
Connaissances mathématiques supplémentaires : mathématiques avancées, théorie des probabilités et algèbre linéaireÉtape 4 : Pratique du projet
1) Projets open source : tensorflow : la bibliothèque open source de Google, qui compte déjà plus de 40 000 étoiles, qui est incroyable et prend en charge les appareils mobiles 2) Participez à des concours de données3) Acquérir une expérience de projet grâce à des stages en entreprise
Si vous faites uniquement du développement, de l'exploitation et de la maintenance de Big Data, vous pouvez ignorer les deuxième et troisième étapes si vous vous concentrez sur l'application d'algorithmes existants. l'exploration de données, la troisième étape peut être ignorée en premier.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!