Parcours d'apprentissage du Big Data-Problème commun-php.cn

Maison

Problème commun

Parcours d'apprentissage du Big Data

(*-*)浩

Jun 05, 2019 am 10:59 AM

大数据

Parcours d'apprentissage Big Data

java(Java se,[mysql])

Linux (shell, architecture à haute concurrence, lucene, solr)

Hadoop (Hadoop, HDFS, Mapreduce, Yarn, Hive, hbase, sqoop, zookeeper, flume)

Apprentissage automatique (R, mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python , spark python) (apprentissage recommandé : Tutoriel vidéo Python)

Plateforme informatique (docker, kvm, openstack)

Explication du terme

Il y a de nombreux points auxquels les débutants doivent prêter attention lorsqu'ils apprennent le Big Data, mais quoi qu'il en soit, puisque vous avez choisi d'entrer dans l'industrie du Big Data, vous n'avez qu'à vous occuper des hauts et des bas. . Comme le dit le proverbe, n'oubliez jamais votre intention initiale et vous réussirez toujours. Ce dont vous avez le plus besoin pour apprendre le Big Data, c'est de persévérance.

bases de Javase [y compris MySQL], notez qu'il s'agit de Javase, pas de Javaee. La connaissance de javaweb n'est pas nécessaire pour les ingénieurs big data

Linux

lucene : Architecture du moteur de recherche en texte intégral

solr : Le complet -Le serveur de recherche de texte basé sur Lucene est configurable, évolutif, optimise les performances des requêtes et fournit une interface complète de gestion des fonctions.

Hadoop

HDFS : Système de stockage distribué, comprenant NameNode, DataNode. NameNode : métadonnées, DataNode. DataNode : stocke les données.

yarn : Il peut être compris comme le mécanisme de coordination de MapReduce, qui est essentiellement le mécanisme de traitement et d'analyse de Hadoop, divisé en ResourceManager et NodeManager.

MapReduce : Framework logiciel pour l'écriture de programmes.

Hive : L'entrepôt de données peut être interrogé avec SQL et peut exécuter des programmes Map/Reduce. Utilisé pour calculer des tendances ou des journaux de sites Web, et ne doit pas être utilisé pour des requêtes en temps réel car le retour des résultats prend beaucoup de temps.

HBase : Base de données. Il est très approprié pour l’interrogation en temps réel du Big Data. Facebook utilise Hbase pour stocker les données des messages et effectuer une analyse en temps réel des messages

ZooKeeper : un système de coordination fiable pour les messages distribués à grande échelle. La synchronisation distribuée de Hadoop est implémentée par Zookeeper, comme plusieurs NameNodes et la commutation de veille active.

Sqoop : Transférez des bases de données entre elles, des bases de données relationnelles et HDFS entre elles

Mahout : Bibliothèque extensible d'apprentissage automatique et d'exploration de données. Utilisé pour l’exploration de recommandations, l’agrégation, la classification et l’exploration fréquente d’ensembles d’éléments.

Chukwa : un système de collecte open source qui surveille les grands systèmes distribués, construit sur les frameworks HDFS et Map/Reduce. Afficher, surveiller et analyser les résultats.

Ambari : utilisé pour configurer, gérer et surveiller les clusters Hadoop, interface Web conviviale.

Cloudera

Cloudera Manager : surveillance de la gestion et intégration des diagnostics

Cloudera CDH : (distribution de Cloudera, y compris Apache Hadoop) Cloudera a apporté les modifications correspondantes à Hadoop Changed, la version finale s'appelle CDH.

Cloudera Flume : le système de collecte de journaux prend en charge la personnalisation de divers expéditeurs de données dans le système de journalisation pour collecter des données.

Cloudera Impala : fournit des requêtes directes et du SQL interactif pour les données stockées dans HDFS et HBase d'Apache Hadoop.

Cloudera hue : gestionnaire Web, comprenant hue ui, hui server, hui db. hue fournit des interfaces shell pour tous les composants CDH, et mr peut être écrit en hue.

Machine Learning/R

R : Langage et environnement d'exploitation pour l'analyse statistique et les graphiques, actuellement Hadoop-R

mahout : Fourni Implémentation évolutive de algorithmes classiques dans le domaine de l'apprentissage automatique, notamment le clustering, la classification, le filtrage des recommandations, l'exploration fréquente de sous-éléments, etc., et peuvent être étendus au cloud via Hadoop.

storm

Storm : un système informatique de streaming en temps réel distribué et tolérant aux pannes qui peut être utilisé pour l'analyse en temps réel, l'apprentissage automatique en ligne et le traitement des flux d'informations , et calcul continu RPC distribué, traitement des messages et mise à jour de la base de données en temps réel.

Kafka : un système de messagerie de publication-abonnement distribué à haut débit qui peut gérer toutes les données de streaming d'action (navigation, recherche, etc.) sur des sites Web grand public. Par rapport aux données de journalisation et à l'analyse hors ligne de Hadoop, un traitement en temps réel peut être réalisé. Actuellement, le mécanisme de chargement parallèle de Hadoop est utilisé pour unifier le traitement des messages en ligne et hors ligne.

Redis : écrit en langage C, il prend en charge le réseau, est une base de données clé-valeur de type journal qui peut être basée sur la mémoire et persistant.

Spark

Scala : un langage de programmation entièrement orienté objet similaire à Java.

jblas : Une bibliothèque d'algèbre linéaire rapide (JAVA). La mise en œuvre d'ATLAS ART est basée sur BLAS et LAPACK, la norme industrielle de facto pour les calculs matriciels, et utilise une infrastructure avancée pour toutes les procédures de calcul, ce qui la rend très rapide.

Spark : Spark est un framework parallèle général similaire à Hadoop MapReduce implémenté en langage Scala. En plus des avantages de Hadoop MapReduce, il est différent de MapReduce dans la mesure où les résultats de sortie intermédiaires des tâches peuvent être enregistrés en mémoire. , il n'est donc pas nécessaire de lire ou d'écrire HDFS, donc Spark est mieux adapté aux algorithmes MapReduce qui nécessitent des itérations, tels que l'exploration de données et l'apprentissage automatique. Il peut fonctionner en parallèle avec le système de fichiers Hadoop. Les frameworks de cluster tiers qui ont utilisé Mesos peuvent prendre en charge ce comportement.

Spark SQL : dans le cadre du framework Big Data Apache Spark, il peut être utilisé pour le traitement de données structurées et peut effectuer des requêtes de données Spark de type SQL

Spark Streaming : un framework informatique en temps réel basé sur Spark, étend la capacité de Spark à traiter les données en streaming Big Data.

Spark MLlib : MLlib est la bibliothèque d'implémentation de Spark pour les algorithmes d'apprentissage automatique couramment utilisés. Actuellement (2014.05), elle prend en charge la classification binaire, la régression, le clustering et le filtrage collaboratif. Il comprend également un algorithme de base d’optimisation de descente de gradient de bas niveau. MLlib s'appuie sur la bibliothèque d'algèbre linéaire jblas, et jblas lui-même s'appuie sur le programme Fortran distant.

Spark GraphX : GraphX est une API pour les graphiques et le calcul parallèle de graphiques dans Spark. Elle peut fournir une solution de données unique au-dessus de Spark et peut compléter un ensemble complet d'opérations de pipeline pour le calcul graphique. de manière pratique et efficace.

Fortran : le premier langage de programmation informatique de haut niveau, largement utilisé dans les domaines de l'informatique scientifique et technique.

BLAS : bibliothèque de sous-programmes d'algèbre linéaire de base, avec un grand nombre de programmes déjà écrits pour les opérations d'algèbre linéaire.

LAPACK : logiciel ouvert bien connu, permettant notamment de résoudre les problèmes d'algèbre linéaire numérique les plus courants dans les calculs scientifiques et techniques, tels que la résolution d'équations linéaires, de problèmes de moindres carrés linéaires, de problèmes de valeurs propres et de problèmes de valeurs singulières, etc.

ATLAS : Une version optimisée de la bibliothèque d'algorithmes linéaires BLAS.

Spark Python : Spark est écrit en langage scala, mais pour des raisons de promotion et de compatibilité, des interfaces Java et Python sont fournies.

Python

Python : un langage de programmation informatique interprété et orienté objet.

Plateforme de cloud computing

Docker : moteur de conteneur d'applications open source

kvm : (Clavier Vidéo Souris)

openstack : ouvert source Projet de plateforme de gestion du cloud computing

Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

1 Il y a quelques mois By DDD

R.E.P.O. Meilleurs paramètres graphiques

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7409

Tutoriel Java

1631

Tutoriel CakePHP

1358

Tutoriel Laravel

1268

Tutoriel PHP

1218

Afficher plus

Related knowledge

Compétences de traitement de structures de données volumineuses de PHP May 08, 2024 am 10:24 AM

Compétences en matière de traitement de la structure des Big Data : Chunking : décomposez l'ensemble de données et traitez-le en morceaux pour réduire la consommation de mémoire. Générateur : générez des éléments de données un par un sans charger l'intégralité de l'ensemble de données, adapté à des ensembles de données illimités. Streaming : lisez des fichiers ou interrogez les résultats ligne par ligne, adapté aux fichiers volumineux ou aux données distantes. Stockage externe : pour les ensembles de données très volumineux, stockez les données dans une base de données ou NoSQL.

Partage d'expérience en développement C++ : Expérience pratique en programmation Big Data C++ Nov 22, 2023 am 09:14 AM

À l'ère d'Internet, le Big Data est devenu une nouvelle ressource. Avec l'amélioration continue de la technologie d'analyse du Big Data, la demande de programmation Big Data est devenue de plus en plus urgente. En tant que langage de programmation largement utilisé, les avantages uniques du C++ dans la programmation Big Data sont devenus de plus en plus importants. Ci-dessous, je partagerai mon expérience pratique dans la programmation Big Data C++. 1. Choisir la structure de données appropriée Le choix de la structure de données appropriée est une partie importante de l'écriture de programmes Big Data efficaces. Il existe une variété de structures de données en C++ que nous pouvons utiliser, telles que des tableaux, des listes chaînées, des arbres, des tables de hachage, etc.

Cinq tendances majeures de développement dans l'industrie AEC/O en 2024 Apr 19, 2024 pm 02:50 PM

AEC/O (Architecture, Engineering & Construction/Operation) fait référence aux services complets qui assurent la conception architecturale, la conception technique, la construction et l’exploitation dans le secteur de la construction. En 2024, l’industrie de l’AEC/O est confrontée à des défis changeants au milieu des progrès technologiques. Cette année devrait voir l’intégration de technologies avancées, annonçant un changement de paradigme dans la conception, la construction et l’exploitation. En réponse à ces changements, les industries redéfinissent les processus de travail, ajustent les priorités et renforcent la collaboration pour s'adapter aux besoins d'un monde en évolution rapide. Les cinq tendances majeures suivantes dans l'industrie AEC/O deviendront des thèmes clés en 2024, lui recommandant d'évoluer vers un avenir plus intégré, réactif et durable : chaîne d'approvisionnement intégrée, fabrication intelligente.

Application d'algorithmes dans la construction de 58 plateformes de portraits May 09, 2024 am 09:01 AM

1. Contexte de la construction de la plateforme 58 Portraits Tout d'abord, je voudrais partager avec vous le contexte de la construction de la plateforme 58 Portraits. 1. La pensée traditionnelle de la plate-forme de profilage traditionnelle ne suffit plus. La création d'une plate-forme de profilage des utilisateurs s'appuie sur des capacités de modélisation d'entrepôt de données pour intégrer les données de plusieurs secteurs d'activité afin de créer des portraits d'utilisateurs précis. Elle nécessite également l'exploration de données pour comprendre le comportement et les intérêts des utilisateurs. et besoins, et fournir des capacités côté algorithmes ; enfin, il doit également disposer de capacités de plate-forme de données pour stocker, interroger et partager efficacement les données de profil utilisateur et fournir des services de profil. La principale différence entre une plate-forme de profilage d'entreprise auto-construite et une plate-forme de profilage de middle-office est que la plate-forme de profilage auto-construite dessert un seul secteur d'activité et peut être personnalisée à la demande. La plate-forme de mid-office dessert plusieurs secteurs d'activité et est complexe ; modélisation et offre des fonctionnalités plus générales. 2.58 Portraits d'utilisateurs de l'arrière-plan de la construction du portrait sur la plate-forme médiane 58

Discussion sur les raisons et les solutions au manque de framework Big Data en langage Go Mar 29, 2024 pm 12:24 PM

À l’ère actuelle du Big Data, le traitement et l’analyse des données sont devenus un support important pour le développement de diverses industries. En tant que langage de programmation doté d'une efficacité de développement élevée et de performances supérieures, le langage Go a progressivement attiré l'attention dans le domaine du big data. Cependant, par rapport à d'autres langages tels que Java, Python, etc., le langage Go prend en charge relativement mal les frameworks Big Data, ce qui a causé des problèmes à certains développeurs. Cet article explorera les principales raisons du manque de framework Big Data dans le langage Go, proposera des solutions correspondantes et l'illustrera avec des exemples de code spécifiques. 1. Allez dans la langue

IA, jumeaux numériques, visualisation... Points forts de la conférence de lancement de produit d'automne 2023 de Yizhiwei ! Nov 14, 2023 pm 05:29 PM

Le lancement du produit d'automne 2023 de Yizhiwei s'est terminé avec succès ! Revoyons ensemble les moments forts de la conférence ! 1. Une ouverture intelligente et inclusive, permettant aux jumeaux numériques de devenir productifs Ning Haiyuan, co-fondateur de Kangaroo Cloud et PDG de Yizhiwei, a déclaré dans son discours d'ouverture : Lors de la réunion stratégique de l'entreprise de cette année, nous avons positionné l'orientation principale de la recherche et du développement de produits comme « Ouverture intelligente et inclusive » « Trois capacités principales, en nous concentrant sur les trois mots-clés fondamentaux de « l'ouverture intelligente et inclusive », nous avons en outre proposé l'objectif de développement consistant à « faire des jumeaux numériques une force productive ». 2. EasyTwin : explorez un nouveau moteur de jumeau numérique plus facile à utiliser 1. De la version 0.1 à 1.0, continuez à explorer le moteur de rendu de fusion jumelle numérique pour obtenir de meilleures solutions avec un mode d'édition 3D mature, des plans interactifs pratiques et des ressources de modèle massives.

Premiers pas : utiliser le langage Go pour traiter le Big Data Feb 25, 2024 pm 09:51 PM

En tant que langage de programmation open source, le langage Go a progressivement reçu une attention et une utilisation généralisées ces dernières années. Il est privilégié par les programmeurs pour sa simplicité, son efficacité et ses puissantes capacités de traitement simultané. Dans le domaine du traitement du Big Data, le langage Go a également un fort potentiel. Il peut être utilisé pour traiter des données massives, optimiser les performances et peut être bien intégré à divers outils et frameworks de traitement du Big Data. Dans cet article, nous présenterons quelques concepts et techniques de base du traitement du Big Data en langage Go, et montrerons comment utiliser le langage Go à travers des exemples de code spécifiques.

Traitement du Big Data en technologie C++ : Comment utiliser les bases de données en mémoire pour optimiser les performances du Big Data ? May 31, 2024 pm 07:34 PM

Dans le traitement du Big Data, l'utilisation d'une base de données en mémoire (telle qu'Aerospike) peut améliorer les performances des applications C++ car elle stocke les données dans la mémoire de l'ordinateur, éliminant ainsi les goulots d'étranglement d'E/S disque et augmentant considérablement les vitesses d'accès aux données. Des cas pratiques montrent que la vitesse de requête lors de l'utilisation d'une base de données en mémoire est plusieurs fois plus rapide que lors de l'utilisation d'une base de données sur disque dur.