Combien d'outils sont nécessaires pour l'analyse du Big Data ?-Problème commun-php.cn

Maison

Problème commun

Combien d'outils sont nécessaires pour l'analyse du Big Data ?

爱喝马黛茶的安东尼

Jul 25, 2019 pm 05:25 PM

大数据分析工具

1. Outils liés à Hadoop

1. Hadoop

Le projet Hadoop d'Apache est presque équipé. avec les mégadonnées. Il continue de croître et est devenu un écosystème complet avec de nombreux outils open source pour une informatique distribuée hautement évolutive.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

2.Ambari

Dans le cadre de l'écosystème Hadoop, ce projet Apache fournit une interface Web intuitive pour la configuration, la gestion et la surveillance des clusters Hadoop. Pour les développeurs qui souhaitent intégrer la fonctionnalité Ambari dans leurs propres applications, Ambari leur fournit une API qui tire parti de REST (Representational State Transfer Protocol).

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

3.Avro

Ce projet Apache fournit un système de sérialisation de données avec des structures de données riches et des formats compacts. Les schémas sont définis en JSON, qui s'intègre facilement aux langages dynamiques.

4.Cascading

Cascading est une plateforme de développement d'applications basée sur Hadoop. Fournir des services de soutien aux entreprises et de formation.

5.Chukwa

Chukwa est basé sur Hadoop et peut collecter des données à partir de grands systèmes distribués à des fins de surveillance. Il contient également des outils d'analyse et d'affichage des données.

Systèmes d'exploitation pris en charge : Linux et OSX.

6. Flume

Flume peut collecter des données de journal provenant d'autres applications, puis envoyer les données à Hadoop. Le site officiel affirme : « Il est puissant, tolérant aux pannes et dispose d'un mécanisme de fiabilité qui peut être ajusté et optimisé ainsi que de nombreux mécanismes de basculement et de récupération. »

Systèmes d'exploitation pris en charge : Linux et OSX.

7.HBase

HBase est conçu pour de très grandes tables avec des milliards de lignes et des millions de colonnes. Il s'agit d'une base de données distribuée qui peut effectuer une lecture/écriture aléatoire sur du Big Data. accéder. Il est quelque peu similaire à Bigtable de Google, mais est construit sur Hadoop et Hadoop Distributed File System (HDFS).

8. Système de fichiers distribués Hadoop (HDFS)

HDFS est un système de fichiers pour Hadoop, mais il peut également être utilisé comme système de fichiers distribué indépendant. Il est basé sur Java et est tolérant aux pannes, hautement évolutif et hautement configurable.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

9.Hive

ApacheHive est un entrepôt de données pour l'écosystème Hadoop. Il permet aux utilisateurs d'interroger et de gérer le Big Data à l'aide de HiveQL, un langage de type SQL.

10.Hivemall

Hivemall combine une variété d'algorithmes d'apprentissage automatique pour Hive. Il comprend de nombreux algorithmes hautement évolutifs pour la classification des données, la récursivité, la recommandation, les k-voisins les plus proches, la détection d'anomalies et le hachage de fonctionnalités.

11.Mahout

Selon le site officiel, l'objectif du projet Mahout est de « créer un environnement permettant de créer rapidement des applications d'apprentissage automatique évolutives et hautes performances ». HadoopMapReduce Il existe de nombreux algorithmes d'exploration de données sur Internet, notamment de nouveaux algorithmes pour les environnements Scala et Spark.

12.MapReduce

En tant que partie intégrante de Hadoop, le modèle de programmation MapReduce fournit une méthode de traitement de grands ensembles de données distribuées. Il a été initialement développé par Google, mais est désormais utilisé par plusieurs autres outils Big Data abordés dans cet article, notamment CouchDB, MongoDB et Riak.

13.Oozie

Cet outil de planification de flux de travail est spécialement conçu pour gérer les tâches Hadoop. Il peut déclencher des tâches en fonction du temps ou de la disponibilité des données et s'intègre à MapReduce, Pig, Hive, Sqoop et de nombreux autres outils associés.

Systèmes d'exploitation pris en charge : Linux et OSX.

14.Pig

ApachePig est une plateforme d'analyse distribuée du Big Data. Il s'appuie sur un langage de programmation appelé PigLatin, qui présente les avantages d'une programmation parallèle simplifiée, d'une optimisation et d'une évolutivité.

15.Sqoop

Les entreprises ont souvent besoin de transférer des données entre des bases de données relationnelles et Hadoop, et Sqoop est un outil qui peut accomplir cette tâche. Il peut importer des données dans Hive ou HBase et les exporter depuis Hadoop vers un système de gestion de base de données relationnelle (SGBDR).

16.Spark

En alternative à MapReduce, Spark est un moteur de traitement de données. Il prétend être jusqu'à 100 fois plus rapide que MapReduce lorsqu'il est utilisé en mémoire et jusqu'à 10 fois plus rapide que MapReduce lorsqu'il est utilisé sur disque. Il peut être utilisé avec Hadoop et Apache Mesos ou indépendamment.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

17.Tez

Tez est construit sur Apache HadoopYARN, "un framework d'application qui permet de créer un graphe acyclique dirigé complexe pour les tâches de traitement des données. "Il permet à Hive et Pig de simplifier les tâches complexes cela nécessiterait autrement plusieurs étapes.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

18.Zookeeper

Cet outil de gestion du Big Data prétend être "un service centralisé qui peut être utilisé pour conserver les informations de configuration, le nom, fournir une synchronisation distribuée et fournir des services de groupe". nœuds du cluster Hadoop pour se coordonner les uns avec les autres.

Systèmes d'exploitation pris en charge : Linux, Windows (convient uniquement à l'environnement de développement) et OSX (convient uniquement à l'environnement de développement).

Recommandations associées : "FAQ"

2. Plateformes et outils d'analyse de Big Data

19.Disco

Disco a été développé à l'origine par Nokia. Il s'agit d'un framework informatique distribué, comme Hadoop. qui est également basé sur MapReduce. Il comprend un système de fichiers distribué et une base de données prenant en charge des milliards de clés et de valeurs.

Systèmes d'exploitation pris en charge : Linux et OSX.

20. HPCC

Comme alternative à Hadoop, une plate-forme Big Data comme HPCC promet une vitesse très rapide et une super évolutivité. En plus de la version communautaire gratuite, HPCC Systems propose également des versions d'entreprise payantes, des modules payants, des formations, des conseils et d'autres services.

Systèmes d'exploitation pris en charge : Linux.

21. Lumify

Détenue par Altamira Technologies (connue pour sa technologie de sécurité nationale), Lumify est une plateforme open source d'intégration, d'analyse et de visualisation de big data. Vous pouvez simplement essayer la version démo sur Try.Lumify.io pour la voir en action.

Systèmes d'exploitation pris en charge : Linux.

22.Pandas

Le projet Pandas comprend des structures de données et des outils d'analyse de données basés sur le langage de programmation Python. Il permet aux entreprises d'utiliser Python comme alternative à R pour les projets d'analyse Big Data.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

23.Storm

Storm est désormais un projet Apache, qui assure le traitement en temps réel du big data (contrairement à Hadoop qui ne propose que le traitement par lots). Ses utilisateurs incluent Twitter, The Weather Channel, WebMD, Alibaba, Yelp, Yahoo Japan, Spotify, Group, Flipboard et bien d'autres.

Systèmes d'exploitation pris en charge : Linux.

3. Base de données/entrepôt de données

24.Blazegraph

Blazegraph s'appelait auparavant « Bigdata », qui est un outil hautement évolutif et performant. base de données. Il est disponible avec des licences open source et commerciales.

25. Cassandra

Cette base de données NoSQL a été initialement développée par Facebook et est maintenant utilisée par plus de 1 500 entreprises, dont Apple, l'Organisation européenne pour la recherche nucléaire (CERN), Comcast, Electronic Harbor. , GitHub, GoDaddy, Hulu, Instagram, Intuit, Netfilx, Reddit et autres. Il peut prendre en charge des clusters à très grande échelle ; par exemple, le système Cassandra déployé par Apple comprend plus de 75 000 nœuds et contient plus de 10 Po de données.

26.CouchDB

CouchDB est connue comme « une base de données qui englobe pleinement Internet ». Elle stocke les données dans des documents JSON, qui peuvent être interrogés via un navigateur Web et utilisés pour les gérer. Il est facile à utiliser, hautement disponible et évolutif sur un réseau distribué.

Systèmes d'exploitation pris en charge : Windows, Linux, OSX et Android.

27.FlockDB

FlockDB développé par Twitter est une base de données graphique très rapide et évolutive qui permet de stocker les données des réseaux sociaux. Bien qu'elle soit toujours disponible en téléchargement, la version open source du projet n'a pas été mise à jour depuis un certain temps.

28.Hibari

Ce projet basé sur Erlang prétend être "un système de stockage clé-valeur ordonné et distribué qui garantit une forte cohérence". Il a été initialement développé par Gemini Mobile Technologies et est désormais utilisé par plusieurs opérateurs de télécommunications en Europe et en Asie.

29.Hypertable

Hypertable est une base de données Big Data compatible avec Hadoop, promettant des performances ultra élevées. Ses utilisateurs incluent Electronic Harbor, Baidu, Gaopeng, Yelp et de nombreuses autres sociétés Internet. Fournir des services de soutien aux entreprises.

Systèmes d'exploitation pris en charge : Linux et OSX.

30.Impala

Cloudera affirme que la base de données Impala basée sur SQL est « la principale base de données analytique open source pour Apache Hadoop ». Il peut être téléchargé en tant que produit autonome et fait partie des produits commerciaux Big Data de Cloudera.

Systèmes d'exploitation pris en charge : Linux et OSX.

31. InfoBright Community Edition

Conçue pour l'analyse des données, InfoBright est une base de données orientée colonnes avec un taux de compression élevé. InfoBright.com propose des produits payants basés sur le même code et fournit des services d'assistance.

Systèmes d'exploitation pris en charge : Windows et Linux.

32.MongoDB

Avec plus de 10 millions de téléchargements, mongoDB est une base de données NoSQL extrêmement populaire. L'édition Entreprise, le support, la formation et les produits et services associés sont disponibles sur MongoDB.com.

Systèmes d'exploitation pris en charge : Windows, Linux, OSX et Solaris.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7518

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment optimiser les performances de Debian Readdir Apr 13, 2025 am 08:48 AM

Dans Debian Systems, les appels du système ReadDir sont utilisés pour lire le contenu des répertoires. Si ses performances ne sont pas bonnes, essayez la stratégie d'optimisation suivante: simplifiez le nombre de fichiers d'annuaire: divisez les grands répertoires en plusieurs petits répertoires autant que possible, en réduisant le nombre d'éléments traités par appel ReadDir. Activer la mise en cache de contenu du répertoire: construire un mécanisme de cache, mettre à jour le cache régulièrement ou lorsque le contenu du répertoire change et réduire les appels fréquents à Readdir. Les caches de mémoire (telles que Memcached ou Redis) ou les caches locales (telles que les fichiers ou les bases de données) peuvent être prises en compte. Adoptez une structure de données efficace: si vous implémentez vous-même la traversée du répertoire, sélectionnez des structures de données plus efficaces (telles que les tables de hachage au lieu de la recherche linéaire) pour stocker et accéder aux informations du répertoire

Comment Debian améliore la vitesse de traitement des données Hadoop Apr 13, 2025 am 11:54 AM

Cet article examine comment améliorer l'efficacité du traitement des données Hadoop sur les systèmes Debian. Les stratégies d'optimisation couvrent les mises à niveau matérielle, les ajustements des paramètres du système d'exploitation, les modifications de configuration de Hadoop et l'utilisation d'algorithmes et d'outils efficaces. 1. Le renforcement des ressources matérielles garantit que tous les nœuds ont des configurations matérielles cohérentes, en particulier en faisant attention aux performances du CPU, de la mémoire et de l'équipement réseau. Le choix des composants matériels de haute performance est essentiel pour améliorer la vitesse de traitement globale. 2. Réglage des paramètres JVM: Ajustez dans le fichier hadoop-env.sh

Comment Debian OpenSSL empêche les attaques de l'homme au milieu Apr 13, 2025 am 10:30 AM

Dans Debian Systems, OpenSSL est une bibliothèque importante pour le chiffrement, le décryptage et la gestion des certificats. Pour empêcher une attaque d'homme dans le milieu (MITM), les mesures suivantes peuvent être prises: utilisez HTTPS: assurez-vous que toutes les demandes de réseau utilisent le protocole HTTPS au lieu de HTTP. HTTPS utilise TLS (Protocole de sécurité de la couche de transport) pour chiffrer les données de communication pour garantir que les données ne sont pas volées ou falsifiées pendant la transmission. Vérifiez le certificat de serveur: vérifiez manuellement le certificat de serveur sur le client pour vous assurer qu'il est digne de confiance. Le serveur peut être vérifié manuellement via la méthode du délégué d'URLSession

Comment utiliser les journaux Nginx pour améliorer la vitesse du site Web Apr 13, 2025 am 09:09 AM

L'optimisation des performances du site Web est inséparable à partir d'une analyse approfondie des journaux d'accès. Le journal Nginx enregistre les informations détaillées des utilisateurs visitant le site Web. L'utilisation intelligente de ces données peut efficacement améliorer la vitesse du site Web. Cet article présentera plusieurs méthodes d'optimisation des performances du site Web basées sur les journaux Nginx. 1. Analyse et optimisation du comportement des utilisateurs. En analysant le journal NGINX, nous pouvons acquérir une compréhension approfondie du comportement des utilisateurs et faire une optimisation ciblée en fonction de ceci: Identification IP d'accès à haute fréquence: Trouvez l'adresse IP avec la fréquence d'accès la plus élevée, et optimiser la configuration des ressources du serveur pour ces adresses IP, telles que l'augmentation de la bande passante ou l'amélioration de la vitesse de réponse du contenu spécifique. Analyse du code d'état: analyser la fréquence des différents codes d'état HTTP (tels que 404 erreurs), trouver des problèmes dans la navigation du site Web ou la gestion du contenu et procéder

Méthode d'installation du certificat de Debian Mail Server SSL Apr 13, 2025 am 11:39 AM

Les étapes pour installer un certificat SSL sur le serveur de messagerie Debian sont les suivantes: 1. Installez d'abord la boîte à outils OpenSSL, assurez-vous que la boîte à outils OpenSSL est déjà installée sur votre système. Si ce n'est pas installé, vous pouvez utiliser la commande suivante pour installer: Sudoapt-getUpDaSuDoapt-getInstallOpenSSL2. Générer la clé privée et la demande de certificat Suivant, utilisez OpenSSL pour générer une clé privée RSA 2048 bits et une demande de certificat (RSE): OpenSS

Comment recycler des packages qui ne sont plus utilisés Apr 13, 2025 am 08:51 AM

Cet article décrit comment nettoyer les packages logiciels inutiles et libérer l'espace disque dans le système Debian. Étape 1: Mettez à jour la liste des packages Assurez-vous que votre liste de packages est à jour: SudoaptupDate Étape 2: Afficher les packages installés Utilisez la commande suivante pour afficher tous les packages installés: DPKG - GETT-Selections | Grep-Vdeinstall Étape 3: Identifier les packages de redondance Utilisez l'outil d'aptitude pour trouver des packages qui ne sont plus nécessaires. L'aptitude fournira des suggestions pour vous aider à supprimer en toute sécurité les packages: SudoaptitudEsearch '~ Pimportant' Cette commande répertorie les balises

Comment empêcher les problèmes de sécurité de Debian Apache Log Apr 13, 2025 am 09:24 AM

Le renforcement de la sécurité des journaux du serveur Debianapache nécessite des efforts de collaboration à partir de plusieurs aspects. Les stratégies suivantes peuvent réduire efficacement les risques de sécurité: 1. Surveillance et analyse des journaux de journal Analyse des journaux automatisés: Utilisez LogCheck, Logrotate et d'autres outils pour vérifier et analyser régulièrement les journaux pour détecter rapidement les activités suspectes et les attaques potentielles. Système de surveillance en temps réel: établissez un système de surveillance des journaux, tel que Elkstack (Elasticsearch, Logstash, Kibana), pour réaliser une surveillance et une analyse en temps réel des données de journal. 2. Paramètres d'autorisation stricts pour les autorisations du fichier journal: Définissez raisonnablement les autorisations du fichier journal, telles que l'utilisation de CHMOD640 / VAR / LOG

Comment Debian Readdir s'intègre à d'autres outils Apr 13, 2025 am 09:42 AM

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {