


Quels sont les outils et frameworks Big Data que les développeurs Java doivent connaître ?
1. MongoDB - la base de données multiplateforme orientée document la plus populaire.
MongoDB est une base de données basée sur le stockage de fichiers distribué, écrite en langage C++. Conçu pour fournir des solutions de stockage de données évolutives et hautes performances pour les applications Web. Les performances des applications dépendent des performances de la base de données. MongoDB est la base de données non relationnelle la plus riche en fonctionnalités et ressemble le plus à une base de données relationnelle. Avec la sortie de MongoDB 3.4, ses capacités de scénarios d'application ont été encore étendues.
Les principaux avantages de MongoDB sont un modèle de document flexible, un jeu de réplicas haute disponibilité et un cluster fragmenté évolutif. Vous pouvez essayer de comprendre MongoDB sous plusieurs aspects, tels que la surveillance en temps réel des outils MongoDB, l'utilisation de la mémoire et les défauts de page, le nombre de connexions, les opérations de base de données, les jeux de réplication, etc.
2. Elasticsearch - un moteur de recherche RESTful distribué conçu pour le cloud.
ElasticSearch est un serveur de recherche basé sur Lucene. Il fournit un moteur de recherche en texte intégral distribué multi-utilisateurs basé sur une interface Web RESTful. Elasticsearch, développé en Java et publié en open source selon les termes de la licence Apache, est un moteur de recherche populaire au niveau des entreprises.
ElasticSearch n'est pas seulement un moteur de recherche en texte intégral, mais aussi un stockage de documents distribué en temps réel, dans lequel chaque champ contient des données indexées et peut être recherché, c'est également un moteur de recherche distribué avec des capacités d'analyse en temps réel, et peut être étendu à des centaines de serveurs stockant et traitant des pétaoctets de données. ElasticSearch utilise Lucene pour compléter sa fonction d'indexation au niveau inférieur, c'est pourquoi bon nombre de ses concepts de base proviennent de Lucene.
3. Cassandra - un système de gestion de bases de données distribuées open source, développé à l'origine par Facebook, conçu pour gérer de grandes quantités de données sur de nombreux serveurs de base, offrir une haute disponibilité et aucun point de défaillance unique.
Apache Cassandra est un système de base de données NoSQL distribué open source. Il combine le modèle de données de Google BigTable avec l'architecture entièrement distribuée d'Amazon Dynamo. Il a été open source en 2008. Depuis lors, en raison de sa bonne évolutivité, Cassandra a été adoptée par les sites Web 2.0 tels que Digg et Twitter et est devenue une solution de stockage de données structurées distribuées populaire.
Étant donné que Cassandra est écrit en Java, il peut théoriquement fonctionner sur des machines avec JDK6 et supérieur. Les JDK officiellement testés incluent OpenJDK et le JDK de Sun. Les commandes de fonctionnement de Cassandra sont similaires aux bases de données relationnelles que nous exploitons habituellement. Pour les amis qui connaissent MySQL, l'opération sera facile à démarrer.
4. Redis - stockage de structure de données en mémoire open source (sous licence BSD), utilisé comme base de données, cache et courtier de messages.
Redis est une base de données de valeurs-clés de type journal open source écrite en langage ANSI C, prend en charge le réseau, peut être basée sur la mémoire et persistante, et fournit des API dans plusieurs langues. Redis possède trois fonctionnalités principales qui le distinguent de nombreux autres concurrents : Redis est une base de données qui enregistre les données entièrement en mémoire, en utilisant le disque uniquement à des fins de persistance ; Redis possède un ensemble de types de données relativement riche par rapport à de nombreux systèmes de stockage de données à valeurs-clés ; ; Redis peut copier des données vers n'importe quel numéro
5. Hazelcast - une grille de données de mémoire open source basée sur Java.
Hazelcast est une grille de données en mémoire qui fournit aux programmeurs Java des transactions critiques et des applications de mémoire de niveau billion. Bien que Hazelcast n'ait pas de soi-disant "Master", il possède toujours un nœud Leader (le membre le plus ancien). Ce concept est similaire au Leader de ZooKeeper, mais le principe de mise en œuvre est complètement différent. Dans le même temps, les données de Hazelcast sont distribuées et chaque membre détient une partie des données et les données de sauvegarde correspondantes, ce qui est également différent de ZooKeeper.
La commodité de l'application Hazelcast est appréciée des développeurs, mais si vous souhaitez la mettre en œuvre, vous devez y réfléchir attentivement.
6. EHCache - un cache distribué Java open source largement utilisé. Principalement pour le cache général, Java EE et les conteneurs légers.
EhCache est un framework de mise en cache en cours de processus Java pur, rapide et performant. Il s'agit du CacheProvider par défaut en veille prolongée. Les principales fonctionnalités sont : rapide et simple, avec plusieurs stratégies de mise en cache ; les données mises en cache ont deux niveaux, mémoire et disque, il n'y a donc pas lieu de s'inquiéter des problèmes de capacité qui seront écrites sur le disque lors du redémarrage de la machine virtuelle ; il est accessible via RMI et l'API enfichable. Mise en cache distribuée d'autres manières ; dispose d'une interface d'écoute pour les gestionnaires de cache et de cache ; prend en charge plusieurs instances de gestionnaire de cache, ainsi que plusieurs zones de cache pour une instance ;
7. Hadoop - un framework logiciel open source écrit en Java, utilisé pour le stockage distribué, et pour les très grandes données, les utilisateurs peuvent développer des programmes distribués sans comprendre les détails sous-jacents de la distribution.
Exploitez pleinement les clusters pour le calcul et le stockage à haut débit. Hadoop implémente un système de fichiers distribué (Hadoop Distributed File System), appelé HDFS. La conception de base du framework Hadoop est : HDFS et MapReduce. HDFS fournit un stockage pour des données massives et MapReduce fournit un calcul pour des données massives.
8. Solr - une plateforme de recherche d'entreprise open source, écrite en Java, issue du projet Apache Lucene.
Solr est un serveur d'applications de recherche indépendant au niveau de l'entreprise qui fournit une interface API similaire au service Web. Les utilisateurs peuvent soumettre des fichiers XML dans un certain format au serveur du moteur de recherche via des requêtes http pour générer des index ; ils peuvent également effectuer des requêtes de recherche via des opérations Http Get et obtenir les résultats renvoyés au format XML.
Comme ElasticSearch, il est également basé sur Lucene, mais il l'étend pour fournir un langage de requête plus riche que Lucene, tout en étant configurable, évolutif et en optimisant les performances des requêtes.
9. Spark - le projet le plus actif de l'Apache Software Foundation, est un framework informatique en cluster open source.
Spark est un environnement informatique en cluster open source similaire à Hadoop, mais il existe certaines différences entre les deux qui rendent Spark plus supérieur dans certaines charges de travail. En d'autres termes, Spark permet d'utiliser des ensembles de données distribués en mémoire, en plus de pouvoir. pour fournir des requêtes interactives, il peut également optimiser les charges de travail itératives.
Spark est implémenté en langage Scala et utilise Scala comme framework d'application. Contrairement à Hadoop, Spark et Scala sont étroitement intégrés et Scala peut fonctionner aussi facilement que des objets de collection locaux.
10. Memcached - système général de cache de mémoire distribuée.
Memcached est un système de mise en cache distribué initialement développé par Danga Interactive pour LiveJournal, mais utilisé par de nombreux logiciels (tels que MediaWiki). En tant que serveur de cache distribué à haut débit, Memcached présente les caractéristiques suivantes : un protocole simple, un traitement des événements basé sur libevent et un stockage mémoire intégré.
11. Apache Hive - Fournit une couche de type SQL au-dessus de Hadoop.
Hive est une plateforme d'entrepôt de données basée sur Hadoop. Grâce à Hive, le travail ETL peut être facilement effectué. hive définit un langage de requête similaire à SQL, qui peut convertir le SQL écrit par l'utilisateur en programmes Mapreduce correspondants pour une exécution basée sur Hadoop. Actuellement, la version Apache Hive 2.1.1 a été publiée.
12. Apache Kafka - un système de messagerie par abonnement distribué à haut débit développé à l'origine par LinkedIn.
Apache Kafka est un projet de système de messagerie open source écrit en Scala. L'objectif de ce projet est de fournir une plateforme unifiée, à haut débit et à faible latence, pour le traitement des données en temps réel. Kafka gère les messages différenciés par classes, appelés sujets. Les producteurs publient des messages sur les sujets Kafka, et les consommateurs s'inscrivent auprès des sujets et reçoivent les messages publiés sur ces sujets.
13. Akka – Une boîte à outils pour créer des applications basées sur des messages hautement concurrentes, distribuées et résilientes sur la JVM.
Akka est une bibliothèque écrite en Scala qui simplifie l'écriture d'applications de modèles d'acteur Java et Scala tolérantes aux pannes et hautement évolutives. Il a été utilisé avec succès dans l’industrie des télécommunications et le système ne tombe presque jamais en panne.
14. HBase - base de données open source, non relationnelle et distribuée, modélisée à l'aide de BigTable de Google, écrite en Java et fonctionnant sur HDFS.
Différent des produits commerciaux de Big Data tels que FUJITSU Cliq, HBase est une implémentation open source de Google Bigtable. Semblable à Google Bigtable, qui utilise GFS comme système de stockage de fichiers, HBase utilise Hadoop HDFS comme système de stockage de fichiers. pour traiter des quantités massives dans Bigtable Data, HBase utilise également Hadoop MapReduce pour traiter des données massives dans HBase ; Google Bigtable utilise Chubby comme service collaboratif et HBase utilise Zookeeper comme contrepartie.
15. Neo4j - une base de données de graphiques open source implémentée en Java.
Neo4j est une base de données graphique NOSQL hautes performances qui stocke des données structurées sur le réseau au lieu de tables. Il s'agit d'un moteur de persistance Java intégré, basé sur disque et entièrement transactionnel.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Guide de la racine carrée en Java. Nous discutons ici du fonctionnement de Square Root en Java avec un exemple et son implémentation de code respectivement.

Guide du nombre parfait en Java. Nous discutons ici de la définition, comment vérifier le nombre parfait en Java ?, des exemples d'implémentation de code.

Guide du générateur de nombres aléatoires en Java. Nous discutons ici des fonctions en Java avec des exemples et de deux générateurs différents avec d'autres exemples.

Guide de Weka en Java. Nous discutons ici de l'introduction, de la façon d'utiliser Weka Java, du type de plate-forme et des avantages avec des exemples.

Guide du numéro Armstrong en Java. Nous discutons ici d'une introduction au numéro d'Armstrong en Java ainsi que d'une partie du code.

Guide du nombre de Smith en Java. Nous discutons ici de la définition, comment vérifier le numéro Smith en Java ? exemple avec implémentation de code.

Dans cet article, nous avons conservé les questions d'entretien Java Spring les plus posées avec leurs réponses détaillées. Pour que vous puissiez réussir l'interview.

Java 8 présente l'API Stream, fournissant un moyen puissant et expressif de traiter les collections de données. Cependant, une question courante lors de l'utilisation du flux est: comment se casser ou revenir d'une opération FOREAK? Les boucles traditionnelles permettent une interruption ou un retour précoce, mais la méthode Foreach de Stream ne prend pas directement en charge cette méthode. Cet article expliquera les raisons et explorera des méthodes alternatives pour la mise en œuvre de terminaison prématurée dans les systèmes de traitement de flux. Lire plus approfondie: Améliorations de l'API Java Stream Comprendre le flux Forach La méthode foreach est une opération terminale qui effectue une opération sur chaque élément du flux. Son intention de conception est
