Apache Spark est un framework informatique en cluster open source développé à l'origine par AMPLab de l'Université de Californie à Berkeley. Comparé à MapReduce de Hadoop, qui stocke les données intermédiaires sur le disque après l'exécution du travail, Spark utilise la technologie informatique en mémoire pour analyser et effectuer des opérations en mémoire avant que les données ne soient écrites sur le disque dur.
Spark peut exécuter des programmes en mémoire 100 fois plus rapidement que Hadoop MapReduce Même lors de l'exécution de programmes sur le disque dur, Spark peut s'exécuter 10 fois plus rapidement. Spark permet aux utilisateurs de charger des données dans le stockage du cluster et de les interroger plusieurs fois, ce qui le rend idéal pour les algorithmes d'apprentissage automatique.
L'utilisation de Spark nécessite un administrateur de cluster et un système de stockage distribué. Spark prend en charge le mode autonome (cluster Spark local), la gestion de cluster Hadoop YARN ou Apache Mesos.
En termes de stockage distribué, Spark peut s'interfacer avec HDFS, Cassandra, OpenStack Swift et Amazon S3. Spark prend également en charge le mode local pseudo-distribué, mais il n'est généralement utilisé que pour le développement ou les tests afin de remplacer le système de stockage distribué par le système de fichiers local. Dans de tels cas, Spark utilise uniquement chaque cœur de processeur sur une seule machine pour exécuter le programme.
En 2014, plus de 465 contributeurs ont investi dans le développement de Spark, ce qui en fait le projet le plus actif parmi l'Apache Software Foundation et de nombreux projets open source Big Data.
Pour plus de connaissances sur Apache, veuillez visiter la colonne Tutoriel d'utilisation d'Apache !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!