qu'est-ce qu'Apache Spark-Apache-php.cn

Maison

Opération et maintenance

Apache

qu'est-ce qu'Apache Spark

步履不停

Jun 28, 2019 pm 01:52 PM

apache spark

qu'est-ce qu'Apache Spark

Spark est un système informatique en cluster open source basé sur l'informatique en mémoire, visant à accélérer l'analyse des données. Spark est très petit et exquis et a été développé par une petite équipe dirigée par Matei du laboratoire AMP de l'Université de Californie à Berkeley. Le langage utilisé est Scala et le code de la partie principale du projet ne contient que 63 fichiers Scala, ce qui est très court et concis.

Spark est un environnement informatique en cluster open source similaire à Hadoop, mais il existe quelques différences entre les deux. Ces différences utiles rendent Spark supérieur dans certaines charges de travail. En d'autres termes, Spark permet des ensembles de données distribués en mémoire. optimiser les charges de travail itératives en plus de pouvoir fournir des requêtes interactives.

Spark est implémenté dans le langage Scala et utilise Scala comme framework d'application. Contrairement à Hadoop, Spark et Scala sont étroitement intégrés, Scala permettant de manipuler des ensembles de données distribués aussi facilement que des objets de collection locaux.

Bien que Spark ait été créé pour prendre en charge les tâches itératives sur des ensembles de données distribués, il est en réalité complémentaire à Hadoop et peut s'exécuter en parallèle sur le système de fichiers Hadoop. Ce comportement est pris en charge via un framework de cluster tiers appelé Mesos. Développé par l'AMP Lab (Algorithms, Machines, and People Lab) de l'UC Berkeley, Spark peut être utilisé pour créer des applications d'analyse de données à grande échelle et à faible latence.

Architecture informatique en cluster Spark
Bien que Spark présente des similitudes avec Hadoop, il fournit un nouveau cadre informatique en cluster avec des différences utiles. Premièrement, Spark est conçu pour un type spécifique de charge de travail dans le cluster computing, à savoir celles qui réutilisent des ensembles de données de travail (tels que les algorithmes d'apprentissage automatique) entre des opérations parallèles. Pour optimiser ces types de charges de travail, Spark introduit le concept de cluster computing en mémoire, dans lequel les ensembles de données sont mis en cache en mémoire pour réduire la latence d'accès.

Spark introduit également une abstraction appelée Resilient Distributed Dataset (RDD). Un RDD est une collection d'objets en lecture seule répartis sur un ensemble de nœuds. Ces collections sont résilientes et peuvent être reconstruites si une partie de l'ensemble de données est perdue. Le processus de reconstruction d'ensembles de données partiels repose sur des mécanismes de tolérance aux pannes qui maintiennent la « lignée » (c'est-à-dire les informations qui permettent la reconstruction d'ensembles de données partiels sur la base de processus de dérivation de données). Un RDD est représenté comme un objet Scala, qui peut être créé à partir d'un fichier ; une tranche parallélisée (répartie sur les nœuds) et finalement une modification complète de la persistance du RDD existant, comme les requêtes mises en cache ; en mémoire.

Les applications dans Spark sont appelées pilotes, et ces pilotes implémentent des opérations qui sont effectuées sur un seul nœud ou en parallèle sur un ensemble de nœuds. Comme Hadoop, Spark prend en charge les clusters à nœud unique ou les clusters à plusieurs nœuds. Pour le fonctionnement multi-nœuds, Spark s'appuie sur le gestionnaire de cluster Mesos. Mesos fournit une plate-forme efficace pour le partage et l'isolation des ressources pour les applications distribuées. Cette configuration permet à Spark et Hadoop de coexister dans un pool partagé de nœuds.

Pour des articles plus techniques liés à Apache, veuillez visiter la colonne Tutoriel Apache pour apprendre !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7465

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comparaison des performances du framework PHP : la confrontation ultime entre vitesse et efficacité. Apr 30, 2024 pm 12:27 PM

Selon les benchmarks, Laravel excelle dans la vitesse de chargement des pages et les requêtes de bases de données, tandis que CodeIgniter excelle dans le traitement des données. Lorsque vous choisissez un framework PHP, vous devez tenir compte de la taille de l'application, des modèles de trafic et des compétences de l'équipe de développement.

Comment effectuer des tests de concurrence et le débogage dans la programmation simultanée Java ? May 09, 2024 am 09:33 AM

Tests de concurrence et débogage Les tests de concurrence et le débogage dans la programmation simultanée Java sont cruciaux et les techniques suivantes sont disponibles : Tests de concurrence : tests unitaires : isolez et testez une seule tâche simultanée. Tests d'intégration : tester l'interaction entre plusieurs tâches simultanées. Tests de charge : évaluez les performances et l'évolutivité d'une application sous une charge importante. Débogage simultané : points d'arrêt : suspendez l'exécution du thread et inspectez les variables ou exécutez le code. Journalisation : enregistrez les événements et l'état du fil. Trace de pile : identifiez la source de l’exception. Outils de visualisation : surveillez l'activité des threads et l'utilisation des ressources.

Application d'algorithmes dans la construction de 58 plateformes de portraits May 09, 2024 am 09:01 AM

1. Contexte de la construction de la plateforme 58 Portraits Tout d'abord, je voudrais partager avec vous le contexte de la construction de la plateforme 58 Portraits. 1. La pensée traditionnelle de la plate-forme de profilage traditionnelle ne suffit plus. La création d'une plate-forme de profilage des utilisateurs s'appuie sur des capacités de modélisation d'entrepôt de données pour intégrer les données de plusieurs secteurs d'activité afin de créer des portraits d'utilisateurs précis. Elle nécessite également l'exploration de données pour comprendre le comportement et les intérêts des utilisateurs. et besoins, et fournir des capacités côté algorithmes ; enfin, il doit également disposer de capacités de plate-forme de données pour stocker, interroger et partager efficacement les données de profil utilisateur et fournir des services de profil. La principale différence entre une plate-forme de profilage d'entreprise auto-construite et une plate-forme de profilage de middle-office est que la plate-forme de profilage auto-construite dessert un seul secteur d'activité et peut être personnalisée à la demande. La plate-forme de mid-office dessert plusieurs secteurs d'activité et est complexe ; modélisation et offre des fonctionnalités plus générales. 2.58 Portraits d'utilisateurs de l'arrière-plan de la construction du portrait sur la plate-forme médiane 58

Comment ajouter un serveur dans Eclipse May 05, 2024 pm 07:27 PM

Pour ajouter un serveur à Eclipse, procédez comme suit : Créer un environnement d'exécution du serveur Configurer le serveur Créer une instance de serveur Sélectionner l'environnement d'exécution du serveur Configurer l'instance de serveur Démarrer le projet de déploiement du serveur

Le module évasif protège votre site Web des attaques DOS de la couche application Apr 30, 2024 pm 05:34 PM

Il existe une variété de méthodes d’attaque qui peuvent mettre un site Web hors ligne, et les méthodes les plus complexes impliquent des connaissances techniques en bases de données et en programmation. Une méthode plus simple est appelée attaque « DenialOfService » (DOS). Le nom de cette méthode d'attaque vient de son intention : faire refuser les demandes de service normales des clients ordinaires ou des visiteurs du site Web. De manière générale, il existe deux formes d'attaques DOS : les troisième et quatrième couches du modèle OSI, c'est-à-dire l'attaque de la couche réseau. La septième couche du modèle OSI, c'est-à-dire l'attaque de la couche application. attaque - la couche réseau, se produit lorsqu'un grand nombre de trafic indésirable circule vers le serveur Web. Lorsque le trafic de spam dépasse la capacité du réseau à le gérer, le site Web tombe en panne. Le deuxième type d'attaque DOS concerne la couche application et utilise des

Comment déployer et maintenir un site Web en utilisant PHP May 03, 2024 am 08:54 AM

Pour déployer et maintenir avec succès un site Web PHP, vous devez effectuer les étapes suivantes : Sélectionnez un serveur Web (tel qu'Apache ou Nginx) Installez PHP Créez une base de données et connectez PHP Téléchargez le code sur le serveur Configurez le nom de domaine et la maintenance du site Web de surveillance DNS les étapes comprennent la mise à jour de PHP et des serveurs Web, la sauvegarde du site Web, la surveillance des journaux d'erreurs et la mise à jour du contenu.

Comment tirer parti de Kubernetes Operator pour simplifier le déploiement cloud PHP ? May 06, 2024 pm 04:51 PM

KubernetesOperator simplifie le déploiement du cloud PHP en suivant ces étapes : Installez PHPOperator pour interagir avec le cluster Kubernetes. Déployez l'application PHP, déclarez l'image et le port. Gérez l'application à l'aide de commandes telles que l'obtention, la description et l'affichage des journaux.

Comment implémenter les meilleures pratiques de sécurité PHP May 05, 2024 am 10:51 AM

Comment mettre en œuvre les meilleures pratiques de sécurité PHP PHP est l'un des langages de programmation Web backend les plus populaires utilisés pour créer des sites Web dynamiques et interactifs. Cependant, le code PHP peut être vulnérable à diverses failles de sécurité. La mise en œuvre des meilleures pratiques de sécurité est essentielle pour protéger vos applications Web contre ces menaces. Validation des entrées La validation des entrées est une première étape essentielle pour valider les entrées utilisateur et empêcher les entrées malveillantes telles que l'injection SQL. PHP fournit une variété de fonctions de validation d'entrée, telles que filter_var() et preg_match(). Exemple : $username=filter_var($_POST['username'],FILTER_SANIT

See all articles