Lors de l'utilisation de Spark-Submit, il existe plusieurs options pour ajouter des fichiers JAR à une tâche Spark, chacune avec ses propres implications pour le chemin de classe, la distribution des fichiers et la priorité.
Spark-Submit influence les ClassPaths via ces options :
Pour qu'un fichier soit inclus sur les deux ClassPaths, il doit être spécifié dans les les deux indicateurs.
La distribution des fichiers dépend du mode d'exécution :
Spark-Submit prend en charge les préfixes d'URI suivants pour la distribution de fichiers :
Les options mentionnées dans la question affectent la gestion des fichiers JAR comme suit :
Les propriétés définies directement sur SparkConf ont la priorité la plus élevée, suivies des indicateurs Spark-Submit, puis des options dans spark-defaults.conf. Par conséquent, toutes les valeurs définies dans le code remplaceront les indicateurs ou options correspondants.
En mode client, il est sûr d'ajouter des fichiers JAR en utilisant les trois options principales :
spark-submit --jars additional1.jar,additional2.jar \ --driver-class-path additional1.jar:additional2.jar \ --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \ --class MyClass main-application.jar
Cependant, en mode cluster, vous ne devez ajouter des fichiers qu'à l'aide de --jars et les distribuer manuellement vous-même aux nœuds de travail. Les arguments redondants comme la transmission de fichiers JAR à --driver-library-path doivent être évités.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!