Hinzufügen von JAR-Dateien zu einem Spark-Job mit Spark-Submit
ClassPath-Effekte
Verwenden extraClassPath oder --driver-class-path legt den Klassenpfad für den Treiberknoten fest, während spark.executor.extraClassPath ihn für Arbeitsknoten festlegt. Damit ein JAR beide betrifft, geben Sie es in beiden Konfigurationen an.
Trennzeichen
Das verwendete Trennzeichen hängt vom Betriebssystem ab:
Dateiverteilung
Im Client-Modus werden Dateien über verteilt ein HTTP-Server. Im Clustermodus müssen sie den Mitarbeitern über HDFS oder einen anderen gemeinsam genutzten Speicher zur Verfügung gestellt werden.
URI-Typen
Zu den akzeptierten URL-Schemata gehören:
Betroffene Optionen
Priorität
Direkt auf der SparkConf festgelegte Werte haben Vorrang vor Flags oder Spark-Submit-Optionen.
Der Einfachheit halber
Im Client-Modus kann man Folgendes verwenden, um JARs für Fahrer und Arbeiter hinzuzufügen:
spark-submit --jars additional1.jar,additional2.jar \ --driver-class-path additional1.jar:additional2.jar \ --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \ --class MyClass main-application.jar
Im Cluster-Modus Stellen Sie jedoch sicher, dass JARs über ein gemeinsames Speichersystem zugänglich sind.
Das obige ist der detaillierte Inhalt vonWie füge ich mit Spark-Submit JAR-Dateien zu einem Spark-Job hinzu und wie funktioniert der Klassenpfad?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!