Zugriff auf Java/Scala-Funktionen über Apache Spark-Aufgaben
In PySpark kann das Aufrufen von Java/Scala-Funktionen innerhalb von Aufgaben aufgrund von Einschränkungen eine Herausforderung sein das Py4J-Gateway.
Grundlegendes Problem
Das Py4J-Gateway, das die Kommunikation zwischen Python und Java/Scala erleichtert, läuft nur auf dem Treiber und ist für Mitarbeiter nicht zugänglich. Bestimmte Vorgänge, wie DecisionTreeModel.predict, verwenden JavaModelWrapper.call, um Java-Funktionen aufzurufen, die direkten Zugriff auf SparkContext erfordern.
Problemumgehungen
Die standardmäßige Py4J-Kommunikation ist jedoch nicht möglich , gibt es mehrere Problemumgehungen:
Spark SQL Data Sources API:
Scala UDFs:
Scala-Schnittstellen:
Externes Workflow-Management:
Gemeinsamer SQLContext:
Das obige ist der detaillierte Inhalt vonWie rufe ich Java/Scala-Funktionen von Apache Spark-Aufgaben in PySpark auf?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!