Integration von Apache Spark mit MySQL zum Lesen von Datenbanktabellen als Spark-DataFrames
Um Apache Spark nahtlos mit MySQL zu verbinden und Daten aus Datenbanktabellen abzurufen Spark DataFrames, folgen Sie diesen Schritten:
Verwenden Sie in PySpark die Funktion mySqlContext.read, um die Verbindung herzustellen:
<code class="python">dataframe_mysql = mySqlContext.read.format("jdbc")</code>
Legen Sie die erforderlichen Konfigurationsparameter für die MySQL-Verbindung fest:
Laden Sie die Tabellendaten mithilfe der Lademethode in einen DataFrame:
<code class="python">dataframe_mysql = dataframe_mysql.options( url="jdbc:mysql://localhost:3306/my_bd_name", driver = "com.mysql.jdbc.Driver", dbtable = "my_tablename", user="root", password="root").load()</code>
Sobald Sie die Daten in einen DataFrame geladen haben, können Sie verschiedene Vorgänge darauf ausführen, wie z. B. Transformationen und Aggregationen , unter Verwendung der umfangreichen APIs von Spark.
Das obige ist der detaillierte Inhalt vonWie lese ich MySQL-Datenbanktabellen als Spark-DataFrames?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!