Apache Spark mit MySQL integrieren: Datenbanktabellen in Spark-DataFrames einlesen
Die Integration von Spark mit MySQL ermöglicht Ihnen den nahtlosen Zugriff auf MySQL-Datenbanktabellen und -Prozesse ihre Daten innerhalb Ihrer Spark-Anwendungen. So können Sie dies erreichen:
In PySpark können Sie den folgenden Codeausschnitt nutzen:
<code class="python">dataframe_mysql = mySqlContext.read.format("jdbc").options( url="jdbc:mysql://localhost:3306/my_bd_name", driver="com.mysql.jdbc.Driver", dbtable="my_tablename", user="root", password="root").load()</code>
Dieser Code stellt eine JDBC-Verbindung zu Ihrer MySQL-Datenbank her und lädt die angegebene Datenbanktabelle hinein ein Spark-DataFrame mit dem Namen dataframe_mysql.
Sie können dann mithilfe der umfangreichen APIs von Spark verschiedene Datentransformationen und Vorgänge am DataFrame durchführen. Sie können beispielsweise Daten aus der Tabelle filtern, aggregieren und mit anderen Datenquellen verknüpfen.
Beachten Sie, dass Sie möglicherweise sicherstellen müssen, dass der MySQL-JDBC-Treiber im Klassenpfad Ihrer Spark-Anwendung enthalten ist, damit diese Integration funktioniert .
Das obige ist der detaillierte Inhalt vonWie lese ich MySQL-Datenbanktabellen mit PySpark in Spark DataFrames ein?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!