Intégrer Apache Spark à MySQL pour la lecture des tables de base de données
Pour connecter Apache Spark à MySQL et exploiter les tables de base de données en tant que dataframes Spark, suivez ces étapes :
Créer une session Spark:
<code class="python">from pyspark.sql import SparkSession # Create a Spark session object spark = SparkSession.builder \ .appName("Spark-MySQL-Integration") \ .getOrCreate()</code>
Instancier un connecteur MySQL :
<code class="python">from pyspark.sql import DataFrameReader # Create a DataFrameReader object for MySQL connection jdbc_df_reader = DataFrameReader(spark)</code>
Configurer les paramètres de connexion MySQL :
<code class="python"># Set MySQL connection parameters jdbc_params = { "url": "jdbc:mysql://localhost:3306/my_db", "driver": "com.mysql.jdbc.Driver", "dbtable": "my_table", "user": "root", "password": "password" }</code>
Lire la table de base de données :
<code class="python"># Read the MySQL table as a Spark dataframe dataframe_mysql = jdbc_df_reader.format("jdbc") \ .options(**jdbc_params) \ .load() # Print the dataframe schema dataframe_mysql.printSchema()</code>
Cette approche montre comment intégrer Apache Spark à MySQL, vous permettant d'accéder aux tables de base de données en tant que dataframes Spark.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!