データベース テーブルの読み取りのための Apache Spark と MySQL の統合
Apache Spark を MySQL に接続し、データベース テーブルを Spark データフレームとして利用するには、次の手順に従います。 :
Spark セッションを作成します:
<code class="python">from pyspark.sql import SparkSession # Create a Spark session object spark = SparkSession.builder \ .appName("Spark-MySQL-Integration") \ .getOrCreate()</code>
MySQL コネクタをインスタンス化します:
<code class="python">from pyspark.sql import DataFrameReader # Create a DataFrameReader object for MySQL connection jdbc_df_reader = DataFrameReader(spark)</code>
MySQL 接続パラメータの構成:
<code class="python"># Set MySQL connection parameters jdbc_params = { "url": "jdbc:mysql://localhost:3306/my_db", "driver": "com.mysql.jdbc.Driver", "dbtable": "my_table", "user": "root", "password": "password" }</code>
データベース テーブルの読み取り :
<code class="python"># Read the MySQL table as a Spark dataframe dataframe_mysql = jdbc_df_reader.format("jdbc") \ .options(**jdbc_params) \ .load() # Print the dataframe schema dataframe_mysql.printSchema()</code>
このアプローチでは、Apache Spark を MySQL と統合し、Spark データフレームとしてデータベース テーブルにアクセスできるようにする方法を示します。
以上がMySQL テーブルを Spark DataFrame として読み取る方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。