Mengintegrasikan Apache Spark dengan MySQL untuk Membaca Jadual Pangkalan Data sebagai Spark DataFrames
Untuk menyambungkan Apache Spark dengan MySQL dengan lancar dan mendapatkan data daripada jadual pangkalan data sebagai Spark DataFrames, ikuti langkah berikut:
Dari PySpark, gunakan fungsi mySqlContext.read untuk mewujudkan sambungan:
<code class="python">dataframe_mysql = mySqlContext.read.format("jdbc")</code>
Tetapkan parameter konfigurasi yang diperlukan untuk sambungan MySQL:
Muatkan data jadual ke dalam DataFrame menggunakan kaedah beban:
<code class="python">dataframe_mysql = dataframe_mysql.options( url="jdbc:mysql://localhost:3306/my_bd_name", driver = "com.mysql.jdbc.Driver", dbtable = "my_tablename", user="root", password="root").load()</code>
Setelah anda memuatkan data ke dalam DataFrame, anda boleh melakukan pelbagai operasi padanya, seperti transformasi dan pengagregatan , menggunakan set kaya Spark bagi API.
Atas ialah kandungan terperinci Bagaimana untuk Membaca Jadual Pangkalan Data MySQL sebagai Spark DataFrames?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!