Rumah > pembangunan bahagian belakang > Tutorial Python > Buat DataFrame pertama anda di Pyspark

Buat DataFrame pertama anda di Pyspark

Johnathan Smith
Lepaskan: 2025-03-07 18:33:42
asal
425 orang telah melayarinya

Membuat DataFrame pertama anda di Pyspark

Mewujudkan DataFrame di Pyspark, struktur data teras untuk Spark, adalah langkah asas untuk sebarang tugas pemprosesan data. Terdapat beberapa cara untuk mencapai matlamat ini, bergantung kepada sumber data anda. Pendekatan yang paling mudah dan paling biasa adalah menggunakan kaedah spark.read.csv(), yang akan kita pelajari secara terperinci kemudian. Walau bagaimanapun, sebelum menyelam ke dalam spesifik, mari kita sediakan persekitaran percikan kami. Anda perlu memasang Pyspark. Jika tidak, anda boleh memasangnya menggunakan pip install pyspark. Kemudian, anda perlu memulakan percikan, yang merupakan titik masuk ke fungsi percikan. Ini biasanya dilakukan seperti berikut:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
Salin selepas log masuk
Salin selepas log masuk

Ini mewujudkan objek SparkSession bernama spark. Kami akan menggunakan objek ini sepanjang contoh kami. Ingat untuk menghentikan sesi apabila selesai menggunakan spark.stop(). Sekarang, kami sudah bersedia untuk membuat data data pertama kami.

Membuat DataFrame dari fail CSV di Pyspark

membaca data dari fail CSV adalah kaedah yang lazim untuk membuat dataframe di Pyspark. Fungsi spark.read.csv() menawarkan fleksibiliti dalam mengendalikan pelbagai ciri CSV. Mari kita anggap anda mempunyai fail CSV bernama data.csv dalam direktori kerja anda dengan struktur berikut:

Name,Age,City
Alice,25,New York
Bob,30,London
Charlie,28,Paris
Salin selepas log masuk

Inilah cara anda boleh membuat dataFrame dari fail CSV ini:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()

df = spark.read.csv("data.csv", header=True, inferSchema=True)

df.show()
spark.stop()
Salin selepas log masuk

Jika pilihan ini tidak ditentukan, Spark akan menganggap baris pertama adalah data dan akan memberikan jenis data lalai (biasanya rentetan) ke semua lajur. Anda secara jelas boleh menentukan skema dengan menggunakan objek <🎜 🎜> untuk lebih banyak kawalan, yang sangat bermanfaat untuk dataset kompleks atau besar.

  • dari senarai senarai atau tuples: anda boleh membuat dataFrame secara langsung dari senarai Python atau tuples. Setiap senarai/tuple dalaman mewakili baris, dan senarai dalaman/tuple pertama mentakrifkan nama lajur. DataFrame.
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
Salin selepas log masuk
Salin selepas log masuk
  • Ini amat berguna untuk data separa berstruktur. Membaca dari fail parket sering lebih cepat daripada CSV. Gunakan untuk ini. Objek menyediakan kaedah untuk mengakses sumber -sumber ini. Kesalahan. Secara jelas menentukan skema sering lebih selamat, terutamanya untuk dataset yang besar dengan jenis data yang pelbagai. Pertimbangkan memisahkan data anda atau menggunakan teknik lain seperti
  • untuk mengehadkan bilangan rekod yang dibaca setiap fail. menghalang pemprosesan. Pembersihan data dan pra -proses adalah penting sebelum membuat dataframe untuk menangani ini. Pantau penggunaan memori dengan teliti, terutamanya semasa penciptaan data, untuk mencegah kesilapan keluar-memori. Memilih kaedah yang sesuai untuk penciptaan DataFrame berdasarkan sumber dan saiz data anda adalah kunci untuk mengoptimumkan prestasi.

Atas ialah kandungan terperinci Buat DataFrame pertama anda di Pyspark. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan