Dengan kemunculan era data besar, analisis data dan pembelajaran mesin telah menjadi bidang yang popular. Walau bagaimanapun, cara mendapatkan set data, menganalisisnya dan melatih model boleh menjadi tugas yang sukar untuk pemula. Untuk menyelesaikan masalah ini, komuniti sumber terbuka telah menyediakan set data yang kaya, dan Python, sebagai bahasa pengaturcaraan yang popular, juga menyediakan pelbagai kaedah untuk menggunakan set data ini.
Artikel ini memperkenalkan kaedah dan alatan untuk menggunakan set data sumber terbuka dalam Python, seperti pemuatan data, penyemakan imbas, pembersihan, visualisasi dan analisis. Kami akan menggunakan set data yang tersedia untuk umum untuk demonstrasi praktikal untuk membantu pembaca menguasai kemahiran ini.
- Memuatkan set data
Mula-mula, kita perlu memuatkan set data ke dalam program Python. Terdapat banyak set data sumber terbuka yang boleh dimuat turun dari web, seperti Repositori Pembelajaran Mesin UCI, Kaggle, dsb. Set data ini biasanya disimpan dalam pelbagai format seperti CSV, JSON dan XML.
Dalam Python, panda ialah pustaka yang sangat berguna Kita boleh menggunakan panda untuk memuatkan set data dalam format CSV dengan beberapa baris kod:
import pandas as pd
data = pd.read_csv("example.csv")
Salin selepas log masuk
- Pelayaran Data
<. 🎜>
Setelah set data dimuatkan ke dalam Python, kami boleh mula meneroka data. Kita boleh menggunakan kaedah head() panda untuk melihat beberapa baris pertama data:
print(data.head())
Salin selepas log masuk
Jika kita ingin melihat beberapa baris terakhir dalam set data, kita boleh menggunakan kaedah tail().
Kita juga boleh menggunakan atribut shape untuk mendapatkan saiz set data:
print(data.shape)
Salin selepas log masuk
Selain itu, kita boleh menggunakan kaedah describe() untuk mendapatkan statistik ringkas bagi set data, seperti sebagai nilai minimum, nilai maksimum , purata, dsb.:
print(data.describe())
Salin selepas log masuk
Pembersihan Data
Apabila kita menyemak imbas set data, kita mungkin mendapati terdapat nilai yang hilang, outlier atau nilai pendua dalam set data. Dalam analisis data dan pembelajaran mesin, masalah ini sangat serius, jadi kita perlu membersihkannya.
Untuk nilai yang tiada, kita boleh menggunakan kaedah fillna() untuk mengisinya dengan 0 atau min:
data.fillna(0, inplace=True)
Salin selepas log masuk
Jika kita ingin memadamkan baris pendua dalam set data, kita boleh menggunakan drop_duplicates ( ) Kaedah:
data.drop_duplicates(inplace=True)
Salin selepas log masuk
Untuk outlier, kita boleh menggunakan sisihan piawai untuk menentukan sama ada ia tidak normal dan menggantikannya dengan min:
mean = data["col"].mean()
std = data["col"].std()
cut_off = std * 3
lower, upper = mean - cut_off, mean + cut_off
new_data = [x if x > lower and x < upper else mean for x in data["col"]]
data["col"] = new_data
Salin selepas log masuk
Penggambaran Data
Penggambaran data ialah salah satu langkah penting dalam analisis data Dalam Python, kita boleh menggunakan perpustakaan seperti Matplotlib dan Seaborn untuk visualisasi data.
Sebagai contoh, kita boleh menggunakan pustaka Matplotlib untuk melukis carta garis dalam set data:
import matplotlib.pyplot as plt
plt.plot(data["col"])
plt.show()
Salin selepas log masuk
atau gunakan kaedah Pairplot pustaka Seaborn untuk membuat carta pengedaran berbilang pembolehubah:
import seaborn as sns
sns.pairplot(data)
Salin selepas log masuk
Analisis Data
Selepas visualisasi data, kami boleh menjalankan analisis data yang lebih mendalam, seperti membina model, model latihan, ramalan, dsb. Python menyediakan banyak perpustakaan untuk menyokong operasi ini, seperti Scikit-learn dan TensorFlow, antara lain.
Sebagai contoh, kita boleh menggunakan perpustakaan Scikit-learn untuk membina model regresi linear:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
X = data[["col1", "col2"]]
y = data["target_col"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
Salin selepas log masuk
Dalam contoh di atas, kami menggunakan kaedah train_test_split untuk membahagikan set data kepada set latihan dan set ujian, dan kemudian Gunakan kelas LinearRegression untuk membina model, dan akhirnya gunakan kaedah ramalan untuk meramal set ujian.
Kesimpulan
Artikel ini memperkenalkan cara menggunakan set data sumber terbuka untuk analisis data dan pembelajaran mesin dalam Python. Kami menggunakan pustaka panda untuk memuatkan dan menyemak imbas set data, perpustakaan Matplotlib dan Seaborn untuk visualisasi data, dan perpustakaan Scikit-Learn untuk membina dan melatih model. Teknik dan alatan ini bukan sahaja terpakai pada set data sumber terbuka yang disebut dalam artikel ini, tetapi juga pada jenis set data lain, seperti data Web, data penderia, dsb. Apabila analisis data dan pembelajaran mesin berkembang, teknologi dan alatan ini akan terus dikemas kini dan dipertingkatkan, memberikan prestasi yang lebih baik dan kemudahan penggunaan.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan set data sumber terbuka dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!