如何在Python中使用開源資料集？-Python教學-PHP中文網

如何在Python中使用開源資料集？

王林

發布： 2023-06-03 15:40:36

原創

2097 人瀏覽過

隨著大數據時代的到來，數據分析和機器學習已經成為了熱門領域。然而，對於初學者來說，如何獲取資料集並進行分析和訓練模型可能會是一個困難的任務。為了解決這個問題，開源社群已經提供了豐富的資料集，而Python作為一種流行的程式語言，也提供了各種方法來使用這些資料集。

本文介紹在Python中使用開源資料集的方法和工具，例如資料載入、瀏覽、清洗、視覺化和分析。我們將使用公開的資料集進行實例演示，以幫助讀者掌握這些技能。

載入資料集

首先，我們需要將資料集載入到Python程式中。有許多開源資料集可以從網路上下載，例如UCI Machine Learning Repository，Kaggle等等。這些資料集一般以CSV、JSON、XML等多種格式進行保存。

在Python中，pandas是一個非常有用的函式庫，我們可以使用pandas透過幾行程式碼來載入CSV格式的資料集：

import pandas as pd

data = pd.read_csv("example.csv")

登入後複製

資料瀏覽

#一旦資料集被載入到Python中，我們就可以開始瀏覽這些資料了。我們可以使用pandas的head()方法來查看前幾行資料：

print(data.head())

登入後複製

如果我們想要查看資料集中的最後幾行，我們可以使用tail()方法。

我們也可以使用shape屬性來獲取資料集的大小：

print(data.shape)

登入後複製

此外，我們可以使用describe()方法來獲取資料集的簡單統計信息，例如最小值、最大值、平均值等等：

print(data.describe())

登入後複製

資料清洗

當我們瀏覽資料集時，我們可能會發現資料集中存在缺失值、異常值或重複值等問題。在資料分析和機器學習中，這些問題是非常嚴重的，因此我們需要對它們進行清洗。

對於缺失值，我們可以使用fillna()方法進行填充，以0或平均值的方式進行：

data.fillna(0, inplace=True)

登入後複製

如果我們想要刪除資料集中的重複行，可以使用drop_duplicates( )方法：

data.drop_duplicates(inplace=True)

登入後複製

對於異常值，我們可以使用標準差來判斷是否異常，並將其替換為平均值：

mean = data["col"].mean()
std = data["col"].std()
cut_off = std * 3
lower, upper = mean - cut_off, mean + cut_off
new_data = [x if x > lower and x < upper else mean for x in data["col"]]
data["col"] = new_data

登入後複製

資料視覺化

資料視覺化是資料分析的重要步驟之一，在Python中，我們可以使用Matplotlib和Seaborn等函式庫來進行資料視覺化。

例如，我們可以使用Matplotlib庫繪製資料集中的折線圖：

import matplotlib.pyplot as plt

plt.plot(data["col"])
plt.show()

登入後複製

或使用Seaborn庫的Pairplot方法來進行多個變數的分佈圖：

import seaborn as sns

sns.pairplot(data)

登入後複製

資料分析

在資料視覺化之後，我們可以進行更深入的資料分析，例如建立模型、訓練模型、預測等等。 Python提供了許多函式庫來支援這些操作，例如Scikit-learn和TensorFlow等等。

例如，我們可以使用Scikit-learn函式庫來建立線性迴歸模型：

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X = data[["col1", "col2"]]
y = data["target_col"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

登入後複製

在以上的例子中，我們使用train_test_split方法將資料集分成了訓練集和測試集，然後使用LinearRegression類別建立模型，最後使用predict方法對測試集進行預測。

結論

本文介紹如何在Python中使用開源資料集進行資料分析和機器學習。我們透過使用pandas函式庫來載入和瀏覽資料集，使用Matplotlib和Seaborn函式庫進行資料視覺化，使用Scikit-learn函式庫建立和訓練模型。這些技術和工具不僅適用於本文提到的開源資料集，也適用於其他類型的資料集，例如Web資料、感測器資料等等。隨著數據分析和機器學習的發展，這些技術和工具也將不斷更新和改進，提供更好的性能和易用性。

以上是如何在Python中使用開源資料集？的詳細內容。更多資訊請關注PHP中文網其他相關文章！