監督學習有哪些常見演算法？都是如何應用的-人工智慧-PHP中文網

import numpy as np <br>import pandas as pd <br>import matplotlib.pyplot as plt <br>import seaborn as sns from sklearn <br>import linear_model from sklearn.model_selection <br>import train_test_split import os

登入後複製

2. 讀取和取樣我們的資料集

#為了簡化資料集，我們抽取了50 個資料行的樣本，並將資料值四捨五入為2 個有效數字。

請注意，您應該在完成此步驟之前匯入給定的資料集。

df = pd.read_csv("../input/random-linear-regression/train.csv") <br>df=df.sample(50) df=round(df,2)

登入後複製

3. 過濾 Null 和Infinite 值

如果資料集包含空值和無限值，則可能會出現錯誤。因此，我們將使用 clean_dataset 函數來清理這些值的資料集。

def clean_dataset(df): <br>assert isinstance(df, pd.DataFrame), "df needs to be a pd.DataFrame" <br>df.dropna(inplace=True) <br>indices_to_keep = ~df.isin([np.nan, np.inf, -np.inf]).any(1) <br>return df[indices_to_keep].astype(np.float64)<br>df=clean_dataset(df)

登入後複製

4. 選擇我們依賴和獨立的價值觀

請注意，我們將資料轉換為 DataFrame 格式。 #dataframe 資料類型是一種二維結構，可將我們的資料對齊到行和列中。

5. 拆分資料集

我們將資料集分割為訓練和測試部分。選擇測試資料集大小為總資料集的 20%。

請注意，透過設定random_state=1，每次模型運行時，都會發生相同的數據拆分，從而產生完全相同的訓練和測試數據集。

這在您想要進一步調整模型的情況下很有用。

x_train,  x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=1)

登入後複製

6.建立线性回归模型

使用导入的线性回归模型，我们可以在模型中自由使用线性回归算法，绕过我们为给定模型获得的 x 和 y 训练变量。

lm=linear_model.LinearRegression() lm.fit(x_train,y_train)

登入後複製

7. 以分散的方式绘制我们的数据

df.plot(kind="scatter", x="x", y="y")

登入後複製

8. 绘制我们的线性回归线

plt.plot(X,lm.predict(X), color="red")

登入後複製

監督學習有哪些常見演算法？都是如何應用的

蓝点表示数据点，而红线是模型绘制的最佳拟合线性回归线。线性模型算法总是会尝试绘制最佳拟合线以尽可能准确地预测结果。

逻辑回归

与线性回归类似，逻辑回归根据输入变量预测输出值，两种算法的主要区别在于逻辑回归算法的输出是分类（离散）变量。

对于 Python的示例，会使用逻辑回归将“花”分成两个不同的类别/种类。在给定的数据集中会包括不同花的多个特征。

模型的目的是将给花识别为Iris-setosa、Iris-versicolor或 Iris-virginica 几个种类。

下面是给定数据集的截图：

監督學習有哪些常見演算法？都是如何應用的

使用 Python 的逻辑回归模型示例

1.导入必要的库

import numpy as np <br>import pandas as pd from sklearn.model_selection <br>import train_test_split import warnings warnings.filterwarnings('ignore')

登入後複製

2. 导入数据集

data = pd.read_csv('../input/iris-dataset-logistic-regression/iris.csv')

登入後複製

3. 选择我们依赖和独立的价值观

对于独立 value(x) ，将包括除类型列之外的所有可用列。至于我们的可靠值（y），将只包括类型列。

X = data[['x0','x1','x2','x3','x4']] <br>y = data[['type']]

登入後複製

4. 拆分数据集

将数据集分成两部分，80% 用于训练数据集，20% 用于测试数据集。

X_train,X_test,y_train,y_test = train_test_split(X,y, test_size=0.2, random_state=1)

登入後複製

5. 运行逻辑回归模型

从 linear_model 库中导入整个逻辑回归算法。然后我们可以将 X 和 y 训练数据拟合到逻辑模型中。

from sklearn.linear_model import LogisticRegression <br>model = LogisticRegression(random_state = 0) <br>model.fit(X_train, y_train)

登入後複製

6. 评估我们模型的性能

print(lm.score(x_test, y_test))

登入後複製

返回值为0.9845128775509371，这表明我们模型的高性能。

请注意，随着测试分数的增加，模型的性能也会增加。

7. 绘制图表

import matplotlib.pyplot as plt %matplotlib inline <br>plt.plot(range(len(X_test)), pred,'o',c='r')

登入後複製

输出图：

監督學習有哪些常見演算法？都是如何應用的

在逻辑图中，红点表示给定的数据点。这些点清楚地分为 3 类，Virginica、versicolor 和 setosa 花种。

使用这种技术，逻辑回归模型可以根据花在图表上的位置轻松对花类型进行分类。

支持向量机

支持向量机( SVM) 算法是另一个著名的监督机器学习模型，由 Vladimir Vapnik 创建，它能够解决分类和回归问题。实际上它更多地被用到解决分类问题。

SVM 算法能够将给定的数据点分成不同的组。算法在绘制出数据之后，可以绘制最合适的线将数据分成多个类别，从而分析数据之间的关系。

如下图所示，绘制的线将数据集完美地分成 2 个不同的组，蓝色和绿色。

監督學習有哪些常見演算法？都是如何應用的

SVM 模型可以根据图形的维度绘制直线或超平面。行只能用于二维数据集，这意味着只有 2 列的数据集。

如果是多个特征来预测数据集，就需要更高的维度。在数据集超过 2 维的情况下，支持向量机模型将绘制超平面。

在支持向量机 Python 的示例中，将对 3 种不同的花卉类型进行物种分类。我们的自变量包括花的所有特征，而因变量是花所属物种。

花卉品种包括Iris-setosa、 Iris-versicolor和Iris-virginica。

下面是数据集的截图：

監督學習有哪些常見演算法？都是如何應用的

使用 Python 的支持向量机模型示例

1.导入必要的库

import numpy as np <br>import pandas as pd from sklearn.model_selection <br>import train_test_split from sklearn.datasets <br>import load_iris

登入後複製

2. 读取给定的数据集

请注意，在执行此步骤之前，应该导入数据集。

data = pd.read_csv(‘../input/iris-flower-dataset/IRIS.csv’)

登入後複製

3. 将数据列拆分为因变量和自变量

将 X 值作为自变量，其中包含除物种列之外的所有列。

因变量y仅包含模型预测的物种列。

X = data.drop(‘species’, axis=1) y = data[‘species’]

登入後複製

*4. 将数据集拆分**为训练和测试数据集*

将数据集分为两部分，其中我们将 80% 的数据放入训练数据集中，将 20% 放入测试数据集中。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

登入後複製

5.导入SVM并运行模型

导入了支持向量机算法。然后，使用上面步骤中收到的 X 和 y 训练数据集运行它。

from sklearn.svm import SVC <br>model = SVC( ) <br>model.fit(X_train, y_train)

登入後複製

6. 测试模型的性能

model.score(X_test, y_test)

登入後複製

为了评估模型的性能，将使用 score 函数。在第四步中创建的 X 和 y 测试值输入到 score 方法中。

返回值为0.9666666666667，这表明模型的高性能。

请注意，随着测试分数的增加，模型的性能也会增加。

其他流行的監督機器學習演算法

雖然線性、邏輯和SVM 演算法非常可靠，但還會提到一些有監督的機器學習演算法。

1.決策

監督學習有哪些常見演算法？都是如何應用的

#決策樹演算法

是一種有監督的機器學習模型，它利用樹狀結構來決策。決策樹通常用於分類問題，其中模型可以決定資料集中給定項目所屬的群組。

請注意，使用的樹格式是倒轉樹的格式。 2. 隨機森林

監督學習有哪些常見演算法？都是如何應用的

被認為是更複雜的演算法，#隨機森林演算法

透過建立大量決策樹來實現其最終目標。

意味著同時建立多個決策樹，每個決策樹都會傳回自己的結果，然後將其組合以獲得更好的結果。

對於分類問題，隨機森林模型將產生多個決策樹，並根據大多數樹預測的分類組對給定物件進行分類。模型可以修復由單一樹引起的過度擬合#問題

#。同時，隨機森林演算法也可用於迴歸，儘管可能導致不良結果。

監督學習有哪些常見演算法？都是如何應用的 3. k-最近

鄰

##k最近 #鄰#(KNN) 演算法是一種監督機器學習方法，它將所有給定資料分組到單獨的組中。這種分組是基於不同個體之間的共同特徵。 KNN 演算法可用於分類和迴歸問題。

###############KNN 的#########################範例#### ########就是############將動物圖像分類到不同的群組集中。 ##########

總結

本文介紹了監督機器學習及其可以解決的兩類問題，並解釋了分類和迴歸問題，給出了每個輸出資料類型的一些範例。

詳細解釋了線性迴歸是什麼以及它是如何運作的，並提供了一個Python 中的具體範例，它會根據獨立的X 變數預測Y 值。

接著介紹 #了邏輯迴歸模型#，

並給出了分類模型範例，該範例將給定的圖像分類為具體花的種類##。對於支援向量機演算法，#可以用它來預測3 種不同花種的給定花種。

最後#列出#了其他著名的監督機器學習演算法，例如決策樹、隨機森林和K 近鄰演算法。無論您是為了學習#、工作還是娛樂閱讀本文，我們認為了解這些#演算法是開始

進入機器學習領域的一個開端。

如果您有興趣並想了解更多關於機器學習領域的信息，我們建議您##深入研究此類演算法的工作原理以及如何調整此類模型以進一步提高其性能。

譯者介紹

#崔皓，51CTO社群編輯，資深架構師，擁有18年的軟體開發與架構經驗，10年分散式架構經驗。曾任惠普技術專家。樂於分享，寫了許多熱門科技文章，閱讀量超過60萬。《分散式架構原則與實作》

##########作者。 ##################原文標題：###############Primary Supervised Learning Algorithms Used in Machine Learning##### ##########，作者：Kevin Vu#########

以上是監督學習有哪些常見演算法？都是如何應用的的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn