線性迴歸：從理論到實踐-Python教學-PHP中文網

在本指南中，我們將解釋線性迴歸及其工作原理，並逐步引導您完成整個過程。我們也將介紹特徵縮放和梯度下降，這是提高模型準確度的關鍵技術。無論您是分析業務趨勢還是深入研究資料科學，本指南都是一個很好的起點。

介紹

線性迴歸是一種簡單而強大的工具，用於理解不同因素之間的關係並做出預測。例如，您可能想知道您的學習時間如何影響您的考試成績，一棟房子根據其大小和位置可以賣多少錢，或透過更多的廣告如何增加銷售額。線性迴歸使我們能夠檢查資料點（例如學習時間或廣告支出）並繪製一條最能預測結果的直線，例如測驗分數或銷售資料。這項技術在許多領域都很有價值，可以幫助我們根據數據做出明智的決策。

了解監督學習

在深入研究線性迴歸之前，有必要了解監督式學習，這是一種使用標記資料來訓練模型的機器學習方法。在監督式學習中，我們為模型提供訓練範例，其中包括特徵（輸入變數）及其對應的標籤（正確的輸出）。

監督學習任務主要有兩種：

迴歸：這可以從無限範圍的可能輸出預測連續值。例如，根據各種特徵預測房價。
分類：這與迴歸不同，它是從一組有限的可能類別中預測類別或類別。例如，確定電子郵件是否為垃圾郵件。

什麼是線性迴歸？

線性迴歸是統計和機器學習中使用的一種監督學習方法，用於理解兩類變數之間的關係：自變數（我們認為影響結果的因素）和因變數（我們想要預測的結果）。

目標是使用線性方程式找到表示這種關係的最佳擬合線。透過分析標記資料（具有已知結果的資料），線性迴歸可以幫助我們了解自變數的變化如何影響因變數。

術語

Linear Regression : From Theory to Practice

簡單線性迴歸

簡單線性迴歸檢查一個因變數和一個自變數之間的關係。它的目的是透過將直線擬合到資料點來對關係進行建模，可以用以下方程式表示：

Linear Regression : From Theory to Practice

在此等式中：

y_hat（或 f_wb(x)）:因變量，表示預測的結果。這是我們根據自變數的輸入來估計的值。
b : 這是迴歸線的截距。它表示當自變數 x 為零時因變數 y 的期望值。截距允許迴歸線垂直調整以更好地擬合資料。
w : 自變數 x 的係數。此係數表示 x 變化一單位時因變數 y_hat 的變化量。正 w 表示隨著 x 的增加，y_hat也會增加，而負 w 表示反比關係。
x : 自變量，充當模型中的預測變數。此變數是用於估計 y_hat 表示的結果的輸入。

多元線性迴歸

多元線性迴歸透過檢查一個因變數與兩個或多個自變數之間的關係擴展了簡單線性迴歸的概念。這種方法使我們能夠建模更複雜的關係並了解多種因素如何影響結果。

Linear Regression : From Theory to Practice

地點：

n : 特徵總數（自變數）

成本函數

成本函數，也稱為損失函數，量化模型產生的預期（真實）值和預測值之間的差異。它衡量模型在給定資料集上的表現。在簡單線性迴歸中，最常用的成本函數是均方誤差。

Linear Regression : From Theory to Practice

地點：

m 是訓練樣本的數量
y_hat 是預測值
y 是實際值或期望值

特徵縮放

特徵縮放是資料預處理中的關鍵步驟，特別是在使用依賴距離計算或梯度下降優化的演算法時，例如線性迴歸、邏輯迴歸和支援向量機。特徵縮放的目的是標準化資料中自變數或特徵的範圍，以確保它們對模型的學習過程做出同等的貢獻。

特徵縮放的常用技術

平均值歸一化

均值歸一化涉及調整特徵值，使其均值為零。

Linear Regression : From Theory to Practice

特點

資料範圍約為 [−1,1] 或接近它。
對異常值敏感，這可能會扭曲平均值並影響標準化。

用例

線性迴歸：有助於提升訓練過程中的收斂性。
基於梯度的演算法：當資料以零為中心時，神經網路和其他基於梯度的演算法通常收斂得更快。
沒有顯著異常值的資料集：對於具有相似範圍且沒有極端異常值的資料集特別有效。

最小-最大縮放

最小-最大縮放是一種用於將特徵重新縮放到固定範圍的技術，通常為 [0,1] 或 [−1,1]。

Linear Regression : From Theory to Practice

特點

固定範圍：將資料縮放到特定範圍，通常為[0,1]。
對異常值的敏感度：它可能會受到異常值的顯著影響，這可能會扭曲其他值的縮放。

用例

影像處理：常用於卷積神經網路 (CNN) 等深度學習模型，其中像素值縮放為 [0,1]。
基於距離的演算法：對於依賴距離計算的演算法至關重要，例如k 最近鄰(KNN)、k 均值聚類和支援向量機(SVM)，以確保所有特徵的貢獻相等.
基於樹的模型：雖然與其他演算法相比，基於樹的模型（例如決策樹和隨機森林）不太重要，但它在特徵尺度差異很大的情況下仍然可以提供幫助。

Z 分數標準化

Z 分數標準化，也稱為標準縮放，將特徵轉換為平均值為零和標準差為 1。此技術對於假設常態分佈資料的演算法特別有用。

Linear Regression : From Theory to Practice

地點：

sigma 是特徵的標準差。

特點

均值居中：將資料以零為中心。
單位變異數：確保標準差為一。
對異常值的穩健性：與最小-最大縮放相比更穩健，但對極端異常值仍然敏感。

用例

神經網路：在訓練過程中增強效能並加速收斂。
主成分分析 (PCA) 和 線性判別分析 (LDA)：這些技術需要確保所有功能同等貢獻。
高斯樸素貝葉斯：透過規範化輸入特徵來提高分類性能。

穩健的縮放

穩健縮放是一種基於中位數和四分位數範圍 (IQR) 縮放特徵的技術。此方法對於具有顯著異常值的資料集特別有用，因為它減少了這些異常值對縮放值的影響。

Linear Regression : From Theory to Practice

地點：

IQR(x) 是特徵的四分位數範圍，定義為訓練集第 75 個百分位數和第 25 個百分位數之間的差異

特點

中位數居中：將資料圍繞中位數而不是平均值居中，使其更能適應異常值。
四分位數範圍(IQR) ：使用IQR 縮放數據，IQR 是訓練資料的第75 個百分位數(Q3) 和第25 個百分位數(Q1) 之間的差值。這有助於保持發行版的穩健性。

用例

有異常值的資料：在存在異常值的情況下有效。
金融：在可能包含極端價值的金融資料集中有用。
環境資料：非常適合測量結果差異很大的環境資料集。

梯度下降

梯度下降是一種強大的最佳化演算法，用於訓練機器學習模型，包括線性迴歸。其主要目標是最小化預期值和預測值之間的誤差。

最初，成本函數的斜率在起始（任意）點可能很陡。隨著演算法迭代和更新參數，斜率逐漸減小，引導模型趨向成本函數的最低點，稱為收斂點或局部最小值。在這個收斂點，成本函數達到最小值，表示模型預測盡可能接近實際值。一旦參數達到這一點，進一步的更新會對預測產生最小的變化，這表明優化過程已有效地識別了數據的最佳擬合參數。

流程涉及以下關鍵步驟：