請我喝杯咖啡☕
*備忘錄:
-
我的文章解釋了梯度消失問題、梯度爆炸問題和 ReLU 死亡問題。
-
我的文章解釋了 PyTorch 中的圖層。
-
我的文章解釋了 PyTorch 中的激活函數。
-
我的文章解釋了 PyTorch 中的損失函數。
-
我的文章解釋了 PyTorch 中的優化器。
*過度擬合和欠擬合都可以透過Holdout方法或交叉驗證(K-Fold Cross-Validation)來檢測。 *交叉驗證更好。
過擬合:
- 問題是模型對訓練資料的預測準確率很高,但對新資料(包括測試資料)的預測卻很少,因此模型對訓練資料的擬合程度比對新資料的擬合程度要高。
- 發生的原因是:
- 訓練資料很小(不夠),因此模型只能學習少量模式。
- 訓練數據是不平衡的(有偏差的),有很多特定的(有限的)、相似或相同的數據,但沒有很多不同的數據,因此模型只能學習少量的模式。
- 訓練資料有很多雜訊(雜訊資料),因此模型會學習許多雜訊的模式,但不會學習正常資料的模式。 *雜訊(雜訊資料) 表示離群值、異常或有時重複的資料。
- 訓練時間過長,epoch數過多。
- 模型太複雜。
- 可以透過以下方式緩解:
- 更大的列車數據。
- 擁有大量各種數據。
- 減少噪音。
- 打亂資料集。
- 提前停止訓練。
- 整合學習。
- 正則化以降低模型複雜性:
*備註:
- 有Dropout(正規化)。 *我的貼文解釋了 Dropout 層。
- L1 正規化也稱為 L1 範數或套索迴歸。
- L2 正規化也稱為 L2 範數或嶺迴歸。
-
我的貼文解釋了 linalg.norm()。
-
我的貼文解釋了 linalg.vector_norm()。
-
我的貼文解釋了 linalg.matrix_norm()。
欠擬合:
- 是模型無法對訓練資料和新資料(包括測試資料)進行準確預測的問題,因此模型無法同時擬合訓練資料和新資料。
- 發生的原因是:
- 模型太簡單(不夠複雜)。
- 訓練時間太短,epoch數太少。
- 應用了過度正規化(Dropout、L1 和 L2 正規化)。
- 可以透過以下方式緩解:
- 增加模型複雜度。
- 透過更多的 epoch 來增加訓練時間。
- 減少正規化。
過擬合和欠擬合是權衡的:
過多的過度擬合緩解(5.、6. 和7.)會導致高偏差和低方差的欠擬合,而過多的欠擬合緩解( 1.、2.和3.)會導致低偏差和高方差的過度擬合,因此應平衡其緩解措施,如下所示:
*備忘錄:
- 你也可以說偏差和方差是權衡的因為減少偏差會增加方差,而減少方差會增加偏差,因此它們應該是平衡的。 *增加模型複雜度會減少偏差,但會增加方差,同時降低模型複雜度會減少方差,但會增加偏差。
- 低偏差意味著高精度,高偏差意味著低精度。
- 低方差意味著高精度,高方差意味著低精度。
以上是過擬合與欠擬合的詳細內容。更多資訊請關注PHP中文網其他相關文章!