目錄
訓練集、驗證集與測試集
如何拆分資料集
資料拆分的技術
資料分割中的常見陷阱
首頁 科技週邊 人工智慧 資料拆分的技術與陷阱-訓練集、驗證集與測試集的使用方式

資料拆分的技術與陷阱-訓練集、驗證集與測試集的使用方式

Jan 22, 2024 pm 02:45 PM
機器學習

資料拆分的技術與陷阱-訓練集、驗證集與測試集的使用方式

為了建立可靠的機器學習模型,資料集的拆分是不可或缺的。拆分過程包括將資料集分為訓練集、驗證集和測試集。本文旨在詳細介紹這三個集合的概念、資料拆分的技術以及容易出現的陷阱。

訓練集、驗證集與測試集

#訓練集

訓練集是用於訓練和使模型學習資料中隱藏的特徵/模式的資料集。

在每個epoch中,相同的訓練資料被重複輸入神經網路架構,模型繼續學習資料的特徵。

訓練集應該具有多樣化的輸入集,以便模型在所有場景下都得到訓練,並且可以預測未來可能出現的資料樣本。

驗證集

驗證集是一組數據,與訓練集分開,用於在訓練期間驗證模型效能。

此驗證程序提供的資訊可協助調整模型的超參數和配置。該模型在訓練集上進行訓練,同時,在每個epoch之後對驗證集進行模型評估。

將資料集拆分為驗證集的主要目的是防止模型過度擬合,即該模型非常擅長對訓練集中的樣本進行分類,但不能對沒有見過的數據進行泛化和準確分類。

測試集

測試集是一組單獨的數據,用於在完成訓練後測試模型。它在準確度、精確度等方面提供了一個無偏的最終模型性能指標。簡單來說,測試集可反映出模型的效能。

如何拆分資料集

在資料集中建立不同的樣本和分割有助於判斷真實模型的效能。資料集拆分率取決於資料集中存在的樣本數量和模型。

資料集拆分常見推論

如果有多個超參數需要調整,機器學習模型需要更大的驗證集來最佳化模型性能。同樣,如果模型的超參數較少或沒有超參數,則可以輕鬆使用一小組資料來驗證模型。

如果模型用例導致錯誤預測會嚴重影響模型效能,則最好在每個時期後驗證模型以使模型學習不同的場景。

隨著資料維度/特徵的增加,神經網路函數的超參數也隨之增加,使得模型更加複雜。在這些情況下,應將大量資料與驗證集一起保存在訓練集中。

資料拆分的技術

1.隨機抽樣

隨機抽樣是最古老和最受歡迎的劃分資料集的方法。顧名思義,資料集被打亂,樣本被隨機挑選並根據使用者給出的百分比放入訓練、驗證或測試集中。

然而,這種方法有一個明顯的缺點。隨機抽樣在類別平衡資料集上效果最佳,即每個資料集類別中樣本數量大致相同的資料集。在類別不平衡資料集的情況下,這種資料拆分方法可能會產生偏差。

2.分層抽樣

分層抽樣緩解具有不平衡類別分佈的資料集中的隨機抽樣問題。可以保留每個訓練集、驗證集和測試集中的類別分佈。分層抽樣是一種更公平的資料拆分方式。

3.交叉驗證

交叉驗證或K-Fold交叉驗證是一種更強大的資料分割技術,其中對不同樣本訓練和評估模型“K”次。

使用K-Fold交叉驗證將機器學習模型暴露給不同的資料分佈。一定程度上減輕了在訓練和驗證集中選擇資料時可能出現的偏差。在使用K-Fold交叉驗證方案時,通常會報告平均值和標準差值。

因此K-Fold交叉驗證也存在與隨機抽樣相同的問題,資料分佈可能會出現偏差。可以使用分層,在產生資料的「K」個子集或部分時,保持資料的類比。

資料分割中的常見陷阱

1.使用低品質的訓練資料

#由於機器學習演算法對訓練資料很敏感,即使訓練集中的微小變化/錯誤也會導致模型效能出現重大錯誤。因此訓練資料的品質對於提高模型效能至關重要。

2.過度擬合

當機器學習模型無法對未知的資料進行分類時,就會發生過度擬合。訓練資料中的雜訊或波動被視為特徵並由模型學習。這導致模型在訓練集中表現出色,但在驗證和測試集中表現不佳。

3.過度強調驗證和測試集指標

#驗證集度量是決定模型訓練路徑的量測。在每個時期之後,機器學習模型都會在驗證集上進行評估。根據驗證集指標,計算對應的損失項,修改超參數。應選擇指標,以便它們對模型性能的整體軌跡產生積極影響。

#

以上是資料拆分的技術與陷阱-訓練集、驗證集與測試集的使用方式的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前 By 尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

15個值得推薦的開源免費圖片標註工具 15個值得推薦的開源免費圖片標註工具 Mar 28, 2024 pm 01:21 PM

15個值得推薦的開源免費圖片標註工具

一文帶您了解SHAP:機器學習的模型解釋 一文帶您了解SHAP:機器學習的模型解釋 Jun 01, 2024 am 10:58 AM

一文帶您了解SHAP:機器學習的模型解釋

透過學習曲線辨識過擬合和欠擬合 透過學習曲線辨識過擬合和欠擬合 Apr 29, 2024 pm 06:50 PM

透過學習曲線辨識過擬合和欠擬合

通透!機器學習各大模型原理的深度剖析! 通透!機器學習各大模型原理的深度剖析! Apr 12, 2024 pm 05:55 PM

通透!機器學習各大模型原理的深度剖析!

人工智慧在太空探索和人居工程中的演變 人工智慧在太空探索和人居工程中的演變 Apr 29, 2024 pm 03:25 PM

人工智慧在太空探索和人居工程中的演變

使用C++實現機器學習演算法:常見挑戰及解決方案 使用C++實現機器學習演算法:常見挑戰及解決方案 Jun 03, 2024 pm 01:25 PM

使用C++實現機器學習演算法:常見挑戰及解決方案

可解釋性人工智慧:解釋複雜的AI/ML模型 可解釋性人工智慧:解釋複雜的AI/ML模型 Jun 03, 2024 pm 10:08 PM

可解釋性人工智慧:解釋複雜的AI/ML模型

Golang技術在機器學習中未來趨勢展望 Golang技術在機器學習中未來趨勢展望 May 08, 2024 am 10:15 AM

Golang技術在機器學習中未來趨勢展望

See all articles