在資料預處理中,關鍵步驟是處理缺少的數據,因為機器學習模型不會接受NaN值作為它們的輸入。有很多種方法可以填滿這些NaN值,但我們首先要先理解缺失值的重要性。
很簡單的一種方法是從機器學習資料集中刪除所有缺失值,但在這之前,請先檢查機器學習資料集中出現的NaN值的總體百分比。如果小於1%,我們可以刪除所有缺失值,否則我們需要透過選擇其他方法,例如集中趨勢測量、KNN Imputer等來估算資料。
當我們在特徵中使用數字時,我們使用平均或中位數。平均值是平均值我們可以透過將一行所有值匯總然後除以它們的量來計算。中位數也表示一個平均值,中位數將資料依大小順序排列起來,形成一個數列,居於數列中間位置的那個資料。當一組資料中的個別資料變動較大時,常用中位數來描述這組資料的集中趨勢。
如果機器學習資料集中有偏態分佈,往往使用中位數會比平均數好。
異常值是與其他觀測值有顯著差異的資料點。有時,這些異常值也可能很敏感。在處理異常值之前,建議先檢查機器學習資料集。
例如:
什麼是 機器學習 模型中的資料外洩問題呢?
當我們用來訓練模具機器學習型的資料包含機器學習模型試圖預測的資訊時,就會發生資料外洩。這會導致模型部署後的預測結果不可靠。
這個問題可能是由於資料標準化或歸一化方法造成的。因為我們大多數人在將資料分割成訓練集和測試集之前會繼續使用這些方法。
實時,我覺得不必要地轉向一些複雜的模型可能會對面向業務的人產生一些可解釋性問題。例如,線性迴歸將比神經網路演算法更容易解釋。
主要根據資料集的大小和複雜性來選擇對應的機器學習模型,如果我們處理複雜的問題,我們可以使用一些高效的機器學習模型,如SVN、KNN、隨機森林等。
大多數時候,資料探索階段會有助於我們選擇對應的機器學習模型。如果在視覺化中資料是線性可分離的,那麼我們可以使用線性迴歸。如果我們對資料不了解,支援向量機和KNN將會很有用。
另外還有一個模型可解釋問題,例如,線性迴歸比神經網路演算法更容易解釋。
指標是模型預測器和實際資料的量化度量。如果問題是迴歸方面的,則關鍵指標是準確度(R2評分),MAE(平均絕對誤差)和RMSE(均方根誤差)。如果是分類上的問題,關鍵指標則是精確,召回,F1score和混淆矩陣。
以上是新手在機器學習中常見的五大問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!