目錄
在機器學習領域,這 5 個坑,你踩過嗎?
1、在需要的地方沒有使用資料歸一化(data normalization)
2、認為特徵越多越好
3. 在需要外推的情況下,使用基於樹的模型
4、在不需要的地方使用資料歸一化
5. 在訓練集和驗證集/ 測試集之間洩漏資訊
首頁 科技週邊 人工智慧 15年軟體架構師經驗摘要:在ML領域,初學者踩過的五個坑

15年軟體架構師經驗摘要:在ML領域,初學者踩過的五個坑

Apr 11, 2023 pm 07:31 PM
機器學習 數據

資料科學和機器學習正變得越來越流行,這個領域的人數每天都在增加。這意味著有許多資料科學家在建立他們的第一個機器學習模型時沒有豐富的經驗,而這也是錯誤可能會發生的地方。

近日,軟體架構師、資料科學家、Kaggle 大師Agnis Liukis 撰寫了一篇文章,他在文中談了談在機器學習中最常見的一些初學者錯誤的解決方案,以確保初學者了解並避免它們。

15年軟體架構師經驗摘要:在ML領域,初學者踩過的五個坑

##Agnis Liukis 擁有超過15 年的軟體架構和開發經驗,他熟練掌握Java、JavaScript、Spring Boot、React.JS 和Python 等語言。此外,Liukis 還對數據科學和機器學習感興趣,他多次參加 Kaggle 比賽並取得好成績,已達到 Kaggle 比賽大師級別。

以下是文章內容:

在機器學習領域,這 5 個坑,你踩過嗎?

1、在需要的地方沒有使用資料歸一化(data normalization)

對資料進行歸一化操作,然後取得特徵,並將其輸入到模型中,讓模型做出預測,這種方法是很容易的。但在某些情況下,這種簡單方法的結果可能會讓人失望,因為它缺少一個非常重要的部分。

某些類型的模型需要資料歸一化,如線性迴歸、經典神經網路等。這類模型使用特徵值去乘訓練值的權重。在非歸一化特徵的情況下,一個特徵值的可能範圍可能不同於另一個特徵值的可能範圍。

假設一個特徵的值在 [0,0.001] 範圍內,另一個特徵的值在 [100000,200000] 範圍內。對於使兩個特徵同等重要的模型,第一個特徵的權重將比第二個特徵的權重大 1 億倍。巨大的權重可能會為模型帶來嚴重問題,例如存在一些異常值的時候。此外,估計各種特徵的重要性變得困難,因為權重大可能意味著特徵很重要,但也可能只是意味著其特徵值很小。

歸一化後,所有特徵的值都在相同的範圍內,通常為 [0,1] 或 [-1,1]。在這種情況下,權重將在相似的範圍內,並與每個特徵的實際重要性密切對應。

總的來說,在需要的地方使用資料歸一化將產生更好、更準確的預測。

2、認為特徵越多越好

有人可能會認為加入所有特徵是一個好主意,認為模型會自動選擇並使用最好的特徵。實際上,這種想法很難成真。

模型的特徵越多,過度擬合的風險就越大。即使在完全隨機的數據中,模型也能夠找到一些特徵(訊號),儘管有時較弱,有時較強。當然,隨機雜訊中沒有真實訊號。但如果我們有足夠多的雜訊列,則該模型有可能根據偵測到的故障訊號使用其中的一部分。當這種情況發生時,模型預測品質將會降低,因為它們在一定程度上是基於隨機雜訊。

現在有許多技術幫助我們進行特徵選擇。但你要記住,你需要解釋你擁有的每一個特徵,以及為什麼這個特徵會幫助你的模型。

3. 在需要外推的情況下,使用基於樹的模型

基於樹的模型易於使用,功能強大,這也是其受歡迎的原因。然而,在某些情況下,使用基於樹的模型可能是錯誤的。

基於樹的模型無法外推,這些模型的預測值永遠不會大於訓練資料中的最大值,而且在訓練中也永遠不會輸出比最小值更小的預測值。

在某些任務中,外推能力可能非常重要。例如,如果模型預測股票價格,那麼未來股票價格可能會比以往任何時候都高。在這種情況下,基於樹的模型將無法直接使用,因為它們的預測幾乎會超過最高歷史價格。

這個問題有多種解決方案,一種解決方案是預測變化或差異,而不是直接預測價值。另一種解決方案是為此類任務使用不同類型的模型。線性迴歸或神經網路就可以進行外推。

4、在不需要的地方使用資料歸一化

之前文章談到了資料歸一化的必要性,但情況並非總是如此,基於樹的模型不需要數據歸一化。神經網路可能也不需要明確的歸一化,因為有些網路內部已經包含歸一化層,例如 Keras 函式庫的 BatchNormalization 操作。

在某些情況下,即使是線性迴歸也可能不需要資料歸一化,這是指所有特徵都已處於類似的值範圍,並且具有相同的含義。例如,如果模型適用於時間序列數據,並且所有特徵都是相同參數的歷史值。

5. 在訓練集和驗證集/ 測試集之間洩漏資訊

#造成資料外洩比人們想像的要容易,考慮以下程式碼片段:

15年軟體架構師經驗摘要:在ML領域,初學者踩過的五個坑

資料外洩的範例特性

實際上上,這兩種特徵(sum_feature 和diff_feature)都不正確。它們正在洩漏訊息,因為在拆分到訓練集 / 測試集後,具有訓練資料的部分將包含來自測試的一些資訊。這將導致更高的驗證分數,但當應用於實際的資料模型時,效能會更差。

正確的方法是先將訓練集 / 測試集分開,然後才套用特徵產生功能。通常,分別處理訓練集和測試集是一種很好的特徵工程模式。

在某些情況下,可能需要在兩者之間傳遞一些資訊 —— 例如,我們可能希望在測試集和訓練集上使用相同的 StandardScaler。

總而言之,從錯誤中學習是件好事,希望上述所提供的錯誤範例能幫助你。

以上是15年軟體架構師經驗摘要:在ML領域,初學者踩過的五個坑的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1666
14
CakePHP 教程
1425
52
Laravel 教程
1325
25
PHP教程
1272
29
C# 教程
1252
24
一文帶您了解SHAP:機器學習的模型解釋 一文帶您了解SHAP:機器學習的模型解釋 Jun 01, 2024 am 10:58 AM

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

透過學習曲線辨識過擬合和欠擬合 透過學習曲線辨識過擬合和欠擬合 Apr 29, 2024 pm 06:50 PM

本文將介紹如何透過學習曲線來有效辨識機器學習模型中的過度擬合和欠擬合。欠擬合和過擬合1、過擬合如果一個模型對資料進行了過度訓練,以至於它從中學習了噪聲,那麼這個模型就被稱為過擬合。過度擬合模型非常完美地學習了每一個例子,所以它會錯誤地分類一個看不見的/新的例子。對於一個過度擬合的模型,我們會得到一個完美/接近完美的訓練集分數和一個糟糕的驗證集/測試分數。略有修改:"過擬合的原因:用一個複雜的模型來解決一個簡單的問題,從資料中提取雜訊。因為小資料集作為訓練集可能無法代表所有資料的正確表示。"2、欠擬合如

iPhone上的蜂窩數據網路速度慢:修復 iPhone上的蜂窩數據網路速度慢:修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

使用C++實現機器學習演算法:常見挑戰及解決方案 使用C++實現機器學習演算法:常見挑戰及解決方案 Jun 03, 2024 pm 01:25 PM

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

你所不知道的機器學習五大學派 你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

美國空軍高調展示首個AI戰鬥機!部長親自試駕全程未乾預,10萬行代碼試飛21次 美國空軍高調展示首個AI戰鬥機!部長親自試駕全程未乾預,10萬行代碼試飛21次 May 07, 2024 pm 05:00 PM

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,

See all articles