機器學習:不要低估樹模型的威力
由於神經網路的複雜性,它們常常被認為是解決所有機器學習問題的「聖杯」。而另一方面,基於樹的方法並未得到同等重視,主要原因在於這類演算法看起來很簡單。然而,這兩種演算法看似不同,卻像一枚硬幣的正反面,都很重要。
樹模型 VS 神經網路
基於樹的方法通常優於神經網路。本質上,將基於樹的方法和基於神經網路的方法放在同一個類別中是因為,它們都透過逐步解構來處理問題,而不是像支援向量機或Logistic 迴歸那樣透過複雜邊界來分割整個資料集。
很明顯,基於樹的方法沿著不同的特徵逐步分割特徵空間,以最佳化資訊增益。不那麼明顯的是,神經網路也以類似的方式處理任務。每個神經元監視特徵空間的一個特定部分(存在多種重疊)。當輸入進入該空間時,某些神經元就會被啟動。
神經網路以機率的視角看待這種逐段模型擬合 (piece-by-piece model fitting),而基於樹的方法則採用確定性的視角。不管怎樣,這兩者的表現都依賴模型的深度,因為它們的組件與特徵空間的各個部分有關聯。
包含太多組件的模型(對於樹模型而言是節點,對於神經網路則是神經元)會過度擬合,而組件太少的模型根本無法給出有意義的預測。 (二者一開始都是記憶資料點,而不是學習泛化。)
要想更直觀地了解神經網路是如何分割特徵空間的,可閱讀這篇介紹通用近似定理的文章:https://medium.com/analytics-vidhya/you-dont-understand-neural-networks-until-you-understand-the-universal-approximation-theory-85b3e7677126。
雖然決策樹有許多強大的變體,如隨機森林、梯度提升、AdaBoost 和深度森林,但一般來說,基於樹的方法本質上是神經網路的簡化版本。
基於樹的方法透過垂直線和水平線逐段解決問題,以最小化熵(優化器和損失)。神經網路透過激活函數來逐段解決問題。
基於樹的方法是確定性的,而不是機率性的。這帶來了一些不錯的簡化,例如自動特徵選擇。
決策樹中被活化的條件節點類似於神經網路中被活化的神經元(訊息流)。
神經網路透過擬合參數對輸入進行變換,間接指導後續神經元的活化。決策樹則明確地擬合參數來指導資訊流。 (這是確定性與機率性相對應的結果。)
資訊在兩個模型中的流動相似,只是在樹模型中的流動方式更簡單。
樹模型的1 和0 選擇VS 神經網路的機率選擇
當然,這是一個抽象的結論,甚至可能是有爭議的。誠然,建立這種聯繫有許多障礙。不管怎樣,這是理解基於樹的方法何時以及為什麼優於神經網路的重要部分。
對於決策樹而言,處理表格或表格形式的結構化資料是很自然的。大多數人都同意用神經網路執行表格資料的迴歸和預測屬於大材小用,所以這裡做了一些簡化。選擇 1 和 0,而不是機率,是這兩種演算法之間差異的主要根源。因此,基於樹的方法可成功應用於不需要機率的情況,如結構化資料。
例如,基於樹的方法在 MNIST 資料集上表現出很好的效能,因為每個數字都有幾個基本特徵。不需要計算機率,這個問題也不是很複雜,這就是為什麼設計良好的樹集成模型性能可以媲美現代卷積神經網絡,甚至更好。
通常,人們傾向於說「基於樹的方法只是記住了規則」,這種說法是對的。神經網路也是一樣,只不過它能記住更複雜的、基於機率的規則。神經網路並非明確地對 x>3 這樣的條件給出真 / 假的預測,而是將輸入放大到很高的值,從而得到 sigmoid 值 1 或產生連續表達式。
另一方面,由於神經網路非常複雜,因此使用它們可以做很多事情。卷積層和循環層都是神經網路的傑出變體,因為它們處理的資料往往需要機率計算的細微差別。
很少有圖像可以用 1 和 0 建模。決策樹值不能處理具有許多中間值(例如0.5)的資料集,這就是為什麼它在MNIST 資料集上表現很好的原因,在MNIST 中,像素值幾乎都是黑色或白色,但其他資料集的像素值不是(例如ImageNet)。類似地,文本有太多的資訊和太多的異常,無法用確定性的術語來表達。
這也是神經網路主要用於這些領域的原因,也是神經網路研究在早期(21 世紀初之前)停滯不前的原因,當時無法獲得大量圖像和文字數據。神經網路的其他常見用途僅限於大規模預測,例如 YouTube 影片推薦演算法,其規模非常大,必須使用機率。
任何公司的資料科學團隊可能都會使用基於樹的模型,而不是神經網絡,除非他們正在建造一個重型應用,例如模糊 Zoom 影片的背景。但在日常業務分類任務上,基於樹的方法因其確定性特質,使這些任務變得輕量級,其方法與神經網路相同。
在許多實際情況下,確定性建模比機率建模更自然。例如,預測使用者是否從某電商網站購買一樣商品,這時樹模型是很好的選擇,因為使用者天然地遵循基於規則的決策過程。使用者的決策過程可能看起來像這樣:
- 我以前在這個平台上有過愉快的購物經驗嗎?如果有,繼續。
- 我現在需要這件商品嗎? (例如,冬天我應該買太陽眼鏡和泳褲嗎?)如果是,繼續。
- 根據我的用戶統計訊息,這是我有興趣購買的產品嗎?如果是,繼續。
- 這個東西太貴嗎?如果沒有,繼續。
- 其他顧客對這個產品的評價是否夠高,讓我可以放心地購買它?如果是,繼續。
#一般來說,人類遵循基於規則和結構化的決策過程。在這些情況下,機率建模是不必要的。
結論
- 最好將基於樹的方法視為神經網路的縮小版本,以更簡單的方式進行特徵分類、優化、資訊流傳遞等。
- 基於樹的方法和神經網路方法在用途上的主要差異在於確定性(0/1)與機率性資料結構。使用確定性模型可以更好地對結構化(表格)資料進行建模。
- 不要低估樹方法的威力。
以上是機器學習:不要低估樹模型的威力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

本文將介紹如何透過學習曲線來有效辨識機器學習模型中的過度擬合和欠擬合。欠擬合和過擬合1、過擬合如果一個模型對資料進行了過度訓練,以至於它從中學習了噪聲,那麼這個模型就被稱為過擬合。過度擬合模型非常完美地學習了每一個例子,所以它會錯誤地分類一個看不見的/新的例子。對於一個過度擬合的模型,我們會得到一個完美/接近完美的訓練集分數和一個糟糕的驗證集/測試分數。略有修改:"過擬合的原因:用一個複雜的模型來解決一個簡單的問題,從資料中提取雜訊。因為小資料集作為訓練集可能無法代表所有資料的正確表示。"2、欠擬合如

1950年代,人工智慧(AI)誕生。當時研究人員發現機器可以執行類似人類的任務,例如思考。後來,在1960年代,美國國防部資助了人工智慧,並建立了實驗室進行進一步開發。研究人員發現人工智慧在許多領域都有用武之地,例如太空探索和極端環境中的生存。太空探索是對宇宙的研究,宇宙涵蓋了地球以外的整個宇宙空間。太空被歸類為極端環境,因為它的條件與地球不同。要在太空中生存,必須考慮許多因素,並採取預防措施。科學家和研究人員認為,探索太空並了解一切事物的現狀有助於理解宇宙的運作方式,並為潛在的環境危機

通俗來說,機器學習模型是一種數學函數,它能夠將輸入資料映射到預測輸出。更具體地說,機器學習模型是一種透過學習訓練數據,來調整模型參數,以最小化預測輸出與真實標籤之間的誤差的數學函數。在機器學習中存在多種模型,例如邏輯迴歸模型、決策樹模型、支援向量機模型等,每種模型都有其適用的資料類型和問題類型。同時,不同模型之間存在著許多共通性,或者說有一條隱藏的模型演化的路徑。將聯結主義的感知機為例,透過增加感知機的隱藏層數量,我們可以將其轉化為深度神經網路。而對感知機加入核函數的話就可以轉換為SVM。這一

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的
