為什麼基於樹的模型在表格資料上仍然優於深度學習
在這篇文章中,我將詳細解釋這篇論文《Why do tree-based models still outperform deep learning on tabular data》這篇論文解釋了一個被世界各地的機器學習從業者在各種領域觀察到的現象-基於樹的模型在分析表格資料方面比深度學習/神經網路好得多。
論文的注意事項
這篇論文進行了大量的預處理。例如像刪除遺失的資料會阻礙樹的效能,但是隨機森林非常適合缺少資料的情況,如果你的資料非常雜亂:包含大量的特徵和維度。 RF的穩健性和優點使其優於更「先進」的解決方案,因為後者很容易出現問題。
其餘大部分的工作都很標準。我個人不太喜歡應用太多的預處理技術,因為這可能會導致失去資料集的許多細微差別,但論文中所採取的步驟基本上會產生相同的資料集。但是需要說明的是,在評估最終結果時要使用相同的處理方法。
論文也使用隨機搜尋來進行超參數調優。這也是行業標準,但根據我的經驗,貝葉斯搜尋更適合在更廣泛的搜尋空間中進行搜尋。
了解了這些就可以深入我們的主要問題了——為什麼基於樹的方法勝過深度學習?
1、神經網路偏向過於平滑的解決方案
#這是作者分享深度學習神經網路無法與隨機森林競爭的第一個原因。簡而言之,當涉及非平滑函數/決策邊界時,神經網路很難創建最適合的函數。隨機森林在怪異/鋸齒/不規則模式下做得更好。
如果我來猜測原因的話,可能是在神經網路中使用了梯度,而梯度依賴可微的搜尋空間,根據定義這些空間是平滑的,所以無法區分尖銳點和一些隨機函數。所以我推薦學習諸如進化演算法、傳統搜尋等更基本的概念等 AI 概念,因為這些概念可以在 NN 失敗時的各種情況下取得很好的結果。
有關基於樹的方法(RandomForests)和深度學習者之間決策邊界差異的更具體示例,請查看下圖-
在附錄中,作者對上述視覺化進行了下面說明:
在這一部分中,我們可以看到RandomForest 能夠學習MLP 無法學習的x 軸(對應日期特徵)上的不規則模式。我們展示了預設超參數的這種差異,這是神經網路的典型行為,但是實際上很難(儘管並非不可能)找到成功學習這些模式的超參數。
2、無訊息特性會影響類似mlp的神經網路
另一個重要因素,特別是對於那些同時編碼多個關係的大型資料集的情況。如果向神經網路輸入不相關的特徵結果會很糟糕(而且你會浪費更多的資源訓練你的模型)。這就是為什麼花大量時間在EDA/領域探索上是如此重要。這將有助於理解特性,並確保一切順利運作。
論文的作者測試了模型在添加隨機和刪除無用特性時的表現。基於他們的結果,發現了2個很有趣的結果
刪除大量特性減少了模型之間的效能差距。這清楚地表明,樹型模型的一大優點是它們能夠判斷特徵是否有用並且能夠避免無用特徵的影響。
與基於樹的方法相比,向資料集添加隨機特徵表明神經網路的衰退要嚴重得多。 ResNet尤其受到這些無用特性的影響。 transformer的提升可能是因為其中的注意力機制在某種程度上會有一些幫助。
對這種現象的一種可能解釋是決策樹的設計方式。任何學習 AI 課程的人都會知道決策樹中資訊的增益和熵的概念。這使得決策樹能夠透過比較剩餘的特性來選擇最佳的路徑。
回到正題,在表格資料方面,最後一件事讓 RF 比 NN 表現更好。那就是旋轉不變性。
3、NNs 是旋轉不變性的,但是實際資料卻不是
神經網路是旋轉不變的。這意味著如果對資料集進行旋轉操作,它不會改變它們的效能。旋轉資料集後,不同模型的性能和排名發生了很大的變化,雖然ResNets一直是最差的, 但是旋轉後他保持原來的表現,而所有其他模型的變化卻很大。
這很現象非常有趣:旋轉資料集到底意味著什麼?整個論文中也沒有詳細的細節說明(我已經聯繫了作者,並將繼續跟進這個現象)。如果有任何想法,也請在評論中分享。
但是這個操作讓我們看到為什麼旋轉方差很重要。根據作者的說法,採用特徵的線性組合(這就是使ResNets不變的原因)實際上可能會錯誤地表示特徵及其關係。
透過對原始資料的編碼獲得最佳的資料偏差,這些最佳的偏差可能會混合具有非常不同的統計特性的特徵並且不能透過旋轉不變的模型來恢復,會為模型提供更好的性能。
總結
這是一篇非常有趣的論文,雖然深度學習在文字和圖像資料集上取得了巨大進步,但它在表格資料上的基本沒有優勢可言。論文使用了 45 個來自不同領域的資料集進行測試,結果表明即使不考慮其卓越的速度,基於樹的模型在中等資料(~10K 樣本)上仍然是最先進的。
以上是為什麼基於樹的模型在表格資料上仍然優於深度學習的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

BERT是由Google在2018年提出的一種預先訓練的深度學習語言模式。全稱為BidirectionalEncoderRepresentationsfromTransformers,它基於Transformer架構,具有雙向編碼的特性。相較於傳統的單向編碼模型,BERT在處理文字時能夠同時考慮上下文的訊息,因此在自然語言處理任務中表現出色。它的雙向性使得BERT能夠更好地理解句子中的語義關係,從而提高了模型的表達能力。透過預訓練和微調的方法,BERT可以用於各種自然語言處理任務,如情緒分析、命名

如今的深度學習方法專注於設計最適合的目標函數,以使模型的預測結果與實際情況最接近。同時,必須設計一個合適的架構,以便為預測取得足夠的資訊。現有方法忽略了一個事實,當輸入資料經過逐層特徵提取和空間變換時,大量資訊將會遺失。本文將深入探討資料透過深度網路傳輸時的重要問題,即資訊瓶頸和可逆函數。基於此提出了可編程梯度資訊(PGI)的概念,以應對深度網路實現多目標所需的各種變化。 PGI可以為目標任務提供完整的輸入訊息,以計算目標函數,從而獲得可靠的梯度資訊以更新網路權重。此外設計了一種新的輕量級網路架

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

潛在空間嵌入(LatentSpaceEmbedding)是將高維度資料對應到低維度空間的過程。在機器學習和深度學習領域中,潛在空間嵌入通常是透過神經網路模型將高維輸入資料映射為一組低維向量表示,這組向量通常被稱為「潛在向量」或「潛在編碼」。潛在空間嵌入的目的是捕捉資料中的重要特徵,並將其表示為更簡潔和可理解的形式。透過潛在空間嵌入,我們可以在低維空間中對資料進行視覺化、分類、聚類等操作,從而更好地理解和利用資料。潛在空間嵌入在許多領域中都有廣泛的應用,如影像生成、特徵提取、降維等。潛在空間嵌入的主要

在當今科技日新月異的浪潮中,人工智慧(ArtificialIntelligence,AI)、機器學習(MachineLearning,ML)與深度學習(DeepLearning,DL)如同璀璨星辰,引領著資訊科技的新浪潮。這三個詞彙經常出現在各種前沿討論和實際應用中,但對於許多初涉此領域的探索者來說,它們的具體含義及相互之間的內在聯繫可能仍籠罩著一層神秘面紗。那讓我們先來看看這張圖。可以看出,深度學習、機器學習和人工智慧之間存在著緊密的關聯和遞進關係。深度學習是機器學習的一個特定領域,而機器學習

自2006年深度學習概念被提出以來,20年快過去了,深度學習作為人工智慧領域的一場革命,已經催生了許多具有影響力的演算法。那麼,你所認為深度學習的top10演算法有哪些呢?以下是我心目中深度學習的頂尖演算法,它們在創新、應用價值和影響力方面都佔有重要地位。 1.深度神經網路(DNN)背景:深度神經網路(DNN)也叫多層感知機,是最普遍的深度學習演算法,發明之初由於算力瓶頸而飽受質疑,直到近些年算力、數據的爆發才迎來突破。 DNN是一種神經網路模型,它包含多個隱藏層。在該模型中,每一層將輸入傳遞給下一層,並

论文地址:https://arxiv.org/abs/2307.09283代码地址:https://github.com/THU-MIG/RepViTRepViT在移动端ViT架构中表现出色,展现出显著的优势。接下来,我们将探讨本研究的贡献所在。文中提到,轻量级ViTs通常比轻量级CNNs在视觉任务上表现得更好,这主要归功于它们的多头自注意力模块(MSHA)可以让模型学习全局表示。然而,轻量级ViTs和轻量级CNNs之间的架构差异尚未得到充分研究。在这项研究中,作者们通过整合轻量级ViTs的有效

卷積神經網路(CNN)和Transformer是兩種不同的深度學習模型,它們在不同的任務上都展現了出色的表現。 CNN主要用於電腦視覺任務,如影像分類、目標偵測和影像分割等。它透過卷積操作在影像上提取局部特徵,並透過池化操作進行特徵降維和空間不變性。相較之下,Transformer主要用於自然語言處理(NLP)任務,如機器翻譯、文字分類和語音辨識等。它使用自註意力機制來建模序列中的依賴關係,避免了傳統的循環神經網路中的順序計算。儘管這兩種模型用於不同的任務,但它們在序列建模方面有相似之處,因此
