機器學習中的整合方法概述
想像一下,你正在網上購物,你發現有兩家店鋪銷售同一種商品,它們的評分相同。然而,第一家只有一個人評分,第二家有 100 人評分。您會更信任哪一個評分呢?最終您會選擇購買哪一家的商品呢?大多數人的答案很簡單。 100 個人的意見肯定比只有一個人的意見更值得信賴。這被稱為“群眾的智慧”,這也是整合方法有效的原因。
整合方法
通常,我們只從訓練資料中建立一個學習者(學習者=訓練模型)(即,我們只在訓練數據上訓練一個機器學習模型)。而整合方法是讓多個學習者解決同一個問題,然後將他們組合在一起。這些學習者被稱為基礎學習者,可以有任何底層演算法,如神經網絡,支援向量機,決策樹等。如果所有這些基礎學習者都由相同的演算法組成那麼它們被稱為同質基礎學習者,而如果它們由不同的演算法組成那麼它們被稱為異質基礎學習者。與單一基礎學習者相比,整合具有更好的泛化能力,從而獲得更好的結果。
當整合方法由弱學習者組成時。因此,基礎學習者有時被稱為弱學習者。而集成模型或強學習者(是這些弱學習者的組合)具有更低的偏差/方差,並獲得更好的表現。這種整合方法將弱學習者轉變為強學習者的能力之所以普及,是因為在實踐中更容易獲得弱學習者。
近年來,整合方法不斷贏了各種線上比賽。除了線上比賽之外,整合方法也被應用於現實生活中,例如目標檢測、識別和追蹤等電腦視覺技術。
整合方法的主要類型
弱學習者是如何產生的?
根據基底學習器的產生方式,整合方法可以分為兩大類,即順序整合方法和平行整合方法。顧名思義,在Sequential ensemble 方法中,基學習器是按順序產生的,然後組合起來進行預測,例如AdaBoost等Boosting演算法。而在Parallel ensemble 方法中,基礎學習器是並行產生的,然後組合起來進行預測,例如隨機森林和Stacking等Bagging演算法演算法。下圖顯示了解釋並行和順序方法的簡單架構。
根據基礎學習者的生成方式不同,整合方法可分為兩大類:順序整合方法和平行整合方法。顧名思義,在順序整合方法中,基底學習者是按順序產生的,然後組合起來進行預測,例如AdaBoost等Boosting演算法。在平行整合方法中,基底學習者是並行產生的,然後組合在一起進行預測,例如隨機森林和Stacking等Bagging演算法。下圖展示了一個簡單的體系結構,解釋了平行和順序方法。
並行與順序整合方法
順序學習方法利用弱學習者之間的依賴關係,以殘差遞減的方式提高整體效能,使後學習者更重視前學習者的錯誤。粗略地說(對於迴歸問題),boosting方法所得到的整合模型誤差的減少主要是透過降低弱學習者的高偏差來實現的,儘管有時也會觀察到變異數的減少。另一方面,平行整合方法透過組合獨立弱學習者來減小誤差,即它利用了弱學習者之間的獨立性。這種誤差的減少是由於機器學習模型變異數的減少。因此,我們可以歸納為,boosting主要透過減少機器學習模型的偏差來減少誤差,而bagging則透過減少機器學習模型的變異數來減少誤差。這是很重要的,因為選擇哪種整合方法將取決於弱學習者是否有高方差或高偏差。
弱學習者如何組合?
在產生這些所謂的基礎學習者之後,我們不會選擇這些學習者中最好的,而是將它們組合在一起以實現更好的泛化,我們這樣做的方式在集成方法中扮演重要角色。
平均:當輸出是數字時,最常見的組合基礎學習者的方法是平均。平均可以是簡單平均或加權平均。對於迴歸問題,簡單平均將是所有基礎模型的誤差總和除以學習者總數。加權平均的組合輸出是透過給予每個基礎學習者不同的權重來實現的。對於迴歸問題,我們將每個基底學習者的誤差與給定的權重相乘,然後求和。
投票:對於名目輸出,投票是組合基礎學習器最常用的方式。投票可以是不同的類型,例如絕對多數投票、相對多數投票、加權投票和軟投票。對於分類問題,絕對多數投票給每個學習者一票,他們投票給一個類別標籤。無論哪個類標籤獲得超過 50% 的選票,都是整合的預測結果。但是,如果沒有一個類別標籤獲得超過 50% 的選票,則會給出拒絕選項,這意味著組合整合無法做出任何預測。在相對多數投票中,獲得最多票數的類別標籤是預測結果,超過50%的票數對類標籤不是必需的。意思是,如果我們有三個輸出標籤,三個得到的結果都少於50%,例如40% 30% 30%,那麼得到40%的類別標籤就是集合模型的預測結果。 。加權投票,就像加權平均一樣,根據分類器的重要性和特定學習器的強度為分類器分配權重。軟投票用於機率(0到1之間的值)而不是標籤(二進位或其他)的類別輸出。軟投票進一步分為簡單軟投票(對機率進行簡單平均)和加權軟投票(將權重分配給學習者,機率乘以這些權重並相加)。
學習:另一種組合方法是透過學習進行組合,這是stacking整合方法使用的。在這種方法中,一個稱為元學習者的單獨學習者在新資料集上進行訓練,以組合從原始機器學習資料集產生的其他基礎/弱學習者。
請注意,無論是 boosting、bagging或 stacking,這三種整合方法都可以使用同質或異質弱學習者產生。最常見的做法是使用同質弱學習者進行 Bagging 和 Boosting,使用異質弱學習器進行 Stacking。下圖很好地分類了三種主要的整合方法。
對整合方法的主要類型進行分類
整合多樣性
整合多樣性是指基礎學習器之間的差異有多大,這對於產生良好的整合模型具有重要意義。理論上已經證明,透過不同的組合方法,完全獨立(多樣化)的基礎學習者可以最大程度地減少錯誤,而完全(高度)相關的學習者不會帶來任何改進。這在現實生活中是一個具有挑戰性的問題,因為我們正在訓練所有弱學習者透過使用相同的資料集來解決相同的問題,從而導致高相關性。在此之上,我們需要確保弱學習者不是真正糟糕的模型,因為這甚至可能導致整合表現惡化。另一方面,將強而準確的基礎學習者組合起來,也可能沒有將一些弱學習者和一些強學習者組合起來的效果好。因此,需要在基礎學習器的準確程度與基礎學習器之間的差異之間取得平衡。
如何實現整合多樣性?
1. 資料處理
我們可以將我們的資料集分割成子集供基礎學習者使用。如果機器學習資料集很大,我們可以簡單地將資料集分成相等的部分,然後輸入到機器學習模型中。如果資料集很小,我們可以使用隨機抽樣替換,從原始資料集產生新的資料集。 Bagging方法使用bootstrapping技術來產生新的資料集,它基本上是帶有替換的隨機抽樣。透過bootstrapping,我們能夠創造一些隨機性,因為所有產生的資料集都必須擁有一些不同的值。然而,請注意,大多數值(根據理論約為67%)仍然會重複,因此資料集不會完全獨立。
2.輸入特徵
所有資料集都包含提供有關資料資訊的特徵。我們可以建立特徵子集並產生不同的資料集並將其輸入模型,而不是使用一個模型中的所有特徵。這種方法被隨機森林技術採用,當資料中存在大量冗餘特徵時有效。當資料集中的特徵很少時,有效性會降低。
3.學習參數
此技術透過對基礎學習演算法應用不同的參數設置,即超參數調優,在基礎學習者中產生隨機性。例如,透過改變正規化項,可以將不同的初始權重分配給各個神經網路。
整合剪枝
最後,整合剪枝技術在某些情況下有助於獲得更好的整合效能。整合剪枝(Ensemble Pruning)的意思是,我們只組合學習者的子集,而不是組合所有弱學習者。除此之外,更小的整合可以節省儲存和運算資源,從而提高效率。
最後
本文只是機器學習整合方法概述。希望大家能夠更深入的進行研究,更重要的是能購將研究應用在現實生活中。
以上是機器學習中的整合方法概述的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的
