無監督學習的12個最重要的演算法介紹及其用例總結
無監督學習(Unsupervised Learning)是和監督學習相對的另一種主流機器學習的方法,無監督學習是沒有任何的資料標註只有資料本身。
無監督學習演算法有幾種類型,以下是其中最重要的12種:
1、聚類演算法根據相似性將資料點分組成簇
k-means聚類是一種流行的聚類演算法,它將資料分割為k組。
2、降維演算法降低了資料的維數,使其更容易視覺化和處理
主成分分析(PCA)是一種降維演算法,將資料投影到低維空間,PCA可以用來將資料降維到其最重要的特徵。
3.異常偵測演算法辨識異常值或異常資料點
支援向量機是可以用於異常檢測(範例)。異常檢測演算法用於檢測資料集中的異常點,異常檢測的方法有很多,但大多數可以分為有監督和無監督兩種。監督方法需要標記資料集,而無監督方法不需要。
無監督異常檢測演算法通常是基於密度估計,試圖找到資料空間中密集的區域外的點。
一個簡單的方法是計算每個點到k個最近鄰居的平均距離。距離相鄰點非常遠的點很可能是異常點。
還有許多基於密度的異常偵測演算法,包括局部離群因子(Local Outlier Factor,LOF)和支援向量資料描述(Support Vector Domain Description,SVDD)。這些演算法比簡單的k近鄰方法更複雜,通常可以檢測到更細微的異常。大多數異常檢測演算法都需要進行調整,例如指定一個參數來控制演算法對異常的敏感度。如果參數過低,演算法可能會漏掉一些異常。如果設定過高,演算法可能會產生誤報(將正常點識別為異常點)。
4、分割演算法將資料分成段或群組
分割演算法可以將影像分割為前景和背景。
這些演算法可以在不需要人工監督的情況下自動將資料集分割成有意義的群組。這個領域中比較知名的一個演算法是k-means演算法。此演算法透過最小化組內距離平方和將資料點分成k組。
另一種流行的分割演算法是mean shift演算法。該演算法透過迭代地將每個資料點移向其局部鄰域的中心來實現。 mean shift對異常值具有較強的穩健性,可以處理密度不均勻的資料集。但是在大型資料集上運行它的計算成本可能很高。
高斯混合模型(GMM)是一種可用於分割的機率模型。以前gmm需要大量的計算來訓練,但最近的研究進展使其更快。 gmm非常靈活,可以用於任何類型的資料。但是它們有時並不能總是產生最好的結果。對於簡單的資料集,k-means是一個很好的選擇,而gmm則更適合複雜的資料集。 mean shift可以用於任何一種情況,但在大型資料集上計算的成本會很高。
5、去雜訊演算法減少或移除資料中的雜訊
小波轉換可以用於影像去雜訊。但是各種來源可能會產生噪聲,包括資料損壞、缺失值和異常值。去噪演算法透過減少資料中的雜訊量來提高無監督學習模型的準確性。
現有的去雜訊演算法有多種,包括主成分分析(PCA)、獨立成分分析(ICA)和非負矩陣分解(NMF)。
6、連結預測演算法預測資料點之間的未來連結(例如,網路中兩個節點之間的未來互動)
連結預測可用於預測哪些人將成為社交網絡中的朋友。較常用的連結預測演算法之一是優先連接演算法,它預測如果兩個節點有許多現有連接,則它們更有可能被連接。
另一種流行的鏈路預測演算法是局部路徑演算法,它預測如果兩個節點共享一個共同的鄰居,那麼它們更有可能被關聯。該演算法可以捕捉“結構等價”的概念,因此在生物網路中經常使用。
最後,random walk with restart演算法也是一種連結預測演算法,它模擬網路上的一個隨機走動的人,在隨機節點[17]處重新啟動步行者。然後,步行者到達特定節點的機率被用來衡量兩個節點之間存在連接的可能性。
7、強化學習演算法透過反覆試驗來進行學習
Q-learning是基於值的學習演算法的一個例子;它實現簡單且通用。但是Q-learning有時會收斂到次優解。另一個例子是TD learning,它在計算上Q-learning學習要求更高,但通常可以找到更好的解決方案。
8、生成模型:演算法使用訓練資料產生新的資料
自編碼器是生成模型,可用於從影像資料集建立獨特的影像。在機器學習中,生成模型是一種捕捉一組資料的統計屬性的模型。這些模型可以用來產生新的數據,就像它們所使用的訓練的數據一樣。
產生模型用於各種任務,如無監督學習,資料壓縮和去雜訊。生成模型有很多種,例如隱馬可夫模型和玻爾茲曼機。每種模型都有其優缺點,並且適用於不同的任務。
隱馬可夫模型擅長對順序資料建模,而玻爾茲曼機器更擅長對高維度資料建模。透過在無標記資料上訓練它們,生成模型可以用於無監督學習。一旦模型經過訓練,就可以用來產生新的資料。然後這些產生的數據可以由人類或其他機器學習演算法進行標記。這個過程可以重複,直到生成模型學會產生數據,就像想要的輸出。
9、隨機森林是一種機器學習演算法,可用於監督和無監督學習
對於無監督學習,隨機森林可以找到一組相似的條目,識別異常值,並壓縮資料。
對於監督和無監督任務隨機森林已被證明優於其他流行的機器學習演算法(如支援向量機)。隨機森林是無監督學習的一個強大工具,因為它們可以處理具有許多特徵的高維度資料。它們也抵制過擬合,這意味著它們可以很好地推廣到新數據。
10、DBSCAN是一種基於密度的聚類演算法,可用於無監督學習
它基於密度,即每個區域的點的數量。如果 DBSCAN 的組內的點很靠近,則將它們指向一個群組,如果點相距較遠的點則會忽略。與其他聚類演算法相比,DBSCAN具有一些優勢。它可以找到不同大小和形狀的簇,並且不需要使用者預先指定簇的數量。此外,DBSCAN對異常值不敏感,這意味著它可以用來找到其他資料集沒有很好地表示的資料。但是DBSCAN也有一些缺點。例如,它可能很難在雜訊很大的資料集中找到良好的簇。另外就是DBSCAN需要一個密度閾值,可能不適用於所有資料集。
11、Apriori演算法用於尋找關聯、頻繁項集和順序模式
Apriori演算法是第一個關聯規則挖掘演算法,也是最經典的演算法。它·的工作原理是先找到資料中的所有頻繁項集,然後使用這些項集產生規則。
Apriori演算法的實作方式有很多種,可以針對不同的需求進行客製化。例如,可以控制支持度和置信度閾值以找到不同類型的規則。
12、Eclat演算法從事務資料庫中挖掘頻繁項目集,可用於購物車分析、入侵偵測和文字探勘
Eclat演算法是一種深度優先演算法,採用垂直資料表示形式,在概念格理論的基礎上利用基於前綴的等價關係將搜尋空間(概念格)劃分為較小的子空間(子概念格)。
以上是無監督學習的12個最重要的演算法介紹及其用例總結的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中

在C++中,機器學習演算法的實作方式包括:線性迴歸:用於預測連續變量,步驟包括載入資料、計算權重和偏差、更新參數和預測。邏輯迴歸:用於預測離散變量,流程與線性迴歸類似,但使用sigmoid函數進行預測。支援向量機:一種強大的分類和回歸演算法,涉及計算支援向量和預測標籤。

一、58畫像平台建置背景首先和大家分享下58畫像平台的建造背景。 1.傳統的畫像平台傳統的想法已經不夠,建立用戶畫像平台依賴數據倉儲建模能力,整合多業務線數據,建構準確的用戶畫像;還需要數據挖掘,理解用戶行為、興趣和需求,提供演算法側的能力;最後,還需要具備數據平台能力,有效率地儲存、查詢和共享用戶畫像數據,提供畫像服務。業務自建畫像平台和中台類型畫像平台主要區別在於,業務自建畫像平台服務單條業務線,按需定制;中台平台服務多條業務線,建模複雜,提供更為通用的能力。 2.58中台畫像建構的背景58的使用者畫像
