一文讀懂什麼是機器學習
世界充滿了數據——由人和電腦生成的圖像、視訊、電子表格、音訊和文字充斥著互聯網,將我們淹沒在資訊的海洋中。
傳統上,人類分析數據以做出更明智的決策,並設法調整系統以控制數據模式的變化。然而,隨著傳入資訊量的增加,我們理解它的能力下降,給我們帶來了以下挑戰:
我們如何使用所有這些資料以自動而非手動的方式推導意義?
這正是機器學習發揮作用的地方。本文將介紹:
- 什麼是機器學習
- 機器學習演算法的關鍵要素
- 機器學習是如何運作的
- 6 個真實世界的機器學習應用
- 機器學習的挑戰和限制
這些預測是由機器從一組稱為「訓練資料」的資料中學習模式做出的,它們可以推動進一步的技術發展,從而改善人們的生活。
一 什麼是機器學習
機器學習是一個概念,它允許電腦自動從範例和經驗中學習,並在沒有明確程式設計的情況下模仿人類的決策。
機器學習是人工智慧的一個分支,使用演算法和統計技術從資料中學習並從中得出模式和隱藏的見解。
現在,讓我們更深入地探索機器學習的來龍去脈。
二 機器學習演算法的關鍵要素
機器學習中有數以萬計的演算法,可以根據學習風格或所解決問題的性質進行分組。但每個機器學習演算法都包含以下關鍵元件:
- 訓練資料——指機器學習系統必須從中學習的文字、圖像、影片或時間序列資訊。訓練資料通常被標記以向 ML 系統顯示「正確答案」是什麼,例如人臉偵測器中人臉周圍的邊界框,或股票預測器中的未來股票表現。
- 表示——它指的是訓練資料中物件的編碼表示,例如以「眼睛」等特徵表示的人臉。編碼某些模型比其他模型更容易,這就是驅動模型選擇的原因。例如,神經網路形成一種表示,而支援向量機形成另一種表示。大多數現代方法都使用神經網路。
- 評估-這是關於我們如何判斷或確定一種模型而不是另一個模型。我們通常稱之為效用函數、損失函數或評分函數。均方誤差(模型的輸出與資料輸出)或似然(給定觀察資料的模型的估計機率)是不同評估函數的範例。
- 優化-這是指如何搜尋表示模型的空間或改進訓練資料中的標籤以獲得更好的評估。最佳化意味著更新模型參數以最小化損失函數的值。它有助於模型以更快的速度提高其準確性。
以上是機器學習演算法的四個組成部分的詳細分類。
機器學習系統的功能
描述性:系統收集歷史數據,對其進行組織,然後以易於理解的方式呈現。
主要重點在於掌握企業中已經發生的事情,而不是從其發現中得出推論或預測。描述性分析使用簡單的數學和統計工具,例如算術、平均值和百分比,而不是預測性和規範性分析所需的複雜計算。
描述性分析主要針對歷史資料進行分析並推斷,而預測性分析則著重於預測和理解未來可能出現的情況。
透過查看歷史資料來分析過去的資料模式和趨勢可以預測未來可能發生的事情。
規範性的分析告訴我們如何行動,而描述性分析告訴我們過去發生了什麼事。預測性分析則告訴我們透過從過去學習,未來可能會發生什麼。但是,一旦我們對可能發生的事情有了洞察力,我們應該做什麼呢?
這就是規範分析。它幫助系統使用過去的知識對一個人可以採取的行動提出多項建議。規範性分析可以模擬場景並提供實現預期結果的途徑。
三 機器學習是如何運作的
ML演算法的學習可以分為三個主要部分。
決策過程
機器學習模型旨在從資料中學習模式並應用這些知識進行預測。問題是:模型如何進行預測?
這個過程非常基礎——從輸入資料(標記或未標記)中找到模式並應用它來得出結果。
誤差函數
機器學習模型旨在將自己所做的預測與基本事實進行比較。目標是了解它是否朝著正確的方向學習。這決定了模型的準確性,並暗示了我們如何改進模型的訓練。
模型最佳化過程
該模型的最終目標是改進預測,這意味著減少已知結果與對應模型估計之間的差異。
此模型需要透過不斷更新權重來更好地適應訓練資料樣本。此演算法循環工作,評估和最佳化結果,更新權重,直到獲得關於模型準確性的最大值。
機器學習方法的類型
機器學習主要包括四種類型。
1. 監督機器學習
在監督學習中,顧名思義,機器在指導下學習。
這是透過向電腦提供一組標記資料來完成的,以使機器了解輸入的內容以及輸出應該是什麼。在這裡,人類充當嚮導,為模型提供標籤的訓練資料(輸入-輸出對),機器從中學習模式。
一旦從先前的資料集中學習了輸入和輸出之間的關係,機器就可以輕鬆地預測新資料的輸出值。
我們可以在哪裡使用監督學習?
答案是:在我們知道在輸入資料中查看什麼以及我們想要什麼作為輸出的情況下。
監督學習問題的主要類型包括迴歸和分類問題。
2. 無監督機器學習
無監督學習的工作方式與監督學習的工作方式恰恰相反。
它使用未標記的數據——機器必須理解數據,找到隱藏的模式並做出相應的預測。
在這裡,機器在獨立地從資料中推導出隱藏模式後為我們提供新發現,而無需人工指定要尋找的內容。
無監督學習問題的主要類型包括聚類和關聯規則分析。
3.強化學習
強化學習涉及一個代理,該代理透過執行操作來學習在環境中的行為。
根據這些行動的結果,它會提供回饋並調整其未來的路線-對於每一個好的動作,代理人都會得到正面的回饋,而對於每一個壞的動作,代理人都會得到負面的反饋或懲罰。
強化學習在沒有任何標記資料的情況下進行學習。由於沒有標記數據,代理只能根據自己的經驗進行學習。
4. 半監督學習
半監督是監督和無監督學習之間的狀態。
它從每個學習中獲取積極的方面,即它使用較小的標記資料集來指導分類,並從較大的未標記資料集中執行無監督特徵提取。
使用半監督學習的主要優點是它能夠在沒有足夠的標記資料來訓練模型時解決問題,或者當資料根本無法標記時因為人類不知道要在其中尋找什麼。
四 6 個真實世界的機器學習應用程式
如今,機器學習幾乎是所有科技公司的核心,包括Google或 Youtube 搜尋引擎等企業。
下面,匯總了一些您可能熟悉的機器學習在現實生活中的應用示例:
自動駕駛汽車
車輛在道路上會遇到各種各樣樣的情況。
為了讓自動駕駛汽車比人類表現更好,它們需要學習並適應不斷變化的路況和其他車輛的行為。
自動駕駛汽車從感測器和攝影機收集周圍環境的數據,然後對其進行解釋並做出相應的反應。它使用監督學習來識別周圍物體,使用無監督學習識別其他車輛的模式,並最終在強化演算法的幫助下採取相應的行動。
影像分析和物件偵測
影像分析用於從影像中提取不同的資訊。
它在檢查製造缺陷、分析智慧城市的汽車交通或像Google鏡頭這樣的視覺搜尋引擎等領域中得到應用。
主要想法是使用深度學習技術從影像中提取特徵,然後將這些特徵應用於物件偵測。
客戶服務聊天機器人
如今,公司使用 AI 聊天機器人來提供客戶支援和銷售的情況非常普遍。 AI 聊天機器人透過提供 24/7 支援來幫助企業處理大量客戶查詢,從而降低支援成本並帶來額外收入和滿意的客戶。
AI 機器人技術使用自然語言處理 (NLP) 來處理文字、提取查詢關鍵字並做出相應回應。
醫學影像與診斷
事實是這樣的:醫學影像資料既是最豐富的資訊來源,也是最複雜的資訊來源之一。
手動分析數以千計的醫學影像是一項乏味的工作,並且浪費病理學家可以更有效地利用的寶貴時間。
但這不僅僅是節省時間——肉眼可能看不到偽影或結節等小特徵,從而導致疾病診斷延遲和錯誤預測。這就是為什麼使用涉及神經網路的深度學習技術(可用於從圖像中提取特徵)具有如此大的潛力。
詐欺識別
隨著電子商務領域的擴張,我們可以觀察到線上交易數量的增加和可用支付方式的多樣化。不幸的是,有些人利用了這種情況。當今世界的詐欺者非常熟練,可以非常迅速地採用新技術。
這就是為什麼我們需要一個能夠分析資料模式、做出準確預測並回應線上網路安全威脅(如虛假登入嘗試或網路釣魚攻擊)的系統。
例如,根據您過去購買的地點或您在線上的時間,防詐騙系統可以發現購買是否合法。同樣,他們可以檢測是否有人試圖在網路或電話中冒充您。
推薦演算法
推薦演算法的這種相關性是基於對歷史資料的研究,並取決於幾個因素,包括使用者偏好和興趣。
京東或抖音等公司使用推薦系統為使用者/買家策劃和展示相關內容或產品。
五機器學習的挑戰和限制
欠擬合和過度擬合
在大多數情況下,任何機器學習演算法表現不佳的原因都是由於欠擬合和過擬合。
讓我們在訓練機器學習模型的背景下分解這些術語。
- 欠擬合是機器學習模型既不能學習資料中變數之間的關係也無法正確預測新資料點的場景。換句話說,機器學習系統沒有發現跨數據點的趨勢。
- 當機器學習模型從訓練資料中學習太多時,就會發生過度擬合,注意那些本來就是雜訊或與資料集範圍無關的資料點。它試圖擬合曲線上的每個點,並因此記住資料模式。
由於該模型的靈活性很小,因此無法預測新的資料點。換句話說,它過於關注所給的例子,無法看到更大的圖像。
欠擬合和過擬合的原因是什麼?
更一般的情況包括用於訓練的資料不乾淨並且包含大量雜訊或垃圾值,或資料的大小太小的情況。但是,還有一些更具體的原因。
讓我們來看看那些。
欠擬合的發生可能是因為:
- 該模型使用錯誤的參數進行訓練,並且未充分觀察到訓練資料
- 模型太簡單,記不住足夠多的特徵
- 訓練資料過於多樣化或複雜
在以下情況下可能會發生過度擬合:
- 該模型使用錯誤的參數進行訓練,並過度觀察訓練資料
- #該模型過於複雜,並且沒有針對更多不同的數據進行預訓練。
- 訓練資料的標籤過於嚴格或原始資料過於均勻,不代表真實的分佈。
維數
#任何機器學習模型的準確度都與資料集的維度成正比。但它只適用於特定的閾值。
資料集的維度是指資料集中存在的屬性/特徵的數量。以指數方式增加維度會導致添加非必需屬性,從而混淆模型,從而降低機器學習模型的準確性。
我們將這些與訓練機器學習模型相關的困難稱為「維度災難」。
資料品質
機器學習演算法對低品質的訓練資料很敏感。
由於資料不正確或缺失值導致資料中出現噪聲,資料品質可能會受到影響。即使訓練資料中相對較小的錯誤也會導致系統輸出出現大規模錯誤。
當演算法表現不佳時,通常是由於資料品質問題,例如數量/傾斜/雜訊資料不足或描述資料的特徵不足。
因此,在訓練機器學習模型之前,往往需要進行資料清洗以獲得高品質的資料。
以上是一文讀懂什麼是機器學習的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

在C++中,機器學習演算法的實作方式包括:線性迴歸:用於預測連續變量,步驟包括載入資料、計算權重和偏差、更新參數和預測。邏輯迴歸:用於預測離散變量,流程與線性迴歸類似,但使用sigmoid函數進行預測。支援向量機:一種強大的分類和回歸演算法,涉及計算支援向量和預測標籤。

Go語言在機器學習領域的應用潛力巨大,其優點在於:並發性:支援平行編程,適合機器學習任務中的運算密集型操作。高效性:垃圾收集器和語言特性確保程式碼高效,即使處理大型資料集。易用性:語法簡潔,學習和編寫機器學習應用程式容易。
