時間序列機器學習資料集的非常規拆分技術-人工智慧-PHP中文網

讓我們從資料集開始

分割

#資料的另一種觀點

垂直分割

混合拆分

多維拆分

結論

首頁

科技週邊

人工智慧

時間序列機器學習資料集的非常規拆分技術

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 01:10 PM

機器學習數據數據集

確保機器學習模型在未知環境中泛化的一種嘗試是分割資料。這可以透過多種方式實現，從3-way(訓練、測試、評估)拆分到交叉驗證的k拆分。其基本原理是，透過在資料子集上訓練機器學習模型，並在未知資料上進行評估，可以更好地推理模型在訓練中是否存在欠擬合或過度擬合。

對於大多數工作來說，簡單的3-way就足夠了。在現實生產中，拆分方式往往需要更複雜的方法來確保泛化問題。這些拆分更加複雜，因為它們源自於實際數據，而不是普通拆分方法所基於的資料結構。這篇文章試圖講解一些在機器學習開發中拆分資料的非常規方法，以及它們背後的原因。

讓我們從資料集開始

為了簡單起見，讓我們使用以表格格式來表示簡單多變量時間序列資料集。此資料由3個數字特徵、1個分類特徵及1個時間戳特徵組成。以下是可視化的：

時間序列機器學習資料集的非常規拆分技術

這種類型的資料集在機器學習的許多用例和行業中都很常見。一個具體的例子是從工廠車間裡面多個感測器傳輸的時間流資料。分類變數將是機器的ID，數字特徵將是感測器正在記錄的資訊(例如，壓力、溫度等)，時間戳將是資料傳輸和記錄在資料庫中的時間。

分割

假設您從資料工程部門以csv檔案的形式收到了這個資料集，並承擔編寫分類或迴歸模型的任務。在這種情況下，標籤可以是任何特徵或額外的列。要做的第一件事是將資料拆分成有意義的子集。

為方便起見，您可以簡單拆分成訓練集和測試集。馬上問題來了，資料的簡單拆分在這裡是行不通的：資料是由多個按時間索引的感測器資料流組成的。那麼，如何對資料進行拆分，從而保持順序，並使後續機器學習模型具有很好的泛化性呢?

#資料的另一種觀點

#我們可以做的最直接的轉換是表示每個分類類別的資料（在我們的運行範例中，視覺化每台機器的資料）。這將產生以下結果：

時間序列機器學習資料集的非常規拆分技術

水平拆分

分組使拆分的問題變得簡單了一些，並且很大程度上取決於你的假設。您可能會問:針對一個群組訓練的機器學習模型如何泛化到其他群組，也就是說，如果在class_1、class_2和class_3時間流上進行訓練，該模型在class_4和class_5時間流上的會如何呢?以下是這種拆分的視覺化圖:

時間序列機器學習資料集的非常規拆分技術

上面的這種拆分方式，我稱之為水平拆分。在大多數機器學習庫中，透過簡單地按分類特徵進行分組並沿著分類進行分區，可以輕鬆實現這種拆分。使用這種拆分進行訓練，該模型就已經收集到了在未知分組中泛化的資訊。

值得注意的是，拆分並沒有把時間當作拆分本身的基礎。不過，可以假設您還將按每個時間流的時間排序來拆分，以在資料中維護這種關係。這就引出了下一個拆分方式。

垂直分割

但如果你想跨越時間本身呢?對於大多數時間序列建模，拆分資料的常用方法是past和future。也就是說，將訓練集的歷史資料與評估集的資料進行比較。在這種情況下的假設是：機器學習模型如何訓練每組的歷史資料泛化到每組的未來資料?這個問題可以透過所謂的垂直分割來回答:

時間序列機器學習資料集的非常規拆分技術

這種拆分的成功訓練將表明該模型能夠在它已經看到的時間流中提取模式，並對未來的行為做出準確的預測。然而，這本身並不能表明該模型可以很好地泛化到來自不同組的其他時間流。

當然，您的多個時間流現在必須單獨排序，所以我們仍然需要分組。但這次，我們不是跨組，而是從past每個組中抽取樣本並將其放入train中，並將future組相應的放入eval 中。在這個理想化的例子中，所有時間流具有相同的長度，即每個時間流具有完全相同數量的資料點。但是，在現實世界中，情況可能並非如此——因此您需要一個系統來為每個群組建立索引以進行拆分。

混合拆分

大家可能想知道，他們是否可以產生一個模型，在水平和垂直拆分的約束下都可以很好的進行泛化呢？在這種情況下，假設將是:如何在一些組的歷史數據上訓練的機器學習模型泛化到這些組的未來數據和其他組的所有數據?這種混合拆分的可視化結果如下所示:

時間序列機器學習資料集的非常規拆分技術

當然，如果模型訓練是成功的，這個模型肯定會比其他模型在現實世界中更強壯。它不僅可以證明它已經看到的一些組的學習模式，而且還可以證明它已經獲得了跨組泛化的信息。如果我們將來要為工廠增加更多類似的機器，這可能是有用的。

多維拆分

水平和垂直拆分的概念可以推廣到許多維度。例如，可能需要根據兩個分類特徵而不是一個分類特徵進行分組，以便進一步隔離資料中的子組，並按子組對它們進行排序。中間可能還存在用於篩選樣本數量較少的群組的複雜邏輯，以及與該領域相關的其他業務級邏輯。

結論

這個假設的例子用來說明可以建立的各種機器學習分割的無限可能性。就像在評估模型時確保機器學習的公平性很重要一樣，花足夠的時間考慮劃分資料集及其對下游模型產生偏差的後果也同樣重要。

以上是時間序列機器學習資料集的非常規拆分技術的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

一文帶您了解SHAP：機器學習的模型解釋 Jun 01, 2024 am 10:58 AM

在機器學習和資料科學領域，模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用，理解模型的決策過程變得尤為重要。可解釋人工智慧（ExplainableAI|XAI）透過提高模型的透明度，幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現，以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

透過學習曲線辨識過擬合和欠擬合 Apr 29, 2024 pm 06:50 PM

本文將介紹如何透過學習曲線來有效辨識機器學習模型中的過度擬合和欠擬合。欠擬合和過擬合1、過擬合如果一個模型對資料進行了過度訓練，以至於它從中學習了噪聲，那麼這個模型就被稱為過擬合。過度擬合模型非常完美地學習了每一個例子，所以它會錯誤地分類一個看不見的/新的例子。對於一個過度擬合的模型，我們會得到一個完美/接近完美的訓練集分數和一個糟糕的驗證集/測試分數。略有修改："過擬合的原因：用一個複雜的模型來解決一個簡單的問題，從資料中提取雜訊。因為小資料集作為訓練集可能無法代表所有資料的正確表示。"2、欠擬合如

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

超級智能體生命力覺醒！可自我更新的AI來了，媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂煉大模型，一網路的資料不夠用，根本不夠用。訓練模型搞得跟《飢餓遊戲》似的，全球AI研究者，都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中，這問題尤其突出。一籌莫展之際，來自人大系的初創團隊，用自家的新模型，率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下，兩側都能產生高品質、多模態的新數據，對模型本身進行數據反哺。模型是啥？中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰？智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立，高

使用C++實現機器學習演算法：常見挑戰及解決方案 Jun 03, 2024 pm 01:25 PM

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫，並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法，有效地管理記憶體和使用高效能矩陣操作。

你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支，它賦予電腦從數據中學習的能力，並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用，從影像辨識和自然語言處理到推薦系統和詐欺偵測，它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論，其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學（Symbolism），又稱符號主義，強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程，透過現有的

美國空軍高調展示首個AI戰鬥機！部長親自試駕全程未乾預，10萬行代碼試飛21次 May 07, 2024 pm 05:00 PM

最近，軍事圈被這個消息刷屏了：美軍的戰鬥機，已經能由AI完成全自動空戰了。是的，就在最近，美軍的AI戰鬥機首次公開，揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機（VISTA），由美空軍部長親自搭乘，模擬了一對一的空戰。 5月2日，美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意，在一小時的飛行中，所有飛行動作都由AI自主完成！ Kendall表示——在過去的幾十年中，我們一直在思考自主空對空作戰的無限潛力，但它始終顯得遙不可及。然而如今，

See all articles

時間序列機器學習資料集的非常規拆分技術

讓我們從資料集開始

分割

#資料的另一種觀點

垂直分割

混合拆分

多維拆分

結論

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題