python - sklearn如何訓練大規模資料集

Question

問題一： 現在我有40萬多條的數據，需要對該數據使用某種機器學習分類演算法建立模型，遇到的問題是因為數據過於龐大不能一次性的進行數據的讀取，所以想問一下該如何處理資料？問題二： 關於sklearn交叉驗證有個...

三叔 · Answer

我最近在學大數據的資料探勘與分析這一塊，對於問題一，我有個思路你參考一下:既然無法一次性讀取，可以建立分佈式數據模型，分次讀取數據，確定地址datanode（可以是某個變數名稱），建立一個namenode（名字與該位址對應的表格），然後取得資料的時候，先在namenode中確認位址（需要的是哪一個變數對應的資料），再造訪該位址取得數據進行處理。由於初學，我只是提供下我個人的思路，答案不唯一，僅供參考，各路大牛不喜勿噴。

仅有的幸福 · Answer

40萬沒多少啊，頂多幾G吧......
如果真的是內存小到8G也沒有，那還是得看你具體場景啊，舉個列子，單純算tf-idf，一個generator，記憶體中只有最後的tf-idf字典。

交叉驗證只是為了選取誤差最小的一個，你提到的前面的影響後面，是boosting的概念。

仅有的幸福 · Answer

這種問答網站最好是一個問題一個坑，必要時兩個分開的問題給連結連相關性，避免 Double-barreled question

(1) 見How to optimize for speed，你會發現有很多可以調控試驗的方式，包括(a)盡量使用簡單的算法計巧(b)針對現實狀況做記憶體使用及速度的側寫( c)試著用Numpy陣列取代所有nested loops (d)必要時使用Cython Wrapper 去調更有效率的C/C++函式庫。這些只是基本原則和方向，其實還是要看你要操作問題的瓶頸分析，是速度還是空間，把程式碼優化後再考慮是否要用平行運算等手段

(2) 你這問題得區分數學和實證上要求的差異，希望你對過擬合(overfitting)及underfitting的實證及數學意義有所掌握，這裡的問答還蠻不錯的，讀一下有幫助的。