java - 讀取大於記憶體的大檔案怎麼讀？

Question

{程式碼...} 網路上有很多該問題的解決方案，都是用分而治之的思想，提到了遍歷整個文件。 那我的問題是：如果單純地逐行讀取大文件，算是把1G文件全都加載進記憶體嗎？或者說是讀取大於記憶體的檔案該怎麼讀？

黄舟 · Answer

在這裡記憶體就像一條管道，逐行讀是把1G檔案在記憶體裡過一遍而已，10M表示管道的粗細。
所以，逐行讀是把1G檔加载进去过記憶體。

伊谢尔伦 · Answer

try (BufferedReader in = new BufferedReader(new FileReader(file))) {
    String line;
    while ((line = in.readLine()) != null) {
        // parse line
    }
}

file再大，只要每一行的長度有限，整個檔案讀完會需要不少的時間，但不會佔用太大的記憶體。

伊谢尔伦 · Answer

分塊讀，每讀一個塊一個結果集，最後對結果集聚合
處理文本的話，知道行數會更好

高洛峰 · Answer

linux上面有个指令叫做split可以並發快速把大文本分割成小的文件,然後處理就方便了呀,這種算法叫做外排序

怪我咯 · Answer

內存就好比草稿紙，寫滿一篇就翻篇。用過、沒用的數據就丟掉了。

簡單舉例，創建一個變數 buff,設定好它的大小，打開檔案流往裡填，填滿以後查你要的內容，查到就統計到另外一個變數裡計數。然後清空buff,繼續之前讀取的位置再次裝載內容… 直到讀取完畢，統計也就完成了。

阿神 · Answer

針對不同的系統，都會提供一個API來操作大於記憶體的文件，也就是將文件當作記憶體來處理：

内存映射

mmap
CreateFileMapping