hadoop - 使用python hdfs模組或其他類似模組過濾HDFS上的日誌日誌內容

Question

目前公司使用HDFS儲存各節點伺服器上傳的日誌。因為歷史遺留問題，所以日誌比較混雜。就是各種資料都會存入日誌中。一個日誌檔200mb左右。有時要過濾一些內容，則需要根據時間戳，然後使用hdfs 的cat命令，...

曾经蜡笔没有小新 · Answer

多執行緒呢，並行計算呢？你這樣一次性讀幾個Gb自然慢。既然是hadoop框架，用好mapreduce應該就行了吧。這玩意應該不是為了快速而設計的。