hadoop - Gunakan modul hdfs python atau modul lain yang serupa untuk menapis kandungan log log pada HDFS

Question

Pada masa ini, syarikat menggunakan HDFS untuk menyimpan log yang dimuat naik oleh setiap pelayan nod. Kerana isu sejarah, balak agak bercampur-campur. Maksudnya, semua jenis data akan disimpan dalam log. Fail log adalah kira-kira 200mb. Kadangkala anda perlu menapis beberapa kandungan berdasarkan cap masa, dan kemudian gunakan arahan kucing hdfs...

曾经蜡笔没有小新 · Answer

Bagaimana pula dengan pengkomputeran berbilang benang dan selari? Membaca beberapa Gb serentak secara semula jadi adalah perlahan. Memandangkan ia adalah rangka kerja hadoop, ia sepatutnya cukup untuk menggunakan mapreduce dengan baik. Perkara ini mungkin tidak direka untuk kelajuan.