python - 100G超大文件合并排序

Question

目前想实现两个100G文件合并，日志文件，都有日期，日期会有所交集，如一份1日到10日，另一份5日到15日，所以合并后也需要对日期进行排序。 目标是，查询某一时间区段的信息，目前的打算是： 我可以知道每个文件...

阿神 · Answer

Beri saya idea: Saya rasa idea anda tentang pembahagian sebenarnya agak bagus, tetapi ia sebenarnya tidak perlu dibahagikan Apa yang anda perlu lakukan ialah mengekalkan fail indeks. Maksudnya, dengan membaca fail sekali, untuk setiap 1000 entri (contohnya), mengimbangi fail permulaan dan mengimbangi tamat 1000 entri dikaitkan dengan masa mula dan masa tamat 1000 entri ini. Dengan cara ini anda mendapat fail indeks.

时间1~时间2，文件1，offset1~offset2
时间3~时间4，文件2，offset3~offset4
...

Apabila anda ingin membuat pertanyaan pada masa hadapan, anda boleh menyemak fail indeks terlebih dahulu untuk mengetahui fail mana dan julat mana data yang diperlukan berada. Kerana setiap fail anda diisih mengikut masa, tidak perlu mengisih semasa mengindeks.

伊谢尔伦 · Answer

Ia sangat besar, saya masih perlu bertanya mengapa ia kerap dipindahkan ke pangkalan data.