python - 100G超大文件合并排序

Question

目前想实现两个100G文件合并，日志文件，都有日期，日期会有所交集，如一份1日到10日，另一份5日到15日，所以合并后也需要对日期进行排序。 目标是，查询某一时间区段的信息，目前的打算是： 我可以知道每个文件...

阿神 · Answer

アイデアをください: あなたのセグメント化のアイデアは実際には非常に良いと思いますが、実際にセグメント化する必要はありません。インデックスファイルを維持するだけです。つまり、(たとえば) 1000 エントリごとにファイルを 1 回読み取ることによって、1000 エントリの開始ファイルオフセットと終了オフセットが、これら 1000 エントリの開始時刻と終了時刻に関連付けられます。このようにして、インデックスファイルを取得します。

リーリー

今後クエリを実行する場合は、まずインデックスファイルをチェックして、必要なデータがどのファイルのどの範囲に含まれているかを確認できます。各ファイルは時間順に並べ替えられるため、インデックス作成時に並べ替える必要はありません。