寻求读取文件的最后 n 行是一个常见的需求,让人想起 tail -n类 Unix 系统中的命令。为了实现这一目标,我们需要找到一种可以提供此功能的有效方法。
一种建议的方法涉及估计平均线长度并逐渐增加它直到足够的长度读取的行数。这种方法虽然合理,但依赖于估计行长度,并且在某些情况下可能表现较差。
更强大的替代方法涉及以块的形式迭代文件。可以调整块大小以获得最佳性能,并且该方法不依赖于任何有关线路长度的假设。它继续读取块,直到获得所需的行总数。此技术可确保不同文件大小和行长度的一致且可靠的性能。
使用这种基于块的方法时,重要的是要考虑文件大小与系统的关系操作系统 (OS) 块大小。如果文件小于单个操作系统块,该方法可能会导致冗余读取和较低的性能。在这种情况下,将块大小与操作系统块大小对齐可以带来改进。然而,对于大文件,这种优化可能不会产生重大影响。
建议的替代方法可以在 Python 中实现,如下所示:
def tail(f, lines=20): """Reads the last n lines from a file.""" BLOCK_SIZE = 1024 f.seek(0, 2) block_end_byte = f.tell() lines_to_go = lines block_number = -1 blocks = [] while lines_to_go > 0 and block_end_byte > 0: if (block_end_byte - BLOCK_SIZE > 0): f.seek(block_number*BLOCK_SIZE, 2) blocks.append(f.read(BLOCK_SIZE)) else: f.seek(0, 0) blocks.append(f.read(block_end_byte)) lines_found = blocks[-1].count(b'\n') # Edit for Python 3.2 and up lines_to_go -= lines_found block_end_byte -= BLOCK_SIZE block_number -= 1 all_read_text = b''.join(reversed(blocks)) # Edit for Python 3.2 and up return b'\n'.join(all_read_text.splitlines()[-lines:]) # Edit for Python 3.2 and up
此实现允许指定要读取的行数,使其成为灵活且通用的解决方案。它优先考虑稳健性和性能,避免对行长度或文件大小的假设。
以上是Python如何高效读取文件的最后N行?的详细内容。更多信息请关注PHP中文网其他相关文章!