파일의 마지막 n줄을 읽으려는 것은 일반적인 요구 사항이며 tail -n을 연상시킵니다. Unix 계열 시스템의 명령. 이를 달성하려면 이 기능을 제공할 수 있는 효율적인 방법을 찾아야 합니다.
제안된 접근 방식 중 하나는 평균 라인 길이를 추정하고 충분할 때까지 점차적으로 늘리는 것입니다. 읽은 행 수입니다. 이 방법은 합리적이지만 줄 길이를 추정하는 데 의존하며 특정 시나리오에서는 성능이 더 떨어질 수 있습니다.
더 강력한 대체 방법은 파일을 블록 단위로 반복하는 것입니다. 최적의 성능을 위해 블록 크기를 조정할 수 있으며 이 방법은 라인 길이에 대한 가정에 의존하지 않습니다. 원하는 총 라인 수를 얻을 때까지 계속해서 블록을 읽습니다. 이 기술은 다양한 파일 크기와 줄 길이에 걸쳐 일관되고 안정적인 성능을 보장합니다.
이 블록 기반 방법을 사용하는 동안 시스템 크기와 관련하여 파일 크기를 고려하는 것이 중요합니다. 운영 체제(OS) 블록 크기. 파일이 단일 OS 블록보다 작은 경우 이 방법을 사용하면 읽기가 중복되어 성능이 저하될 수 있습니다. 이러한 경우 블록 크기를 OS 블록 크기에 맞추면 개선 효과를 얻을 수 있습니다. 그러나 대용량 파일의 경우 이 최적화가 큰 영향을 미치지 않을 수 있습니다.
제안된 대체 접근 방식은 다음과 같이 Python에서 구현할 수 있습니다.
def tail(f, lines=20): """Reads the last n lines from a file.""" BLOCK_SIZE = 1024 f.seek(0, 2) block_end_byte = f.tell() lines_to_go = lines block_number = -1 blocks = [] while lines_to_go > 0 and block_end_byte > 0: if (block_end_byte - BLOCK_SIZE > 0): f.seek(block_number*BLOCK_SIZE, 2) blocks.append(f.read(BLOCK_SIZE)) else: f.seek(0, 0) blocks.append(f.read(block_end_byte)) lines_found = blocks[-1].count(b'\n') # Edit for Python 3.2 and up lines_to_go -= lines_found block_end_byte -= BLOCK_SIZE block_number -= 1 all_read_text = b''.join(reversed(blocks)) # Edit for Python 3.2 and up return b'\n'.join(all_read_text.splitlines()[-lines:]) # Edit for Python 3.2 and up
이 구현을 통해 읽을 줄 수를 지정할 수 있으므로 유연하고 다양한 솔루션이 됩니다. 줄 길이나 파일 크기에 대한 가정을 피하고 견고성과 성능을 우선시합니다.
위 내용은 Python에서 파일의 마지막 N 줄을 어떻게 효율적으로 읽을 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!