문자열 간 최단 일치 추출
대규모 로그 파일이 포함된 시나리오에서는 특정 문자열 간 최단 일치를 식별하는 것이 중요합니다. 이 기사에서는 이 작업을 위한 Python 기반 솔루션을 탐색하여 자세한 설명을 제공하고 실제 계산 복잡성을 해결합니다.
문제는 'start' 및 '라는 두 개의 개별 문자열로 묶인 여러 줄 문자열을 찾는 데 있습니다. 끝'. 제공된 예에서 볼 수 있듯이 전통적인 정규식 접근 방식은 원하지 않는 결과를 낳을 수 있습니다. 여기서는 'start spam' 문자열에서 일치 항목을 캡처합니다.
이 문제를 해결하기 위해 개선된 정규식이 도입되었습니다.
<code class="python">(start((?!start).)*?end)</code>
이 정규식은 부정 예측을 사용하여 캡처된 시퀀스 내에 다른 '시작' 문자열이 포함되는 것을 방지합니다. 그런 다음 re.findall 메서드를 한 줄 수정자 re.S와 함께 활용하여 여러 줄 문자열 내의 모든 항목을 추출합니다.
이 솔루션의 효율성을 보여주기 위해 예가 제공됩니다. 2GB 파일 크기, 1,200만 개의 'start' 발생, 파일 끝 근처에 집중된 약 800개의 'end' 발생 등 실제 계산 복잡성을 처리합니다.
위 내용은 Python을 사용하여 대용량 로그 파일의 문자열 사이에서 가장 짧은 일치 항목을 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!