Pandas DataFrame을 사용하여 문자열의 하위 문자열 존재 테스트
Python의 Pandas 라이브러리에서 문자열 데이터로 작업할 때 다음 사항을 확인해야 할 수도 있습니다. 문자열에는 주어진 목록의 하위 문자열이 포함됩니다. df.isin() 및 df[col].str.contains()와 같이 하위 문자열 존재 여부를 확인하는 다양한 함수가 있지만 이들을 조합하여 사용하는 것은 다소 복잡할 수 있습니다.
Pandas가 있다고 가정해 보겠습니다. "cat", "hat", "dog", "fog" 및 "pet"과 같은 문자열을 포함하는 시리즈 s이며 "og" 또는 "pet"을 포함하는 모든 문자열을 식별하려고 합니다. "at."
한 가지 해결책은 "|"를 사용하여 목록의 모든 하위 문자열과 일치하는 정규식 패턴을 사용하는 것입니다. 성격. 예를 들어, "|"를 사용하여 searchfor의 하위 문자열을 결합하면 정규 표현식이 생성됩니다.
>>> searchfor = ['og', 'at'] >>> regex_pattern = '|'.join(searchfor) >>> s[s.str.contains(regex_pattern)] 0 cat 1 hat 2 dog 3 fog dtype: object
이 접근 방식은 s에서 "og" 또는 "at"를 포함하는 모든 문자열을 효과적으로 찾습니다. 이는 간결하고 효율적인 방법입니다.
그러나 searchfor의 하위 문자열에 "$" 또는 "^"와 같은 특수 문자가 포함된 경우 리터럴 일치를 보장하기 위해 re.escape()를 사용하여 해당 문자를 이스케이프 처리하는 것이 중요합니다. 예:
>>> import re >>> matches = ['$money', 'x^y'] >>> safe_matches = [re.escape(m) for m in matches] >>> regex_pattern = '|'.join(safe_matches) >>> s[s.str.contains(regex_pattern)] 0 cat 1 hat 2 dog 3 fog dtype: object
특수 문자를 이스케이프 처리하여 str.contains와 함께 사용할 때 각 문자가 문자 그대로 일치하는지 확인합니다. 이 접근 방식은 Pandas Series의 하위 문자열 감지를 위한 강력한 솔루션을 제공합니다.
위 내용은 Pandas 시리즈 내에서 여러 하위 문자열을 효율적으로 확인하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!