여러 단어 경계 구분 기호를 사용하여 문자열을 단어로 분할
Python에서 str.split()을 사용하여 문자열을 단어로 분할할 때 구분 기호는 하나만 지정할 수 있습니다. 구두점과 공백을 단어 경계로 고려하려는 경우 문제가 될 수 있습니다.
해결책: re.split() 사용
이 문제를 해결하려면 다음을 고려하십시오. 대신 re.split() 함수를 사용하세요. re.split()을 사용하면 여러 단어 경계 구분 기호를 포함할 수 있는 인수로 패턴을 지정할 수 있습니다.
다음 구문을 사용하여 패턴을 구성할 수 있습니다.
\W+ # Match any sequence of non-word characters | # Or \s+ # Match any sequence of whitespace characters
분할하려면 주어진 예제 문자열을 구두점을 포함하여 단어로 변환하려면 다음 코드를 사용할 수 있습니다.
>>> import re >>> re.split(r"\W+|\s+", "Hey, you - what are you doing here!?") ['hey', 'you', 'what', 'are', 'you', 'doing', 'here']
위 정규식은 단어가 아닌 문자의 모든 시퀀스와 일치합니다. 또는 공백 문자를 사용하여 효과적으로 문자열을 단어로 분할합니다.
이 방법은 다양한 구분 기호를 기반으로 문자열을 분할하는 유연하고 사용자 정의 가능한 방법을 제공하여 모든 관련 단어가 캡처되도록 합니다.
위 내용은 Python에서 여러 구분 기호를 사용하여 문자열을 단어로 어떻게 나눌 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!