Java 정규 표현식의 w 및 b에 해당하는 유니코드
Java의 정규식 구현은 유니코드에 대한 지원이 제한되어 있으므로 단어 또는 일치 항목을 일치시키기가 어렵습니다. 단어 경계를 정확하게 지정합니다. 기본 w 및 b 이스케이프는 ASCII 문자에만 해당합니다.
이 문제를 해결하려면 이러한 이스케이프를 다시 작성하고 유니코드 인식 정의로 바꾸는 함수를 사용하는 것이 좋습니다. 이 함수는 다음 14개의 문자 클래스 이스케이프를 다시 작성할 수 있습니다.
\w \W \s \S \v \V \h \H \d \D \b \B \X \R
다시 작성된 이스케이프 정의:
경계 정의:
경계 이스케이프(b 및 B)는 다음 논리를 사용하여 다시 작성할 수 있습니다.
Java 수정 Java:
이 함수는 원래 토론 스레드에 제공된 코드를 사용하여 Java로 구현할 수 있습니다. 이 코드를 사용하면 정규식 패턴을 다시 작성하여 유니코드 문자를 더 잘 처리할 수 있습니다.
참고:
Java 7에서 Pattern 클래스는 UNICODE_CHARACTER_CLASS 플래그를 도입하여 유니코드 문자 지원을 활성화합니다. 이는 기본적으로 이스케이프됩니다.
위 내용은 \w 및 \b에 대한 Java 정규식의 유니코드 지원을 어떻게 향상시킬 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!