Go에서 발음 구별 부호 제거
UTF-8로 인코딩된 문자열에서 발음 구별 부호(악센트 표시)를 제거하는 것은 일반적인 텍스트 처리 작업입니다. Go는 텍스트 정규화 유틸리티의 일부로 이러한 목적을 위해 여러 라이브러리를 제공합니다.
한 가지 접근 방식은 아래에 설명된 것처럼 여러 라이브러리를 결합하는 것입니다.
package main import ( "fmt" "unicode" "golang.org/x/text/transform" "golang.org/x/text/unicode/norm" ) // isMn determines if a rune represents a nonspacing mark (diacritic). func isMn(r rune) bool { return unicode.Is(unicode.Mn, r) } func main() { // Create a transformation chain to: // - Decompose the string into its unicode normalization form (NFD). // - Remove all nonspacing marks (diacritics). // - Recompose the string into its normalized form (NFC). t := transform.Chain(norm.NFD, transform.RemoveFunc(isMn), norm.NFC) // Apply the transformation to the input string "žůžo". result, _, _ := transform.String(t, "žůžo") // Print the resulting string, which is "zuzo" without diacritics. fmt.Println(result) }
위 내용은 Go의 문자열에서 발음 구별 부호를 어떻게 제거할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!