golang 인코딩 변환

WBOY
풀어 주다: 2023-05-21 19:48:37
원래의
1274명이 탐색했습니다.

Go 언어는 효율성, 동시성 및 이식성을 갖춘 현대적인 프로그래밍 언어입니다. 실제 응용 프로그램에서는 서로 다른 인코딩 간의 변환 문제를 처리해야 하는 경우가 많습니다. 이번 글에서는 golang의 인코딩 변환 솔루션을 소개하겠습니다.

  1. 인코딩에 대한 기본 지식

컴퓨터에서 문자는 종종 ASCII 코드, GB2312, UTF-8 등과 같은 디지털 인코딩으로 표현됩니다. 서로 다른 인코딩 간의 문자 매핑 관계가 다르기 때문에 각각의 단점과 장점도 있습니다.

ASCII 코드는 일반적으로 사용되는 인코딩 방법으로 대문자와 소문자, 숫자 및 일부 특수 문자를 포함하여 128자만 표현할 수 있으므로 국제화 적용이 제한됩니다. GB2312는 약 7,000자의 한자를 표현할 수 있는 한자 인코딩 방식이지만 중국 내에서만 널리 사용됩니다. 마찬가지로 UTF-8 인코딩도 일반적으로 사용되는 인코딩 방법으로 전 세계적으로 문자를 표현할 수 있지만 동아시아 언어를 처리할 때 바이트 수가 GB2312 또는 GB18030에 비해 많다는 단점이 있습니다.

따라서 해당 시나리오에서 사용하려면 서로 다른 인코딩 간 변환이 필요합니다.

  1. golang의 인코딩 변환

golang의 표준 라이브러리는 인코딩 관련 문제와 유니코드 코드 포인트 관련 문제를 각각 처리하는 데 사용되는 인코딩 및 유니코드 패키지를 제공합니다.

golang에서는 문자가 룬 유형으로 표현되고, 문자열은 일련의 룬 유형으로 구성됩니다. 다음은 golang에서 일반적으로 사용되는 인코딩 변환 함수와 예제를 소개합니다.

2.1 golang의 인코딩 변환 기능

2.1.1 bytes 패키지

bytes 패키지는 바이너리 데이터를 읽고 쓰는 기능을 제공하며, 그 중 일부는 문자열을 구문 분석하고 직렬화하는 데 특별히 사용됩니다.

함수 이름 함수

func ToUpperSpecial은 문자열을 대문자로 변환하고, 사용자 정의 로케일을 지원합니다.

func ToLowerSpecial은 문자열을 소문자로 변환하고, 사용자 정의 로케일을 지원합니다.

func ToTitleSpecial은 문자열을 제목 형식으로 변환하고, 사용자 정의 로케일을 지원합니다.

func ToUpper Convert 문자열을 대문자로 변환

func ToLower 문자열을 소문자로 변환

func ToTitle 문자열을 제목 형식으로 변환

func Title 전체 문자열을 제목 형식으로 변환

func TrimSpace 문자 제거 문자열 시작과 끝의 공백

func Trim 문자열의 시작과 끝에서 지정된 문자를 제거

func TrimFunc 문자열의 시작과 끝에서 지정된 함수를 제거

func TrimLeftFunc 문자열의 왼쪽에서 지정된 함수를 제거

func TrimRightFunc 문자열 오른쪽에 있는 지정된 함수를 제거합니다.

func HasPrefix 문자열에 지정된 접두사가 포함되어 있는지 확인합니다.

func HasSuffix 문자열에 지정된 접미사가 포함되어 있는지 확인합니다.

func 인덱스 지정된 하위 문자열이 처음 나타나는 위치를 반환합니다. 문자열에서

func LastIndex 문자열에서 지정된 하위 문자열이 마지막으로 나타나는 것을 반환합니다. 문자열의 위치

func IndexFunc 문자열에서 지정된 조건을 충족하는 첫 번째 문자의 위치를 ​​반환합니다.

func LastIndexFunc 문자열의 위치를 ​​반환합니다. 문자열에서 지정된 조건을 충족하는 마지막 문자

func IndexByte 문자열의 첫 번째 위치를 반환합니다. 지정된 문자가 나타나는 위치

func LastIndexByte 지정된 문자가 문자열에서 마지막으로 나타나는 위치를 반환합니다.

func 개수 반환 지정된 하위 문자열이 문자열에 나타나는 횟수

func 바꾸기 문자열에서 지정된 하위 문자열을 다른 문자열로 바꿉니다. String

func 바꾸기All 문자열에 지정된 모든 하위 문자열을 다른 문자열로 바꿉니다.

func 문자열을 다음과 같은 조각으로 나눕니다. 지정된 구분 기호로

func SplitN 지정된 구분 기호에 따라 문자열을 최대 분할 N 번까지 조각으로 분할합니다.

func SplitAfter 지정된 접미사에 따라 문자열을 조각으로 분할하고 접미사는 각 하위 문자열에 포함됩니다

func SplitAfterN 지정된 접미사에 따라 문자열을 조각으로 분할하고 접미사는 각 하위 문자열에 포함되며 최대 N 번 분할됩니다.

func Join은 지정된 구분에 따라 문자열 조각을 문자열로 병합합니다.

2.1.2 인코딩 package

encoding 패키지는 UTF-8, GB2312 등과 같은 다양한 문자 인코딩 방법을 인코딩 및 디코딩하기 위한 일련의 기능을 제공합니다.

함수 이름 기능

func Decode 지정된 인코딩 바이트 슬라이스에서 UTF-8 형식의 룬 슬라이스로 디코딩

func DecodeRune 지정된 인코딩 바이트 슬라이스에서 단일 룬으로 디코딩

func DecodeLastRune 지정된 인코딩 바이트에서 디코딩 슬라이스의 마지막 룬을 디코딩

func Encode 룬 슬라이스를 지정된 인코딩의 바이트 슬라이스로 변환

func RuneCount 룬 슬라이스의 룬 수를 계산합니다

func Runes 지정된 인코딩 바이트 슬라이스를 룬 슬라이스로 디코딩

2.1.3 유니코드 패키지

유니코드 패키지는 문자가 숫자, 문자 등인지 확인하는 몇 가지 기능을 제공합니다.

함수 이름 기능

func IsDigit 문자가 숫자인지 확인

func IsLetter 문자인지 확인

func IsLower 문자가 소문자인지 확인합니다.

func IsUpper 문자가 대문자인지 확인합니다.

func IsPunct 문자가 구두점인지 확인합니다.

func IsGraphic 문자가 시각적 그래픽 문자인지 확인합니다

2.2 golang의 코드 변환 예

다음은 golang의 일부 인코딩 변환 예입니다.

2.2.1 UTF-8 인코딩을 GB2312로

예 1: golang의 인코딩 패키지를 사용하여 UTF-8 인코딩과 GB2312 인코딩 간을 변환합니다.

package main

import (
    "fmt"
    "github.com/axgle/mahonia"
)

func main() {
    str := "你好,世界!"
    enc := mahonia.NewEncoder("GB2312")
    newStr := enc.ConvertString(str)
    fmt.Println(newStr)
}
로그인 후 복사

2.2.2 GB2312 인코딩을 UTF-8로 변환

예 2: golang의 인코딩 패키지를 사용하여 GB2312 인코딩과 UTF-8 인코딩 간을 변환합니다.

package main

import (
    "fmt"
    "github.com/axgle/mahonia"
)

func main() {
    str := "你好,世界!"
    dec := mahonia.NewDecoder("GB2312")
    newStr := dec.ConvertString(str)
    fmt.Println(newStr)
}
로그인 후 복사
  1. 요약

실제 응용 프로그램에서 인코딩 변환 문제는 일반적인 문제입니다. 이 기사에서는 주로 인코딩 및 유니코드 패키지에서 제공하는 기능을 사용하여 다양한 인코딩 간 변환을 수행하는 golang의 인코딩 변환 솔루션을 소개합니다. 이러한 내용을 학습함으로써 우리는 golang의 인코딩 변환 작업에 대한 더 깊은 이해와 더 정확한 실무 능력을 갖추어야 합니다.

위 내용은 golang 인코딩 변환의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿