백엔드 개발 파이썬 튜토리얼 중국어 단어 분할에 Python 사용

중국어 단어 분할에 Python 사용

Oct 18, 2016 am 09:18 AM

현재 제가 자주 사용하는 분사로는 말더듬 분사, NLPIR 분사 등이 있습니다.

최근 말더듬 분사를 사용하고 있는데, 꽤 사용하기 쉽습니다.

1. Zhiba 단어 분할 소개

중국어 단어 분할을 위해 Zhiba 단어 분할을 사용하면 세 가지 기본 구현 원칙이 있습니다.

Trie 트리 구조를 기반으로 한 효율적인 단어 그래프 스캐닝 문장에서 한자를 생성하기 가능한 모든 단어 형성 상황으로 구성된 방향성 비순환 그래프(DAG)

동적 프로그래밍을 사용하여 최대 확률 경로를 찾고 단어 빈도를 기준으로 최대 분할 조합을 찾습니다

미등록 단어의 경우 한자의 단어 형성 능력을 기반으로 한 HMM 모델 사용, Viterbi 알고리즘 사용

2. 설치 및 사용(Linux)

1. 도구 다운로드 패키지를 압축 해제하고 디렉토리에 들어가서 다음을 실행합니다: python setup.py install

힌트: a. 다운로드한 소프트웨어를 실행하기 전에 Readme를 읽어 보는 것이 좋습니다. (readme를 읽지 않으면 + Baidu를 직접 시도하면 여러 번 우회하게 됩니다.)

b. 설치 명령을 실행할 때 오류가 발생했습니다: 권한이 없습니다! (권한이 부족하여 이런 문제가 발생할 수 있습니다. 실행: sudo !! 여기서 "!!"는 이전 명령을 의미하며 여기서는 위 설치 명령을 나타냅니다.) sudo를 사용한 후에 정상적으로 실행됩니다.


2. 단어 분할을 위해 Jieba를 사용할 때 사용해야 하는 함수는 다음과 같습니다. jieba.cut(arg1, arg2);

을 사용하려면 다음 세 가지 사항만 이해하면 됩니다. a.cut 메서드는 두 개의 입력 매개 변수를 허용합니다. 첫 번째 매개 변수(arg1)는 분할해야 하는 문자열이고 arg2 매개 변수는 제어하는 ​​데 사용됩니다. 단어 분할 모드.

단어 분할 모드는 두 가지 범주로 나뉩니다. 문장을 가장 정확한 형태로 잘라내는 기본 모드, 문장의 모든 단어를 스캔하는 전체 모드입니다. 검색 엔진에 적합한 단어로 변환될 수 있습니다

b. 분할할 문자열은 gbk 문자열, utf-8 문자열 또는 유니코드일 수 있습니다

파이썬을 사용하는 사람들은 주의해야 합니다. 인코딩 문제 Python은 ASCII 코드를 기반으로 문자를 처리합니다. ASCII에 속하지 않는 문자가 나타나면(예: 코드에 중국어 문자 사용) "ASCII 코덱이 문자를 인코딩할 수 없습니다."라는 오류 메시지가 나타납니다. 파일 상단에 명령문을 추가하려면: #! -*-coding:utf- 8 -*- Python 컴파일러에 다음을 알리십시오. "내 파일은 utf-8로 인코딩되었습니다. 디코딩하려면 utf-를 사용하십시오. 8." (여기서 이 명령은 반드시 파일 상단에 추가해야 한다는 점을 기억하세요. 상단에 없으면 인코딩 문제가 여전히 존재하며 해결되지 않습니다.) 인코딩 변환에 대해서는 블로그 게시물(ps)을 참고하시면 됩니다. : "import sys reload( sys) sys.setdefaultencoding('utf-8')"에 대한 개인적인 이해 이 문장은 "#! -*-coding:utf-8 -*- ")

에 해당합니다. c.jieba.cut에 의해 반환된 구조 이는 반복 가능한 생성기입니다. for 루프를 사용하여 단어 분할 후 얻은 각 단어(유니코드)를 얻거나 list(jieba.cut(...))를 사용하여 변환할 수 있습니다. 목록으로

3. 다음은 jieba에서 그림으로 제공하는 사용 방법입니다.

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)
  
seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)
로그인 후 복사

출력 결과 는 :

Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学  
Default Mode: 我/ 来到/ 北京/ 清华大学
로그인 후 복사

3. 그 외 한자 단어 분할 기능

1. 맞춤 사전 추가 또는 관리

말더듬의 모든 사전 내용은 dict.txt에 저장되며 dict.txt의 내용을 계속 개선할 수 있습니다.

2. 키워드 추출

단어 분할 후 키워드의 TF/IDF 가중치를 계산하여 핵심 키워드를 추출합니다.


본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Apr 01, 2025 pm 05:09 PM

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? 한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? Apr 01, 2025 pm 11:15 PM

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? 10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? 중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

정규 표현이란 무엇입니까? 정규 표현이란 무엇입니까? Mar 20, 2025 pm 06:25 PM

정규 표현식은 프로그래밍의 패턴 일치 및 텍스트 조작을위한 강력한 도구이며 다양한 응용 프로그램에서 텍스트 처리의 효율성을 높입니다.

Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Apr 01, 2025 pm 10:51 PM

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? 인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? Mar 21, 2025 pm 06:46 PM

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

문자열을 통해 객체를 동적으로 생성하고 방법을 파이썬으로 호출하는 방법은 무엇입니까? 문자열을 통해 객체를 동적으로 생성하고 방법을 파이썬으로 호출하는 방법은 무엇입니까? Apr 01, 2025 pm 11:18 PM

파이썬에서 문자열을 통해 객체를 동적으로 생성하고 메소드를 호출하는 방법은 무엇입니까? 특히 구성 또는 실행 해야하는 경우 일반적인 프로그래밍 요구 사항입니다.

See all articles