지에바 한자 단어분할 활용예에 대한 자세한 설명-파이썬 튜토리얼-php.cn

지에바 한자 단어분할 활용예에 대한 자세한 설명

巴扎黑

풀어 주다： 2017-07-23 11:46:44

원래의

7758명이 탐색했습니다.

중국어 텍스트 분류는 단어를 하나씩 분리하면 되는 영어 텍스트 분류와는 다릅니다. 중국어 텍스트 분류는 텍스트로 구성된 단어를 분리하여 벡터를 형성해야 합니다. 그러므로 단어분할이 필요하다.
여기서는 인터넷에서 인기 있는 오픈 소스 단어 분할 도구인 Jieba를 사용합니다. 문장의 단어를 하나씩 효과적으로 추출할 수 있습니다. 여기서는 Jieba 분할의 원리가 반복되지 않습니다.
1. 설치
Python 도구 함수 라이브러리입니다. Python 환경에 설치됩니다.
(1) python2.x에서
완전 자동 설치: easy_install jieba 또는 pip install. jieba
반자동 설치: 먼저 다운로드 후 압축을 푼 후 python setup.py install 실행
수동 설치: jieba 디렉터리를 현재 디렉터리나 site-packages 디렉터리에 넣습니다
import jieba를 통해 참조
(2) python3.x 이하
현재 마스터 브랜치는 Python2만 지원합니다.
Python3.x 버전의 브랜치는 괄호, 등호 또는 화살표와 같은 일부 기호를 정규식을 사용하여 일치시키고 삭제해야 합니다. import re를 사용하여 관련 함수 라이브러리를 가져옵니다.

구체적인 코드는 다음과 같습니다.

git clone 
git checkout jieba3k
python setup.py install

로그인 후 복사

textParse 함수는 문장(문장)을 매개변수로 받고, 반환 결과는 문장 단어로 구성된 배열입니다. 말더듬 단어 분할에서 가장 중요한 기능은 jieba.cut입니다. 이 함수는 수신된 문장을 단어로 분할하고 반복을 위한 생성기를 반환합니다. 코드의 마지막 줄은 이 구조를 배열로 변환합니다.

3. 중지 단어

중지 단어는 중국어에 나타나는 일부 조동사 또는 연결어를 말하며, 이러한 단어가 생략되지 않으면 핵심 단어와 분류 간의 명확한 관계에 영향을 미칩니다. 예를 들어 "of", "of", "and", "and" 등이 있습니다. 또한 이 분류 시나리오에 적합한 중지 단어를 적절하게 추가할 수도 있습니다. 중국어 불용어 목록에는 1598개의 불용어가 포함됩니다. github에서 얻을 수 있습니다.
프로젝트 개선사항은 다음과 같습니다.

(1) 프로젝트에 새로운 불용어 목록 stopkey.txt를 생성합니다.

모든 중국어 불용어를 이 텍스트 파일에 넣습니다. (2) 중국어 단어 분할 시 필터 중지 단어 기능 추가

4. 사용자 정의 사전

분류 시나리오의 경우 단어 분할 중에 이러한 단어가 발견되면 단일 단어로 처리됩니다. 예를 들어, 데이터베이스의 "many to Many"를 사전에 추가하면 단어 분할 중에 위의 단어가 "many", "pair" 및 "many"로 분할되는 것을 방지할 수 있습니다. 이러한 사전의 정의는 분류자 애플리케이션 시나리오와도 관련이 있습니다.
프로젝트 개선 사항은 다음과 같습니다.

(1) 사용자 정의 사전 파일 userdict.txt 추가

(2) 중국어 단어 분할에 사용자 정의 사전 단어 분할 기능 추가
5. 향상된 중국어 단어 분할 기능

코드 (다른 공통 기호도 추가됨):

def textParse(sentence):
    import jieba
    import re
    #以下两行过滤出中文及字符串以外的其他符号
    r= re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+")
    sentence=r.sub('',sentence)
    seg_list = jieba.cut(sentence)
    #print ("Default Mode:", ' '.join(seg_list))
    return [tok for tok in seg_list]