이 기사에서는 일반적으로 사용되는 세 가지 Python 중국어 단어 분할 도구를 공유합니다. 이 도구는 특정 참고 가치가 있습니다. 도움이 필요한 친구는 이를 참조할 수 있습니다.
이 세 가지 단어 분할 도구는 여기에서 공유됩니다~
# -*- coding: UTF-8 -*- import os import codecs import jieba seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。') f1 = codecs.open("d2w_ltp.txt","w") print "/".join(seg_list) for i in seg_list: f1.write(i.encode("utf-8")) f1.write(str(" "))
효과:
邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。
여기에는 Jieba의 단어 분할과 파일에 쓰는 형식이 포함됩니다
Jieba 분할의 문자 인코딩이 '유니코드' 인코딩이라는 점에 주목할 필요가 있습니다. 유니코드 -> 8
필요하신 분들을 위해 장화핑 선생님의 github 주소를 공개합니다. . 선생님의 Git에 가서 라이센스를 얻을 수 있습니다
두 가지 유형이 있습니다: 한 달 동안 10일
물론 CSDN에 자세한 코드와 설치 패키지도 업로드했습니다. (여전히 필요함) 라이센스를 업데이트하려면)
대부분의 국내 논문에서 이 단어 분할 도구를 사용한다는 점은 언급할 가치가 있습니다. 이 도구는 더 권위가 있습니다
r = open('text_no_seg.txt','r') list_senten = [] sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。' for i in seg(sentence): list_senten.append(i[0]) print "/".join(list_senten) f1 = codecs.open("d2w_ltp.txt","w") for i in seg(sentence): f1.write(i[0]) f1.write(str(" "))
효과:
邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。
물론 NLPIR도 명명된 엔터티에 좋은 영향을 미칩니다. 인식:
邓超 nr , wd 1979年 t 出生 vi 于 p 江西 ns 南昌 ns , wd 中国 ns 内地 s 男 b 演员 n 、 wn 电影 n 导演 n 、 wn 投资 n 出品 vi 人 n 、 wn 互联网 n 投资人 n 。 wj
# -*- coding: UTF-8 -*- import os import codecs from pyltp import Segmentor #分词 def segmentor(sentence): segmentor = Segmentor() # 初始化实例 segmentor.load('ltp_data/cws.model') # 加载模型 words = segmentor.segment(sentence) # 分词 words_list = list(words) segmentor.release() # 释放模型 return words_list f1 = codecs.open("d2w_ltp.txt","w") sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。' print "/".join(segmentor(sentence)) for i in segmentor(sentence): f1.write(i) f1.write(str(" "))
효과:
邓/超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。
위 내용은 일반적으로 사용되는 세 가지 Python 중국어 단어 분할 도구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!