Drei häufig verwendete Python-Tools zur chinesischen Wortsegmentierung

零到壹度
Freigeben: 2018-04-14 11:05:29
Original
8492 Leute haben es durchsucht

In diesem Artikel werden drei häufig verwendete Python-Wortsegmentierungstools für Chinesisch vorgestellt, die einen bestimmten Referenzwert haben.

Diese drei Wortsegmentierungstools sind hier verfügbar.

1.jieba-Partizip:

# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')

f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)

for i in seg_list:
    f1.write(i.encode("utf-8"))
    f1.write(str(" "))
Nach dem Login kopieren

Wirkung:

邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。
Nach dem Login kopieren

Dazu gehören stotternde Partizipien und das Schreiben in Dateien. Die Form

ist Es ist erwähnenswert, dass die aus der Stottersegmentierung abgeleitete Zeichenkodierung „Unicode“ ist –> utf-8


2 >

(https://github.com/NLPIR-team/NLPIR)



Hier ist der Github von Lehrer Zhang Huaping. Für die Adresse, Freunde, die brauchen Es kann zum Git des Lehrers gehen, um die Lizenz zu erhalten.

Es gibt zwei Arten: ein Monat mit zehn Tagen


Natürlich gebe ich Ihnen den detaillierten Code und das Installationspaket . Es wurde auch auf CSDN hochgeladen. Interessierte Freunde können einen Blick darauf werfen (Sie müssen die Lizenz noch aktualisieren).

Es ist erwähnenswert, dass die meisten inländischen Zeitungen dieses Wortsegmentierungstool verwenden, das aussagekräftiger ist

r = open('text_no_seg.txt','r')
list_senten = []
sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'
for i in seg(sentence):
   list_senten.append(i[0])

print "/".join(list_senten)

f1 = codecs.open("d2w_ltp.txt","w")
for i in seg(sentence):
   f1.write(i[0])
   f1.write(str(" "))
Nach dem Login kopieren
Wirkung:

邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。
Nach dem Login kopieren
Natürlich hat NLPIR auch eine sehr gute Wirkung bei der Erkennung benannter Entitäten:

邓超 nr
, wd
1979年 t
出生 vi
于 p
江西 ns
南昌 ns
, wd
中国 ns
内地 s
男 b
演员 n
、 wn
电影 n
导演 n
、 wn
投资 n
出品 vi
人 n
、 wn
互联网 n
投资人 n
。 wj
Nach dem Login kopieren


3. Harbin Institute of Technology LTP

# -*- coding: UTF-8 -*-
import os
import codecs

from pyltp import Segmentor
#分词
def segmentor(sentence):
    segmentor = Segmentor()  # 初始化实例
    segmentor.load('ltp_data/cws.model')  # 加载模型
    words = segmentor.segment(sentence)  # 分词
    words_list = list(words)
    segmentor.release()  # 释放模型
    return words_list

f1 = codecs.open("d2w_ltp.txt","w")
sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'
print "/".join(segmentor(sentence))

for i in segmentor(sentence):
    f1.write(i)
    f1.write(str(" "))
Nach dem Login kopieren
Wirkung:

Das obige ist der detaillierte Inhalt vonDrei häufig verwendete Python-Tools zur chinesischen Wortsegmentierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!