Maison > développement back-end > Tutoriel Python > Trois outils de segmentation de mots chinois Python couramment utilisés

Trois outils de segmentation de mots chinois Python couramment utilisés

零到壹度
Libérer: 2018-04-14 11:05:29
original
8636 Les gens l'ont consulté

Cet article partage avec vous trois outils de segmentation de mots chinois python couramment utilisés, qui ont une certaine valeur de référence. Les amis dans le besoin peuvent se référer à

Ces trois outils de segmentation de mots, dans Partager ici~

Participe 1.jieba :

# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')

f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)

for i in seg_list:
    f1.write(i.encode("utf-8"))
    f1.write(str(" "))
Copier après la connexion
Effet :

邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。
Copier après la connexion
Cela inclut les participes bégayant et l'écriture dans des fichiers La forme

vaut notant que le codage de caractères dérivé de la segmentation saccadée est le codage « Unicode » Nous devons convertir l'unicode -> utf-8


2.

(https://github.com/NLPIR-team/NLPIR)



Voici le github du professeur Zhang Huaping Pour l'adresse, les amis qui en ont besoin peut aller sur le git du professeur pour obtenir la licence

Il en existe deux types : un mois de dix jours


Bien sûr, je vais vous donner le code détaillé et le package d'installation. Il a également été téléchargé sur CSDN. Les amis intéressés peuvent y jeter un œil (vous devez encore mettre à jour la licence)

Il convient de mentionner que la plupart des journaux nationaux utilisent cet outil de segmentation de mots, qui fait plus autorité<. 🎜>

Effet :

r = open(&#39;text_no_seg.txt&#39;,&#39;r&#39;)
list_senten = []
sentence = &#39;邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。&#39;
for i in seg(sentence):
   list_senten.append(i[0])

print "/".join(list_senten)

f1 = codecs.open("d2w_ltp.txt","w")
for i in seg(sentence):
   f1.write(i[0])
   f1.write(str(" "))
Copier après la connexion

Bien sûr, le NLPIR a également un très bon effet dans la reconnaissance des entités nommées :

邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。
Copier après la connexion

邓超 nr
, wd
1979年 t
出生 vi
于 p
江西 ns
南昌 ns
, wd
中国 ns
内地 s
男 b
演员 n
、 wn
电影 n
导演 n
、 wn
投资 n
出品 vi
人 n
、 wn
互联网 n
投资人 n
。 wj
Copier après la connexion

3. Institut de technologie de Harbin LTP

Effet :

# -*- coding: UTF-8 -*-
import os
import codecs

from pyltp import Segmentor
#分词
def segmentor(sentence):
    segmentor = Segmentor()  # 初始化实例
    segmentor.load(&#39;ltp_data/cws.model&#39;)  # 加载模型
    words = segmentor.segment(sentence)  # 分词
    words_list = list(words)
    segmentor.release()  # 释放模型
    return words_list

f1 = codecs.open("d2w_ltp.txt","w")
sentence = &#39;邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。&#39;
print "/".join(segmentor(sentence))

for i in segmentor(sentence):
    f1.write(i)
    f1.write(str(" "))
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal