よく使用される 3 つの Python 中国語単語分割ツール
この記事では、一般的に使用される 3 つの Python 中国語単語分割ツールを紹介します。必要な友人は参照できます
これら 3 つの単語分割ツールはここで共有されています~
1 .jieba 単語分割:
# -*- coding: UTF-8 -*- import os import codecs import jieba seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。') f1 = codecs.open("d2w_ltp.txt","w") print "/".join(seg_list) for i in seg_list: f1.write(i.encode("utf-8")) f1.write(str(" "))
効果:
邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。
これには、Jieba の単語の分割とファイルへの書き込み形式が含まれます
Jieba の分割の文字エンコードは「Unicode」エンコードであることに注意してください。Unicode -> utf- する必要があります。 8
2. Zhang Huaping 先生の NLPIR
(https://github.com/NLPIR-team/NLPIR)
必要な方のために、Zhang Huaping 先生の github アドレスをここに示します。ライセンスを取得するには、先生の git にアクセスできます
2 つのタイプがあります: 1 か月間 10 日間
もちろん、詳細なコードとインストール パッケージも CSDN にアップロードしましたので、興味のある方は取得してください。見てください (まだ必要です) ライセンスを更新するには)
国内のほとんどの論文が、より権威のあるこの単語分割ツールを使用していることは言及する価値があります
r = open('text_no_seg.txt','r') list_senten = [] sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。' for i in seg(sentence): list_senten.append(i[0]) print "/".join(list_senten) f1 = codecs.open("d2w_ltp.txt","w") for i in seg(sentence): f1.write(i[0]) f1.write(str(" "))
効果:
邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。
もちろん、NLPIRは固有表現にも良い影響を与えます認識:
邓超 nr , wd 1979年 t 出生 vi 于 p 江西 ns 南昌 ns , wd 中国 ns 内地 s 男 b 演员 n 、 wn 电影 n 导演 n 、 wn 投资 n 出品 vi 人 n 、 wn 互联网 n 投资人 n 。 wj
3.ハルビン工業大学LTP
# -*- coding: UTF-8 -*- import os import codecs from pyltp import Segmentor #分词 def segmentor(sentence): segmentor = Segmentor() # 初始化实例 segmentor.load('ltp_data/cws.model') # 加载模型 words = segmentor.segment(sentence) # 分词 words_list = list(words) segmentor.release() # 释放模型 return words_list f1 = codecs.open("d2w_ltp.txt","w") sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。' print "/".join(segmentor(sentence)) for i in segmentor(sentence): f1.write(i) f1.write(str(" "))
効果:
邓/超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。
以上がよく使用される 3 つの Python 中国語単語分割ツールの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Pythonスクリプトは、特定の場所のカーソル位置への出力をどのようにクリアしますか? Pythonスクリプトを書くときは、以前の出力をカーソル位置にクリアするのが一般的です...

Linux Systemsに付属するPythonインタープリターを削除する問題に関して、多くのLinuxディストリビューションは、インストール時にPythonインタープリターをプリインストールし、パッケージマネージャーを使用しません...

GoまたはRustを使用してPythonスクリプトを呼び出して、真の並列実行を実現する方法は?最近、私はPythonを使用しています...

リクエストライブラリを使用してWebページのデータをクロールするときに遭遇する問題とソリューション。リクエストライブラリを使用してWebページデータを取得すると、時々遭遇します...

Pythonプログラミングでカスタムデコレーターを使用する場合、Pylance Type検出問題解決策デコレーターは、行を追加するために使用できる強力なツールです...

Windowsシステムログの効率的な読み取り:Pythonを使用してWindowsシステムログファイル(.EVTX)を処理する場合、EVTXファイルを逆転させます。

Pythonasyncioについて...

jupyternotebookmarkdownレンダリングの問題トラブルシューティングはjupyterを使用しています...
