Python を使用した中国語単語の分割
現在、私がよく使う分詞には吃音分詞、NLPIR分詞などがあります
最近は吃音分詞を使っていますが、これがなかなか使いやすいです。
1. 吃音単語セグメンテーションの概要
中国語単語セグメンテーションに吃音単語セグメンテーションを使用するには、次の 3 つの基本的な実装原則があります:
効率的な単語グラフ スキャンはトライ ツリー構造に基づいて実装され、可能性のあるすべての要素から構成される有向非巡回文中の漢字の語形成を生成 図(DAG)
単語頻度に基づいて最大確率パスと最大セグメンテーションの組み合わせを見つけるために動的プログラミングが使用されます
未登録の単語については、語形成に基づくHMMモデル漢字の能力が使用され、ビタビアルゴリズムが使用されます
2. インストールと使用 (Linux)
1. ツールパッケージをダウンロードし、解凍してディレクトリに入り、python setup.py install を実行します
ヒント: a. ダウンロードしたソフトウェアの Readme を最初に読んでから、操作を実行することをお勧めします。 (readme を読まない場合は、+ Baidu を直接試してください。多くの回り道をすることになります)
b. インストール コマンドを実行すると、エラーが発生しました: 権限がありません。 (権限が不十分なためにこの問題が発生する人もいます。実行: sudo !! 「!!」は前のコマンドを意味し、ここでは上記のインストール コマンドを指します)、sudo を使用すると正常に実行できます。
2. 単語分割に Jieba を使用する場合、必ず使用する関数は次のとおりです。 jieba.cut(arg1, arg2); 事前に次の 3 つの点を理解する必要があります。使用できます
a.cut メソッドは 2 つの入力パラメーターを受け入れます。最初のパラメーター (arg1) はセグメント化する必要がある文字列で、arg2 パラメーターは単語のセグメント化モードを制御するために使用されます。
単語分割モードは 2 つのカテゴリに分かれています。デフォルト モードは、テキスト分析に適した最も正確な形式に文を切り出します。完全モードは、文内の構成可能なすべての単語をスキャンします。検索エンジンに適した単語に変換します
b. 待機中 単語分割の文字列は、gbk 文字列、utf-8 文字列、または unicode にすることができます
Python を使用する人は、ASCII に基づいて文字を処理することに注意する必要があります。コード内に ASCII に属さない文字が含まれている場合 ( に中国語の文字を使用している場合など)、「ASCII コーデックでは文字をエンコードできません」というエラー メッセージが表示されます。解決策は、先頭にステートメントを追加することです。ファイルの #! -*-coding:utf-8 -*- は、Python コンパイラーに「私のファイルは utf-8 を使用してエンコードされています。デコードする場合は utf-8 を使用してください」と伝えます。 (ここで、このコマンドはファイルの先頭に追加する必要があることに注意してください。先頭に追加しないと、エンコーディングの問題が依然として存在し、解決されません。) エンコーディングの変換については、ブログ投稿 (ps) を参照してください。 : 「import sys reload(sys) sys.setdefaultencoding('utf-8')」の個人的な理解 これらの文は「#! -*-coding:utf-8 -*- ")と同等です
cが返す構造.jieba.cut は反復可能なジェネレーターであり、for ループを使用して単語分割後に取得した各単語 (Unicode) を取得することも、リスト (jieba.cut(...)) を使用してリストに変換することもできます
3. 以下は jieba での使用方法の例です。 説明として:
#! -*- coding:utf-8 -*- import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all = True) print "Full Mode:", ' '.join(seg_list) seg_list = jieba.cut("我来到北京清华大学") print "Default Mode:", ' '.join(seg_list)
出力結果は次のとおりです:
Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学 Default Mode: 我/ 来到/ 北京/ 清华大学
3. 吃音中国語単語分割のその他の機能
1.カスタム辞書を追加または管理します
吃音に関する辞書の内容はすべて dict txt に保存されており、dict.txt の内容を継続的に改善できます。
2. キーワード抽出
単語分割後のキーワードのTF/IDF重みを計算して重要なキーワードを抽出します。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

PythonのPandasライブラリを使用する場合、異なる構造を持つ2つのデータフレーム間で列全体をコピーする方法は一般的な問題です。 2つのデータがあるとします...

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

正規表現は、プログラミングにおけるパターンマッチングとテキスト操作のための強力なツールであり、さまざまなアプリケーションにわたるテキスト処理の効率を高めます。

UvicornはどのようにしてHTTPリクエストを継続的に聞きますか? Uvicornは、ASGIに基づく軽量のWebサーバーです。そのコア機能の1つは、HTTPリクエストを聞いて続行することです...

この記事では、numpy、pandas、matplotlib、scikit-learn、tensorflow、django、flask、and requestsなどの人気のあるPythonライブラリについて説明し、科学的コンピューティング、データ分析、視覚化、機械学習、Web開発、Hの使用について説明します。

Pythonでは、文字列を介してオブジェクトを動的に作成し、そのメソッドを呼び出す方法は?これは一般的なプログラミング要件です。特に構成または実行する必要がある場合は...
