ホームページ > バックエンド開発 > Python チュートリアル > Natural Language Toolkit(NLTK)の紹介

Natural Language Toolkit(NLTK)の紹介

William Shakespeare
リリース: 2025-03-01 10:05:09
オリジナル
193 人が閲覧しました

自然言語処理(NLP)は、人間言語の自動または半自動処理です。 NLPは言語学と密接に関連しており、認知科学、心理学、生理学、数学の研究とのリンクがあります。特にコンピューターサイエンスのドメインでは、NLPはコンパイラテクニック、正式な言語理論、人間コンピューターの相互作用、機械学習、および定理に関連しています。このQuoraの質問は、NLPのさまざまな利点を示しています。このチュートリアルでは、Natural Language Toolkit(NLTK)と呼ばれるNLPの興味深いPythonプラットフォームを説明します。このプラットフォームの操作方法を確認する前に、まずNLTKとは何かを教えてください。このプラットフォームは、2001年にペンシルバニア大学の計算言語学コースと併せてスティーブンバードとエドワードロパーによってもともとリリースされました。Pythonを使用した自然言語処理と呼ばれるプラットフォーム用の本があります。楽しいでしょう!

NLTKのインストールは非常に簡単です。 Windows 10を使用しているので、コマンドプロンプト(sent_tokenize()

メソッド。

次のテキストを検討してください。出力:出力からわかるように、句読点も言葉と見なされます。それら。次のとおり:

自分のテキストから停止単語を削除するにはどうすればよいですか?以下の例は、このタスクをどのように実行できるかを示しています。

上記のスクリプトの出力は次のとおりです。文字列をトークン化して、期間以外の句読点を分割して
検索

次のテキストファイルを持っているとしましょう(Dropboxからテキストファイルをダウンロード)。単語を探して(検索)

を探したいと思います。次のように、NLTKプラットフォームを使用してこれを単純に行うことができます。language

"Python is a very high-level programming language. Python is interpreted."<br>
ログイン後にコピー
この場合、次の出力を取得します。

Natural Language Toolkit(NLTK)の紹介いくつかのコンテキストに加えて、

>> concordance()オブジェクトに変換します。languagenltk.Textプログラムを初めて実行したときに次のエラーを取得したことに注意してください。コンソールのエンコードに関連しているようです。

ウィキペディアで言及されているグーテンバーグコーパス
from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))
ログイン後にコピー

プロジェクトグーテンベルク(PG)は、文化作品をデジタル化およびアーカイブするためのボランティアの取り組みであり、「電子ブックの作成と配布を促進する」ためのボランティアです。 1971年にMichael S. Hartによって設立され、最も古いデジタルライブラリです。コレクションのほとんどのアイテムは、パブリックドメインブックの全文です。このプロジェクトは、ほとんどすべてのコンピューターで使用できる長期にわたるオープンフォーマットで、これらをできるだけ無料にしようとします。 2015年10月3日現在、Project Gutenbergはコレクションで50,000のアイテムに到達しました。 Project Gutenbergから含まれているファイルを確認するには、次のことを行います。chcp 65001

上記のスクリプトの出力は次のとおりです。

テキストファイルの単語の数を見つけたい場合は、次のことを行うことができます。

結論

['Python', 'is', 'a', 'very', 'high-level', 'programming', 'language', '.', 'Python', 'is', 'interpreted', '.']<br>
ログイン後にコピー
このチュートリアルで見たように、NLTKプラットフォームは、Natural Language Processing(NLP)を操作するための強力なツールを提供します。このチュートリアルでは、表面を傷つけただけです。さまざまなNLPタスクにNLTKの使用をさらに深くしたい場合は、NLTKに付随する本「Pythonを使用した自然言語処理」を参照できます。エステルは、envato tutsのソフトウェア開発者兼ライターです。

以上がNatural Language Toolkit(NLTK)の紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート