自然言語処理(NLP)は、人間言語の自動または半自動処理です。 NLPは言語学と密接に関連しており、認知科学、心理学、生理学、数学の研究とのリンクがあります。特にコンピューターサイエンスのドメインでは、NLPはコンパイラテクニック、正式な言語理論、人間コンピューターの相互作用、機械学習、および定理に関連しています。このQuoraの質問は、NLPのさまざまな利点を示しています。このチュートリアルでは、Natural Language Toolkit(NLTK)と呼ばれるNLPの興味深いPythonプラットフォームを説明します。このプラットフォームの操作方法を確認する前に、まずNLTKとは何かを教えてください。このプラットフォームは、2001年にペンシルバニア大学の計算言語学コースと併せてスティーブンバードとエドワードロパーによってもともとリリースされました。Pythonを使用した自然言語処理と呼ばれるプラットフォーム用の本があります。楽しいでしょう!
NLTKのインストールは非常に簡単です。 Windows 10を使用しているので、コマンドプロンプト(sent_tokenize()
メソッド。次のテキストを検討してください。出力:出力からわかるように、句読点も言葉と見なされます。それら。次のとおり:を探したいと思います。次のように、NLTKプラットフォームを使用してこれを単純に行うことができます。language
"Python is a very high-level programming language. Python is interpreted."<br>
>> concordance()オブジェクトに変換します。language
nltk.Text
プログラムを初めて実行したときに次のエラーを取得したことに注意してください。コンソールのエンコードに関連しているようです。
from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))
プロジェクトグーテンベルク(PG)は、文化作品をデジタル化およびアーカイブするためのボランティアの取り組みであり、「電子ブックの作成と配布を促進する」ためのボランティアです。 1971年にMichael S. Hartによって設立され、最も古いデジタルライブラリです。コレクションのほとんどのアイテムは、パブリックドメインブックの全文です。このプロジェクトは、ほとんどすべてのコンピューターで使用できる長期にわたるオープンフォーマットで、これらをできるだけ無料にしようとします。 2015年10月3日現在、Project Gutenbergはコレクションで50,000のアイテムに到達しました。 Project Gutenbergから含まれているファイルを確認するには、次のことを行います。chcp 65001
。
結論['Python', 'is', 'a', 'very', 'high-level', 'programming', 'language', '.', 'Python', 'is', 'interpreted', '.']<br>
以上がNatural Language Toolkit(NLTK)の紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。