目录
>搜索
Gutenberg compus
首页 后端开发 Python教程 引入自然语言工具包(NLTK)

引入自然语言工具包(NLTK)

Mar 01, 2025 am 10:05 AM

>自然语言处理(NLP)是人类语言的自动或半自动处理。 NLP与语言学密切相关,并与认知科学,心理学,生理学和数学的研究有联系。特别是在计算机科学领域中,NLP与编译器技术,形式语言理论,人类计算机互动,机器学习和定理证明有关。这个Quora问题显示了NLP。

的不同优点,在本教程中,我将带您浏览一个有趣的NLP平台,称为自然语言工具包(NLTK)。在我们查看如何使用此平台之前,让我首先告诉您NLTK是什么。

nltk是什么?该平台最初是由史蒂文·伯德(Steven Bird)和爱德华·洛珀(Edward Loper)与2001年在宾夕法尼亚大学的计算语言学课程一起发布的。有一本随附的书,用于使用Python的自然语言处理。

>

现在安装NLTK

"Python is a very high-level programming language. Python is interpreted."<br>
登录后复制
登录后复制

word_tokenize()

from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))
登录后复制
登录后复制

['Python', 'is', 'a', 'very', 'high-level', 'programming', 'language', '.', 'Python', 'is', 'interpreted', '.']<br>
登录后复制
登录后复制

方法中。
from nltk.corpus import stopwords<br>print(set(stopwords.words('English')))<br>
登录后复制
登录后复制
>请考虑以下文本。

引入自然语言工具包(NLTK)

>让我们使用word_tokenize()
from nltk.corpus import stopwords<br>print(set(stopwords.words('german')))<br>
登录后复制
方法来tokenize。输出:

from nltk.corpus import stopwords<br>from nltk.tokenize import word_tokenize<br><br>text = 'In this tutorial, I\'m learning NLTK. It is an interesting platform.'<br>stop_words = set(stopwords.words('english'))<br>words = word_tokenize(text)<br><br>new_sentence = []<br><br>for word in words:<br>    if word not in stop_words:<br>		new_sentence.append(word)<br><br>print(new_sentence)<br>
登录后复制
您可以从输出中看到,标点符号也被认为是单词。它们。以下内容:

引入自然语言工具包(NLTK)>如何从我们自己的文本中删除停止单词?下面的示例显示了我们如何执行此任务:

word_tokenize()

>上面脚本的输出是: word_tokenize()函数是:<code> word_tokenize()<blockquote>将字符串引用以拆分标点符号,而不是</blockquote> <h3 id="gt-搜索">>搜索</h3> <p>假设我们有以下文本文件(从dropbox下载文本文件)。我们想查找(搜索)单词<code>language。我们可以简单地使用NLTK平台进行以下操作:

"Python is a very high-level programming language. Python is interpreted."<br>
登录后复制
登录后复制

在这种情况下,您将获得以下输出:

引入自然语言工具包(NLTK)

请注意,除了某些上下文中,concordance() language还返回单词nltk.Text的每一次出现。 Before that, as shown in the script above, we tokenize the read file and then convert it into an

object.

I just want to note that the first time I ran the program, I got the following error, which seems to be related to the encoding the console uses:
from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))
登录后复制
登录后复制

chcp 65001What I simply did to solve this issue is to run this command in my console before running the program:如Wikipedia中所述:

Gutenberg compus

Project Gutenberg(PG)是一项志愿者,是为了数字化和归档文化作品而努力,以“鼓励电子书的创建和分布”。它是由迈克尔·哈特(Michael S. Hart)于1971年成立的,是最古老的数字图书馆。其集合中的大多数项目都是公共领域书籍的全文。该项目试图以持久的开放格式使它们尽可能免费,几乎可以在任何计算机上使用。截至2015年10月3日,Gutenberg项目在其收藏中达到了50,000件物品。 nltk包含来自Gutenberg项目的少量文本。要查看Gutenberg项目中随附的文件,我们执行以下操作:

>上面脚本的输出将如下:
['Python', 'is', 'a', 'very', 'high-level', 'programming', 'language', '.', 'Python', 'is', 'interpreted', '.']<br>
登录后复制
登录后复制

如果我们想找到文本文件的单词数引入自然语言工具包(NLTK)正如我们在本教程中所看到的那样,

。我只在本教程中划过表面。如果您想更深入地将NLTK用于不同的NLP任务,则可以参考NLTK的随附书:使用Python的自然语言处理。bryant-stories.txt

from nltk.corpus import stopwords<br>print(set(stopwords.words('English')))<br>
登录后复制
登录后复制
>>

> >该帖子已通过Esther Vaati的贡献进行了更新。 Esther是Envato Tuts的软件开发人员和作者。

以上是引入自然语言工具包(NLTK)的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1670
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1276
29
C# 教程
1256
24
Python与C:学习曲线和易用性 Python与C:学习曲线和易用性 Apr 19, 2025 am 12:20 AM

Python更易学且易用,C 则更强大但复杂。1.Python语法简洁,适合初学者,动态类型和自动内存管理使其易用,但可能导致运行时错误。2.C 提供低级控制和高级特性,适合高性能应用,但学习门槛高,需手动管理内存和类型安全。

Python和时间:充分利用您的学习时间 Python和时间:充分利用您的学习时间 Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率,可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python vs.C:探索性能和效率 Python vs.C:探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在开发效率上优于C ,但C 在执行性能上更高。1.Python的简洁语法和丰富库提高开发效率。2.C 的编译型特性和硬件控制提升执行性能。选择时需根据项目需求权衡开发速度与执行效率。

学习Python:2小时的每日学习是否足够? 学习Python:2小时的每日学习是否足够? Apr 18, 2025 am 12:22 AM

每天学习Python两个小时是否足够?这取决于你的目标和学习方法。1)制定清晰的学习计划,2)选择合适的学习资源和方法,3)动手实践和复习巩固,可以在这段时间内逐步掌握Python的基本知识和高级功能。

Python vs. C:了解关键差异 Python vs. C:了解关键差异 Apr 21, 2025 am 12:18 AM

Python和C 各有优势,选择应基于项目需求。1)Python适合快速开发和数据处理,因其简洁语法和动态类型。2)C 适用于高性能和系统编程,因其静态类型和手动内存管理。

Python标准库的哪一部分是:列表或数组? Python标准库的哪一部分是:列表或数组? Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary,herilearRaysarenot.listsarebuilt-In,多功能,和Rused ForStoringCollections,而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python:自动化,脚本和任务管理 Python:自动化,脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化:通过标准库如os、shutil实现文件备份。2)脚本编写:使用psutil库监控系统资源。3)任务管理:利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

Web开发的Python:关键应用程序 Web开发的Python:关键应用程序 Apr 18, 2025 am 12:20 AM

Python在Web开发中的关键应用包括使用Django和Flask框架、API开发、数据分析与可视化、机器学习与AI、以及性能优化。1.Django和Flask框架:Django适合快速开发复杂应用,Flask适用于小型或高度自定义项目。2.API开发:使用Flask或DjangoRESTFramework构建RESTfulAPI。3.数据分析与可视化:利用Python处理数据并通过Web界面展示。4.机器学习与AI:Python用于构建智能Web应用。5.性能优化:通过异步编程、缓存和代码优

See all articles