使用 Python 和 NLTK 进行标记化和 WordNet 基础知识简介-Python教程-PHP中文网

首页

后端开发

Python教程

使用 Python 和 NLTK 进行标记化和 WordNet 基础知识简介

PHPz

Aug 02, 2024 am 02:57 AM

Introdução à Tokenização e Básicos do WordNet com Python e NLTK

自然语言处理（NLP）是一个令人着迷的领域，它结合了语言学和计算来理解、解释和操纵人类语言。最强大的工具之一是 Python 中的自然语言工具包 (NLTK)。在本文中，我们将探讨标记化的概念以及 WordNet（广泛用于 NLP 的英语词汇库）的使用。

什么是代币化？

标记化是将文本划分为更小的单元（称为标记）的过程。这些标记可以是单词、短语，甚至单个字符。标记化是文本处理中的关键步骤，因为它允许算法更有效地理解和分析文本。

例如，考虑短语“Hello, world!”。对该短语进行标记可以产生三个标记：[“Hello”、“、”“world”、“！”]。这种划分允许单独分析文本的每个部分，从而促进情感分析、机器翻译和命名实体识别等任务。

在 NLTK 中，标记化可以通过多种方式完成。让我们看一些实际例子。

对句子中的文本进行标记

将文本分成句子是许多 NLP 任务的第一步。 NLTK 通过 sent_tokenize 函数使这一切变得简单。

import nltk
from nltk.tokenize import sent_tokenize

texto = "Olá mundo! Bem-vindo ao tutorial de NLTK. Vamos aprender a tokenizar textos."
sentencas = sent_tokenize(texto, language='portuguese')
print(sentencas)

登录后复制

结果将是：

['Olá mundo!', 'Bem-vindo ao tutorial de NLTK.', 'Vamos aprender a tokenizar textos.']

登录后复制

这里，文本被分为三个句子。这对于更详细的分析很有用，每个句子都可以单独处理。

将句子标记为单词

将文本分割成句子后，下一步通常是将这些句子分割成单词。 NLTK 的 word_tokenize 函数就是用于此目的。

from nltk.tokenize import word_tokenize

frase = "Olá mundo!"
palavras = word_tokenize(frase, language='portuguese')
print(palavras)

登录后复制

结果将是：

['Olá', 'mundo', '!']

登录后复制

现在我们将每个单词和标点符号作为单独的标记。这对于词频分析等任务至关重要，我们需要计算每个单词在文本中出现的次数。

使用正则表达式进行标记化

在某些情况下，您可能需要更个性化的标记化。正则表达式（regex）是一个强大的工具。 NLTK 提供了 RegexpTokenizer 类来创建自定义标记生成器。

from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize("Vamos aprender NLTK.")
print(tokens)

登录后复制

结果将是：

['Vamos', 'aprender', 'NLTK']

登录后复制

在这里，我们使用正则表达式，仅选择由字母数字字符组成的单词，忽略标点符号。

WordNet 简介

WordNet 是一个词汇数据库，它将单词分组为同义词集（称为同义词集），提供简短且通用的定义，并记录这些单词之间的各种语义关系。在 NLTK 中，WordNet 用于查找同义词、反义词、下位词和上位词以及其他关系。

要使用WordNet，我们需要从NLTK导入wordnet模块。

from nltk.corpus import wordnet

登录后复制

搜索同义词集

同义词集或同义词集是一组具有相同含义的单词。要搜索单词的同义词集，我们使用 synsets.
函数

sinonimos = wordnet.synsets("dog")
print(sinonimos)

登录后复制

结果将是代表单词“dog”的不同含义的同义词集列表。

[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01')]

登录后复制

每个同义词集都由一个名称来标识，该名称包括单词、词性（n 表示名词，v 表示动词等）以及区分不同含义的数字。

定义和示例

我们可以获得特定同义词集的定义和使用示例。

sinonimo = wordnet.synset('dog.n.01')
print(sinonimo.definition())
print(sinonimo.examples())

登录后复制

结果将是：

a domesticated carnivorous mammal (Canis familiaris) that typically has a long snout, an acute sense of smell, non-retractile claws, and a barking, howling, or whining voice
['the dog barked all night']

登录后复制

这让我们清楚地理解了“狗”在这种情况下的含义和用法。

搜索同义词和反义词

要查找单词的同义词和反义词，我们可以探索同义词集引理。

sinonimos = []
antonimos = []

for syn in wordnet.synsets("good"):
    for lemma in syn.lemmas():
        sinonimos.append(lemma.name())
        if lemma.antonyms():
            antonimos.append(lemma.antonyms()[0].name())

print(set(sinonimos))
print(set(antonimos))

登录后复制

结果将是单词“good”的同义词和反义词列表。

{'skillful', 'proficient', 'practiced', 'unspoiled', 'goodness', 'good', 'dependable', 'sound', 'right', 'safe', 'respectable', 'effective', 'trade_good', 'adept', 'good', 'full', 'commodity', 'estimable', 'honorable', 'undecomposed', 'serious', 'secure', 'dear', 'ripe'}
{'evilness', 'evil', 'ill'}

登录后复制

计算语义相似度

WordNet 还允许您计算单词之间的语义相似度。相似度基于下位词/上位词图中同义词集之间的距离。

from nltk.corpus import wordnet

cachorro = wordnet.synset('dog.n.01')
gato = wordnet.synset('cat.n.01')
similaridade = cachorro.wup_similarity(gato)
print(similaridade)

登录后复制

结果将是 0 和 1 之间的相似度值。

0.8571428571428571

登录后复制

这个值表明“狗”和“猫”在语义上非常相似。

Filtrando Stopwords

Stopwords são palavras comuns que geralmente não adicionam muito significado ao texto, como "e", "a", "de". Remover essas palavras pode ajudar a focar nas partes mais importantes do texto. O NLTK fornece uma lista de stopwords para várias línguas.

from nltk.corpus import stopwords

stop_words = set(stopwords.words('portuguese'))
palavras = ["Olá", "mundo", "é", "um", "lugar", "bonito"]
palavras_filtradas = [w for w in palavras if not w in stop_words]
print(palavras_filtradas)

登录后复制

O resultado será:

['Olá', 'mundo', 'lugar', 'bonito']

登录后复制

Aqui, as stopwords foram removidas da lista original de palavras.

Aplicações Práticas

Análise de Sentimentos

A análise de sentimentos é uma aplicação comum de PLN onde o objetivo é determinar a opinião ou emoção expressa em um texto. Tokenização e o uso de WordNet são passos importantes nesse processo.

Primeiro, dividimos o texto em palavras e removemos as stopwords. Em seguida, podemos usar os synsets para entender melhor o contexto e a polaridade das palavras.

texto = "Eu amo programação em Python!"
palavras = word_tokenize(texto, language='portuguese')
palavras_filtradas = [w for w in palavras if not w in stop_words]

polaridade = 0
for palavra in palavras_filtradas:
    synsets = wordnet.synsets(palavra, lang='por')
    if synsets:
        for syn in synsets:
            polaridade += syn.pos_score() - syn.neg_score()

print("Polaridade do texto:", polaridade)

登录后复制

Nesse exemplo simplificado, estamos somando os scores positivos e negativos dos synsets das palavras filtradas para determinar a polaridade geral do texto.

Reconhecimento de Entidades Nomeadas

Outra aplicação é o reconhecimento de entidades nomeadas (NER), que identifica e classifica nomes de pessoas, organizações, locais, etc., em um texto.

import nltk
nltk.download('maxent_ne_chunker')
nltk.download('words')

frase = "Barack Obama foi o 44º presidente dos Estados Unidos."
palavras = word_tokenize(frase, language='portuguese')
tags = nltk.pos_tag(palavras)
entidades = nltk.ne_chunk(tags)
print(entidades)

登录后复制

O resultado será uma árvore que identifica "Barack Obama" como uma pessoa e "Estados Unidos" como um local.

Conclusão

Neste texto, exploramos os conceitos básicos de tokenização e uso do WordNet com a biblioteca NLTK em Python. Vimos como dividir textos em sentenças e palavras, como buscar sinônimos e antônimos, calcular similaridades semânticas, e aplicações práticas como análise de sentimentos e reconhecimento de entidades nomeadas. A NLTK é uma ferramenta poderosa para qualquer pessoa interessada em processamento de linguagem natural, oferecendo uma ampla gama de funcionalidades para transformar e analisar textos de forma eficaz.

以上是使用 Python 和 NLTK 进行标记化和 WordNet 基础知识简介的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1667

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1255

显示更多

Related knowledge

Python：游戏，Guis等 Apr 13, 2025 am 12:14 AM

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame，提供绘图、音频等功能，适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt，Tkinter简单易用，PyQt功能丰富，适合专业开发。

Python与C：学习曲线和易用性 Apr 19, 2025 am 12:20 AM

Python更易学且易用，C 则更强大但复杂。1.Python语法简洁，适合初学者，动态类型和自动内存管理使其易用，但可能导致运行时错误。2.C 提供低级控制和高级特性，适合高性能应用，但学习门槛高，需手动管理内存和类型安全。

Python和时间：充分利用您的学习时间 Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率，可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在开发效率上优于C ，但C 在执行性能上更高。1.Python的简洁语法和丰富库提高开发效率。2.C 的编译型特性和硬件控制提升执行性能。选择时需根据项目需求权衡开发速度与执行效率。

Python标准库的哪一部分是：列表或数组？ Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python：自动化，脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化：通过标准库如os、shutil实现文件备份。2)脚本编写：使用psutil库监控系统资源。3)任务管理：利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

学习Python：2小时的每日学习是否足够？ Apr 18, 2025 am 12:22 AM

每天学习Python两个小时是否足够？这取决于你的目标和学习方法。1)制定清晰的学习计划，2)选择合适的学习资源和方法，3)动手实践和复习巩固，可以在这段时间内逐步掌握Python的基本知识和高级功能。

Python vs. C：了解关键差异 Apr 21, 2025 am 12:18 AM

Python和C 各有优势，选择应基于项目需求。1)Python适合快速开发和数据处理，因其简洁语法和动态类型。2)C 适用于高性能和系统编程，因其静态类型和手动内存管理。

See all articles

使用 Python 和 NLTK 进行标记化和 WordNet 基础知识简介

什么是代币化？

对句子中的文本进行标记

将句子标记为单词

使用正则表达式进行标记化

WordNet 简介

搜索同义词集

定义和示例

搜索同义词和反义词

计算语义相似度

Filtrando Stopwords

Aplicações Práticas

Análise de Sentimentos

Reconhecimento de Entidades Nomeadas

Conclusão

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题