Python と NLTK を使用したトークン化と WordNet の基本の概要-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python と NLTK を使用したトークン化と WordNet の基本の概要

PHPz

Aug 02, 2024 am 02:57 AM

Introdução à Tokenização e Básicos do WordNet com Python e NLTK

自然言語処理 (NLP) は、言語学とコンピューティングを組み合わせて人間の言語を理解し、解釈し、操作する魅力的な分野です。このための最も強力なツールの 1 つは、Python の Natural Language Toolkit (NLTK) です。このテキストでは、トークン化の概念と、NLP で広く使用されている英語の語彙ベースである WordNet の使用について説明します。

トークン化とは何ですか?

トークン化は、テキストをトークンと呼ばれる小さな単位に分割するプロセスです。これらのトークンは、単語、語句、または個々の文字の場合もあります。トークン化は、アルゴリズムがテキストをより効果的に理解し、分析できるようにするため、テキスト処理における重要なステップです。

たとえば、「Hello, world!」というフレーズを考えてみましょう。このフレーズをトークン化すると、["Hello"、"、"、"world"、"!"] という 3 つのトークンが生成されます。この分割により、テキストの各部分を個別に分析できるようになり、感情分析、機械翻訳、固有表現認識などのタスクが容易になります。

NLTK では、いくつかの方法でトークン化を行うことができます。実際の例をいくつか見てみましょう。

文内のテキストのトークン化

テキストを文に分割することは、多くの NLP タスクの最初のステップです。 NLTK では、sent_tokenize 関数を使用してこれを簡単にします。

リーリー

結果は次のようになります:

リーリー

ここでは本文を3つの文に分けました。これは、各文を個別に処理できる、より詳細な分析に役立ちます。

文を単語にトークン化する

テキストを文に分割したら、次のステップは通常、これらの文を単語に分割することです。これには、NLTK の word_tokenize 関数が使用されます。

リーリー

結果は次のようになります:

リーリー

これで、各単語と句読点記号が個別のトークンとして得られます。これは、テキスト内で各単語が何回出現するかをカウントする必要がある単語頻度分析などのタスクに不可欠です。

正規表現を使用したトークン化

場合によっては、よりパーソナライズされたトークン化が必要になる場合があります。正規表現 (regex) は、これを行うための強力なツールです。 NLTK は、カスタムトークナイザーを作成するための RegexpTokenizer クラスを提供します。

リーリー

結果は次のようになります:

リーリー

ここでは、句読点を無視して英数字で構成される単語のみを選択する正規表現を使用します。

WordNet の概要

WordNet は、単語を synset と呼ばれる同義語のセットにグループ化し、短く一般的な定義を提供し、これらの単語間のさまざまな意味関係を記録する語彙データベースです。 NLTK では、WordNet を使用して、同義語、反意語、下位語、上位語などの関係を検索します。

WordNet を使用するには、NLTK から wordnet モジュールをインポートする必要があります。

リーリー

シンセットの検索

シンセット、または同義語のセットは、同じ意味を共有する単語のグループです。単語のシンセットを検索するには、synsets 関数を使用します。

リーリー

結果は、単語「dog」のさまざまな意味を表す構文のリストになります。

リーリー

各構文は、単語、品詞 (n は名詞、v は動詞など) を含む名前、および異なる意味を区別する番号によって識別されます。

定義と例

特定の synset の定義と使用例を取得できます。

リーリー

結果は次のようになります:

リーリー

これにより、この文脈における「犬」の意味と使用法が明確に理解できます。

同義語と反意語の検索

単語の同義語と反意語を見つけるには、synset lemmas を調べることができます。

リーリー

結果は、「良い」という言葉の同義語と反意語のリストになります。

リーリー

意味的類似性の計算

WordNet では、単語間の意味上の類似性を計算することもできます。類似性は、下位語/上位語グラフ内のシンセット間の距離に基づいています。

リーリー

結果は0と1の間の類似値になります。

リーリー

この値は、「犬」と「猫」が意味的に非常に似ていることを示しています。

Filtrando Stopwords

Stopwords são palavras comuns que geralmente não adicionam muito significado ao texto, como "e", "a", "de". Remover essas palavras pode ajudar a focar nas partes mais importantes do texto. O NLTK fornece uma lista de stopwords para várias línguas.

from nltk.corpus import stopwords

stop_words = set(stopwords.words('portuguese'))
palavras = ["Olá", "mundo", "é", "um", "lugar", "bonito"]
palavras_filtradas = [w for w in palavras if not w in stop_words]
print(palavras_filtradas)

ログイン後にコピー

O resultado será:

['Olá', 'mundo', 'lugar', 'bonito']

ログイン後にコピー

Aqui, as stopwords foram removidas da lista original de palavras.

Aplicações Práticas

Análise de Sentimentos

A análise de sentimentos é uma aplicação comum de PLN onde o objetivo é determinar a opinião ou emoção expressa em um texto. Tokenização e o uso de WordNet são passos importantes nesse processo.

Primeiro, dividimos o texto em palavras e removemos as stopwords. Em seguida, podemos usar os synsets para entender melhor o contexto e a polaridade das palavras.

texto = "Eu amo programação em Python!"
palavras = word_tokenize(texto, language='portuguese')
palavras_filtradas = [w for w in palavras if not w in stop_words]

polaridade = 0
for palavra in palavras_filtradas:
    synsets = wordnet.synsets(palavra, lang='por')
    if synsets:
        for syn in synsets:
            polaridade += syn.pos_score() - syn.neg_score()

print("Polaridade do texto:", polaridade)

ログイン後にコピー

Nesse exemplo simplificado, estamos somando os scores positivos e negativos dos synsets das palavras filtradas para determinar a polaridade geral do texto.

Reconhecimento de Entidades Nomeadas

Outra aplicação é o reconhecimento de entidades nomeadas (NER), que identifica e classifica nomes de pessoas, organizações, locais, etc., em um texto.

import nltk
nltk.download('maxent_ne_chunker')
nltk.download('words')

frase = "Barack Obama foi o 44º presidente dos Estados Unidos."
palavras = word_tokenize(frase, language='portuguese')
tags = nltk.pos_tag(palavras)
entidades = nltk.ne_chunk(tags)
print(entidades)

ログイン後にコピー

O resultado será uma árvore que identifica "Barack Obama" como uma pessoa e "Estados Unidos" como um local.

Conclusão

Neste texto, exploramos os conceitos básicos de tokenização e uso do WordNet com a biblioteca NLTK em Python. Vimos como dividir textos em sentenças e palavras, como buscar sinônimos e antônimos, calcular similaridades semânticas, e aplicações práticas como análise de sentimentos e reconhecimento de entidades nomeadas. A NLTK é uma ferramenta poderosa para qualquer pessoa interessada em processamento de linguagem natural, oferecendo uma ampla gama de funcionalidades para transformar e analisar textos de forma eficaz.

以上がPython と NLTK を使用したトークン化と WordNet の基本の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1655

CakePHP チュートリアル

1414

Laravel チュートリアル

1307

PHP チュートリアル

1254

C# チュートリアル

1228

Related knowledge

Python vs. C：比較されたアプリケーションとユースケース Apr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間でどのくらいのPythonを学ぶことができますか？ Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

Python：ゲーム、GUIなど Apr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

2時間のPython計画：現実的なアプローチ Apr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python vs. C：曲線と使いやすさの学習 Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Pythonと時間：勉強時間を最大限に活用する Apr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：主要なアプリケーションの調査 Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

See all articles

Python と NLTK を使用したトークン化と WordNet の基本の概要

トークン化とは何ですか?

文内のテキストのトークン化

文を単語にトークン化する

正規表現を使用したトークン化

WordNet の概要

シンセットの検索

定義と例

同義語と反意語の検索

意味的類似性の計算

Filtrando Stopwords

Aplicações Práticas

Análise de Sentimentos

Reconhecimento de Entidades Nomeadas

Conclusão

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック