Comment NLTK peut-il extraire efficacement des phrases d'un texte, en gérant des nuances linguistiques complexes ?-Tutoriel Python-php.cn

Comment NLTK peut-il extraire efficacement des phrases d'un texte, en gérant des nuances linguistiques complexes ?

Mary-Kate Olsen

Libérer： 2024-12-05 07:56:10

original

830 Les gens l'ont consulté

How Can NLTK Efficiently Extract Sentences from Text, Handling Complex Linguistic Nuances?

Extraction de phrases à partir d'un texte : un guide complet

Problème :Obtenir une liste de phrases à partir d'un fichier texte fourni, tenant compte de la complexité de langage, comme les points utilisés dans les abréviations et les chiffres.

Régulier inefficace Expression :

re.compile('(\. |^|!|\?)([A-Z][^;↑\.<>@\^&amp;/\[\]]*(\.|!|\?) )',re.M)

Copier après la connexion

Solution utilisant la boîte à outils de langage naturel (NLTK) :

NLTK fournit une solution robuste pour la tokenisation des phrases, comme le démontre le code suivant :

import nltk.data

# Load the English sentence tokenizer
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

# Read the text file
with open("test.txt") as fp:
    data = fp.read()

# Tokenize the text into sentences
sentences = tokenizer.tokenize(data)

# Print the tokenized sentences, separated by newlines
print('\n-----\n'.join(sentences))

Copier après la connexion

Avantages du NLTK Solution :

Complète :Prend en compte les nuances du langage, telles que les points dans les abréviations et les chiffres.
Précis : Fournit des limites de phrases fiables.
Efficace : Ne dépend pas d'expressions régulières complexes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!