Maison > développement back-end > Tutoriel Python > Comment NLTK peut-il extraire efficacement des phrases d'un texte, en gérant des nuances linguistiques complexes ?

Comment NLTK peut-il extraire efficacement des phrases d'un texte, en gérant des nuances linguistiques complexes ?

Mary-Kate Olsen
Libérer: 2024-12-05 07:56:10
original
799 Les gens l'ont consulté

How Can NLTK Efficiently Extract Sentences from Text, Handling Complex Linguistic Nuances?

Extraction de phrases à partir d'un texte : un guide complet

Problème :Obtenir une liste de phrases à partir d'un fichier texte fourni, tenant compte de la complexité de langage, comme les points utilisés dans les abréviations et les chiffres.

Régulier inefficace Expression :

re.compile('(\. |^|!|\?)([A-Z][^;↑\.<>@\^&amp;/\[\]]*(\.|!|\?) )',re.M)
Copier après la connexion

Solution utilisant la boîte à outils de langage naturel (NLTK) :

NLTK fournit une solution robuste pour la tokenisation des phrases, comme le démontre le code suivant :

import nltk.data

# Load the English sentence tokenizer
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

# Read the text file
with open("test.txt") as fp:
    data = fp.read()

# Tokenize the text into sentences
sentences = tokenizer.tokenize(data)

# Print the tokenized sentences, separated by newlines
print('\n-----\n'.join(sentences))
Copier après la connexion

Avantages du NLTK Solution :

  • Complète :Prend en compte les nuances du langage, telles que les points dans les abréviations et les chiffres.
  • Précis : Fournit des limites de phrases fiables.
  • Efficace : Ne dépend pas d'expressions régulières complexes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal