如何使用正規表示式或NLTK有效地從文本中提取句子？-Python教學-PHP中文網

如何使用正規表示式或NLTK有效地從文本中提取句子？

Patricia Arquette

發布： 2024-12-03 20:07:13

原創

972 人瀏覽過

How Can I Effectively Extract Sentences from Text Using Regular Expressions or NLTK?

使用正規表示式擷取句子

將文字分割成句子會帶來一些複雜性，特別是由於其他文本中使用的縮寫和句號的存在上下文。為了應對這項挑戰，我們探索了各種方法。

正規表示式

一種簡單的方法是使用正規表示式。但是，提供的正規表示式可能不夠充分，因為它無法可靠地處理所有微妙之處，包括縮寫。

自然語言工具包 (NLTK)

另一個解決方案利用NLTK，一個強大的自然語言處理庫。 NLTK 的句子分詞器（如下面的程式碼片段所示）可以有效地將文字分詞為句子：

import nltk.data

# Load the English tokenizer
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

# Read the text from a file
with open("test.txt") as fp:
    data = fp.read()

# Tokenize the text
sentences = tokenizer.tokenize(data)

# Print the tokenized sentences
print('\n-----\n'.join(sentences))

登入後複製

透過採用這種技術，人們可以有效地從文本中提取句子，即使是那些包含縮寫和其他潛在陷阱的句子。

以上是如何使用正規表示式或NLTK有效地從文本中提取句子？的詳細內容。更多資訊請關注PHP中文網其他相關文章！