文分割のための正規表現の代替
大文字の開始とともに文末のさまざまな句読点を組み込むことで、正規表現を使用した文分割ツールを使用できます。もっともらしい解決策として考えられます。ただし、このような正規表現は、ドットで終わる略語の微妙な配置に遭遇すると、パフォーマンスが不完全になることがよくあります。
自然言語ツールキット (NLTK) は、専用モジュールを含む自然言語処理のための包括的なツールを提供します。文の分割に。このモジュールには、テキストを文に正確に分割し、略語処理などの複雑さを処理できる高度なアルゴリズムが装備されています。
NLTK を使用した文分割の実装は、次の手順で実行できます:
コード例:
import nltk.data tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') fp = open("test.txt") data = fp.read() print('\n-----\n'.join(tokenizer.tokenize(data)))
以上が正規表現を超えて文を分割するための最良のアプローチは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。