Pandas による高速句読点削除
句読点の削除は、一般的なテキスト クリーニング タスクです。 pandas str.replace は広く使用されているメソッドですが、大規模なデータセットに対しては十分なパフォーマンスが得られない可能性があります。
str.replace の代替:
ベンチマーク:
考慮事項:
コード:
import pandas as pd import re # Regex.sub df['text'] = [re.compile(r'[^\w\s]+').sub('', x) for x in df['text'].tolist()] # str.translate punct = '!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~' transtab = str.maketrans(dict.fromkeys(punct, '')) df['text'] = '|'.join(df['text'].tolist()).translate(transtab).split('|')
以上がPandas DataFrame から句読点を削除する最速の方法は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。