使用 Pandas 快速移除標點符號
標點符號移除是一項常見的文字清理任務。雖然 pandas str.replace 是一種廣泛使用的方法,但對於大型資料集來說,它的效能可能不夠。
str.replace 的替代方案:
基準測試:
注意事項:
代碼:
import pandas as pd import re # Regex.sub df['text'] = [re.compile(r'[^\w\s]+').sub('', x) for x in df['text'].tolist()] # str.translate punct = '!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~' transtab = str.maketrans(dict.fromkeys(punct, '')) df['text'] = '|'.join(df['text'].tolist()).translate(transtab).split('|')
以上是從 Pandas DataFrame 中刪除標點符號的最快方法是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!