Suppression rapide de la ponctuation avec Pandas
La suppression de la ponctuation est une tâche courante de nettoyage de texte. Bien que pandas str.replace soit une méthode largement utilisée, elle peut ne pas être suffisamment performante pour les grands ensembles de données.
Alternatives à str.replace :
Benchmarks :
Considérations :
Code :
import pandas as pd import re # Regex.sub df['text'] = [re.compile(r'[^\w\s]+').sub('', x) for x in df['text'].tolist()] # str.translate punct = '!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~' transtab = str.maketrans(dict.fromkeys(punct, '')) df['text'] = '|'.join(df['text'].tolist()).translate(transtab).split('|')
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!