Schnelle Entfernung von Satzzeichen mit Pandas
Die Entfernung von Satzzeichen ist eine häufige Textbereinigungsaufgabe. Obwohl pandas str.replace eine weit verbreitete Methode ist, ist sie für große Datenmengen möglicherweise nicht leistungsfähig genug.
Alternativen zu str.replace:
Benchmarks:
Überlegungen:
Code:
import pandas as pd import re # Regex.sub df['text'] = [re.compile(r'[^\w\s]+').sub('', x) for x in df['text'].tolist()] # str.translate punct = '!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~' transtab = str.maketrans(dict.fromkeys(punct, '')) df['text'] = '|'.join(df['text'].tolist()).translate(transtab).split('|')
Das obige ist der detaillierte Inhalt vonWas ist der schnellste Weg, Satzzeichen aus einem Pandas-DataFrame zu entfernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!