Wie analysiere ich Daten mit unregelmäßigen Trennzeichen in Pandas read

Wie analysiere ich Daten mit unregelmäßigen Trennzeichen in Pandas read_csv?

Susan Sarandon

Freigeben： 2024-10-22 08:18:02

Original

980 Leute haben es durchsucht

How Do I Parse Data with Irregular Separators in Pandas read_csv?

Überwindung unregelmäßiger Trennzeichen in Pandas read_csv

Beim Lesen von Daten aus Dateien mit unregelmäßigen Trennzeichen kann die Methode pandas read_csv auf Schwierigkeiten stoßen. Im Gegensatz zur Python-Methode „split()“, die unterschiedliche Leerzeichen nahtlos verarbeitet, kann es bei read_csv schwierig sein, durch inkonsistente Leerzeichen und Tabulatoren getrennte Daten zu entschlüsseln.

Um dieser Herausforderung zu begegnen, bietet pandas vielseitige Optionen zum Definieren von Trennzeichen. Ein Ansatz besteht darin, reguläre Ausdrücke (Regex) zu verwenden. Mithilfe des Parameters delimiter in read_csv können Sie ein Regex-Muster angeben, das die gewünschten Trennzeichen erfasst. Dadurch können Sie Kombinationen aus Leerzeichen und Tabulatoren berücksichtigen und so eine genaue Analyse gewährleisten.

Alternativ können Sie den Parameter delim_whitespace nutzen, der ähnlich wie die Python-Methode „split()“ funktioniert. Wenn Sie delim_whitespace auf „True“ setzen, behandelt Pandas alle Leerzeichen (einschließlich Leerzeichen und Tabulatoren) als Trennzeichen. Dadurch entfällt die Notwendigkeit, ein bestimmtes Regex-Muster anzugeben.

Betrachten Sie das folgende Beispiel:

import pandas as pd

data = pd.read_csv("irregular_separators.csv", header=None, delimiter=r"\s+")

print(data)

# Output:
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4

Nach dem Login kopieren

In diesem Fall enthält unregelmäßig_separators.csv Spalten, die durch Tabulatoren, Leerzeichen und sogar Kombinationen davon getrennt sind beide. Durch Angabe des Regex-Musters analysiert read_csv die Daten erfolgreich und erstellt einen DataFrame.

Alternativ können Sie delim_whitespace verwenden:

data = pd.read_csv("irregular_separators.csv", header=None, delim_whitespace=True)

print(data)

# Output (same as above):
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4

Nach dem Login kopieren

Durch die Nutzung der Flexibilität von Trennzeichen in read_csv können Sie Unregelmäßigkeiten effektiv bewältigen Leerzeichen in Datendateien entfernen und aussagekräftige Informationen zur Analyse extrahieren.

Das obige ist der detaillierte Inhalt vonWie analysiere ich Daten mit unregelmäßigen Trennzeichen in Pandas read_csv?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!