Beim Laden einer CSV-Datei mit Pandas mithilfe von pd.read_csv('somefile.csv') kann Folgendes auftreten: eine Warnung:
DtypeWarning: Columns (4,5,7,16) have mixed types. Specify dtype option on import or set low_memory=False.
Die Option low_memory ist veraltet und hat keine funktionalen Auswirkungen. Sein Zweck bestand darin, die Speichernutzung beim Parsen von Dateien zu reduzieren, indem Typrückschlüsse verhindert wurden. Allerdings macht es jetzt nichts anderes.
Die Warnung wird angezeigt, weil das Erraten von D-Typen für jede Spalte ressourcenintensiv ist. Pandas ermittelt Dtypes durch Analyse der gesamten Datei. Ohne die explizite Definition von D-Typen kann die Analyse erst gestartet werden, wenn die vollständige Datei gelesen wurde.
Die Angabe von D-Typen (z. B. dtype={'user_id': int}) informiert Pandas über die erwarteten Datentypen, sodass sofort mit dem Parsen begonnen werden kann.
pd.read_csv('somefile.csv', dtype={'user_id': int})
Definieren Dtypes können Fehler vermeiden, wenn auf ungültige Datentypen gestoßen wird (z. B. „foobar“ in einer Integer-Spalte).
Pandas unterstützt verschiedene Dtypes, darunter:
Pandas-spezifisch:
Um Konverter zu verwenden, um potenziell ungültige Daten zu verarbeiten (z. B. „foobar“ in einer Ganzzahlspalte). Allerdings sind Konverter langsam und ineffizient, also verwenden Sie sie mit Vorsicht.
Das obige ist der detaillierte Inhalt vonWie gehe ich mit der Dtype-Warnung von Pandas um: Low_Memory- und Dtype-Optionen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!