PIP ein. Installieren Sie Pandas
. Pandas als PD
importieren. Der als pd
ist eine übliche Konvention, um den Namen für das einfacher Tippen zu verkürzen. Häufige Funktionen umfassen: pd.read_csv ('file.csv')
: liest Daten aus einer CSV -Datei. Datei. pd.read_json ('file.json')
: Lesedaten aus einer JSON -Datei. Aus einem Wörterbuch, der Liste der Listen oder einem Numpy -Array. Dies ist nützlich, um Datenframes von Grund auf zu erstellen oder vorhandene Datenstrukturen zu manipulieren. Zeilen. .info ()
: Enthält eine Zusammenfassung des Datenrahmens, einschließlich Datentypen und Nicht-Null-Werten. (Zeilen, Spalten) des Datenframe. Matplotlib und Seeborn erstellen Diagramme direkt aus Ihrem Datenrahmen. Die häufigsten Pandas -Funktionen für die Datenmanipulation? Hier sind einige der am häufigsten verwendeten: Auswahl und Indexierung:
[]
: Grundlegende Auswahl mit Spaltenbezeichnungen oder Boolean -Indexierung. df ['column_name']
wählt eine einzelne Spalte aus; df [boolean_condition]
wählt Zeilen basierend auf einer Bedingung aus. Ermöglicht die Auswahl von Zeilen und Spalten nach ihren Etiketten. df.loc [row_label, column_label]
.iloc []
: Integer-basierte Indexierung. Ermöglicht die Auswahl von Zeilen und Spalten nach ihren Ganzzahlpositionen. df.iloc [row_index, column_index]
Datenreinigung:
.dropna ()
: ROWS oder Spalten mit fehlenden Werten. oder Methode (z. B. Mittelwert, Median). .Replace ()
: Ersetzt Werte durch andere Werte. Spalte. .GroupBy ()
: Gruppen Daten basierend auf einer oder mehreren Spalten für die Aggregation oder andere Operationen. Spalten. .merge ()
: Basierend auf den gängigen Spalten basiert auf den gängigen Spalten. Aggregation: .sum ()
, .mean ()
, .max ()
, .min ()
, .count ()
,
usc. Statistiken. .dropna ()
) entfernen, füllen Sie sie mit einem geeigneten Wert ( .fillna ()
-Mittelwert, Median, Modus oder Konstante), oder verwenden Sie ausgefeiltere Imputationstechniken (z. B. mit Scikit-Larn-Imputern. Verwenden Sie .Aastype ()
, um Datentypen zu konvertieren (z. B. Zeichenfolgen zu Zahlen, Daten zu DateTime -Objekten). Falsche Datentypen können die Analyse beeinträchtigen. Entscheiden Sie, ob Sie sie entfernen, um sie zu transformieren (z. B. Log-Transformation) oder beenden Sie sie. Dies ist für viele Algorithmen für maschinelles Lernen von entscheidender Bedeutung. Dies kann das Kombinieren von Spalten, das Erstellen von Verhältnissen oder das Extrahieren von Informationen aus Zeichenfolgen beinhalten. Daten. Das obige ist der detaillierte Inhalt vonWie benutze ich Pandas für die Datenanalyse in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!