Sehenswerte effiziente Datenverarbeitung in Python
Pandas ist ein sehr häufig verwendetes Datenverarbeitungstool in Python und sehr benutzerfreundlich. Es basiert auf der NumPy-Array-Struktur, daher werden viele seiner Operationen über die mit NumPy oder Pandas gelieferten Erweiterungsmodule geschrieben. Diese Module werden in Cython geschrieben und in C kompiliert und auf C ausgeführt, wodurch die Verarbeitungsgeschwindigkeit sichergestellt wird.
Heute werden wir seine Kraft erleben.
Mit Pandas können wir jetzt ganz einfach einen Pandas-DataFrame mit 5 Spalten und 1000 Zeilen erstellen:
mu1, sigma1 = 0, 0.1 mu2, sigma2 = 0.2, 0.2 n = 1000df = pd.DataFrame( { "a1": pd.np.random.normal(mu1, sigma1, n), "a2": pd.np.random.normal(mu2, sigma2, n), "a3": pd.np.random.randint(0, 5, n), "y1": pd.np.logspace(0, 1, num=n), "y2": pd.np.random.randint(0, 2, n), } )
generiert Daten wie unten gezeigt:
Pandas-Plotfunktion Gibt eine Matplotlib-Koordinatenachse (Achsen) zurück, sodass wir darauf individuell zeichnen können, was wir brauchen. Zeichnen Sie beispielsweise eine vertikale Linie und eine parallele Linie. Das wird für uns von großem Nutzen sein:
1. Zeichnen Sie die Durchschnittslinie
2. Markieren Sie die wichtigsten Punkte
rrreeWir können auch anpassen, wie viele Tabellen in einem Diagramm angezeigt werden:
import matplotlib.pyplot as plt ax = df.y1.plot() ax.axhline(6, color="red", linestyle="--") ax.axvline(775, color="red", linestyle="--") plt.show()
Pandas ermöglicht uns den Formvergleich zweier Figuren auf sehr einfache Weise:
fig, ax = plt.subplots(2, 2, figsize=(14,7)) df.plot(x="index", y="y1", ax=ax[0, 0]) df.plot.scatter(x="index", y="y2", ax=ax[0, 1]) df.plot.scatter(x="index", y="a3", ax=ax[1, 0]) df.plot(x="index", y="a1", ax=ax[1, 1]) plt.show()
Es ermöglicht auch das Zeichnen mehrerer Figuren:
df[["a1", "a2"]].plot(bins=30, kind="hist") plt.show()
Das Erstellen eines Liniendiagramms ist natürlich nicht in der Zeichnung enthalten:
df[["a1", "a2"]].plot(bins=30, kind="hist", subplots=True) plt.show()
Pandas können auch zur Anpassung verwendet werden, um eine gerade Linie zu finden, die der folgenden Figur am nächsten kommt:
Die Die Methode der kleinsten Quadrate berechnet die kürzeste gerade Linie Entfernung:
df[['a1', 'a2']].plot(by=df.y2, subplots=True) plt.show()
Zeichnen Sie y und die angepasste gerade Linie basierend auf dem Ergebnis der kleinsten Quadrate:
df['ones'] = pd.np.ones(len(df)) m, c = pd.np.linalg.lstsq(df[['index', 'ones']], df['y1'], rcond=None)[0]
Vielen Dank für Beim Lesen hoffe ich, dass Sie viel davon profitieren werden.
Dieser Artikel ist reproduziert von: https://blog.csdn.net/u010751000/article/details/106735872
Empfohlenes Tutorial: „Python-Tutorial“
Das obige ist der detaillierte Inhalt vonEffiziente Datenverarbeitung in Python ist einen Blick wert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!