Statistics bietet uns leistungsstarke Tools zum Analysieren und Verstehen von Daten. Eines der Grundkonzepte der Statistik ist die 68-95-99,7-Regel, auch bekannt als Faustregel oder Drei-Sigma-Regel. Diese Regel ermöglicht es uns, anhand ihrer Standardabweichung wichtige Rückschlüsse auf die Verteilung von Daten zu ziehen. In diesem Blogbeitrag werden wir die 68-95-99,7-Regel untersuchen und zeigen, wie man sie mit Python anwendet.
68-95-99,7-Regel bietet eine Möglichkeit, den Prozentsatz der Daten in einer Normalverteilung zu schätzen, der innerhalb einer bestimmten Standardabweichung vom Mittelwert liegt. Nach dieser Regel -
Ungefähr 68 % der Daten liegen innerhalb einer Standardabweichung vom Mittelwert.
Ungefähr 95 % der Daten liegen innerhalb von zwei Standardabweichungen vom Mittelwert.
Ungefähr 99,7 % der Daten liegen innerhalb von drei Standardabweichungen vom Mittelwert.
Diese Prozentsätze gelten für Datensätze, die einer Normalverteilung (auch als Glockenkurve bekannt) folgen. Wenn wir diese Regel verstehen, können wir die Verbreitung von Daten schnell beurteilen und Ausreißer oder ungewöhnliche Beobachtungen identifizieren.
Um die 68-95-99,7-Regel in Aktion zu demonstrieren, verwenden wir Python und seine beliebte Datenanalysebibliothek NumPy. NumPy bietet effiziente numerische Operationen und statistische Funktionen, die uns bei der Berechnung der erforderlichen Werte helfen. Importieren wir zunächst die benötigten Bibliotheken −
import numpy as np import matplotlib.pyplot as plt
Als nächstes verwenden wir die Funktion numpy.random.normal(), um einen Zufallsdatensatz zu generieren, der einer Normalverteilung folgt. Wir verwenden den Mittelwert 0 und die Standardabweichung 1 −
np.random.seed(42) # Set the random seed for reproducibility data = np.random.normal(0, 1, 10000)
Jetzt können wir den Mittelwert und die Standardabweichung des Datensatzes berechnen −
mean = np.mean(data) std = np.std(data)
Um die Daten und den von der 68-95-99,7-Regel abgedeckten Bereich zu visualisieren, können wir mit der Funktion matplotlib.pyplot.hist() −
ein Histogramm erstellenplt.hist(data, bins=30, density=True, alpha=0.7) # Plot the mean and standard deviations plt.axvline(mean, color='r', linestyle='dashed', linewidth=1, label='Mean') plt.axvline(mean - std, color='g', linestyle='dashed', linewidth=1, label='1 STD') plt.axvline(mean + std, color='g', linestyle='dashed', linewidth=1) plt.axvline(mean - 2*std, color='b', linestyle='dashed', linewidth=1, label='2 STD') plt.axvline(mean + 2*std, color='b', linestyle='dashed', linewidth=1) plt.axvline(mean - 3*std, color='m', linestyle='dashed', linewidth=1, label='3 STD') plt.axvline(mean + 3*std, color='m', linestyle='dashed', linewidth=1) plt.legend() plt.xlabel('Value') plt.ylabel('Density') plt.title('Histogram of the Dataset') plt.show()
Das generierte Histogramm zeigt die Verteilung der Daten, wobei der Mittelwert und die Standardabweichung mit gestrichelten Linien markiert sind.
Um den von jedem Bereich abgedeckten Prozentsatz zu berechnen, können wir die kumulative Verteilungsfunktion (CDF) der Normalverteilung verwenden. Die NumPy-Funktion numpy.random.normal() generiert normalverteilte Daten, NumPy stellt jedoch auch numpy.random.normal() zur Berechnung des CDF −
bereit# Calculate the percentage within one standard deviation pct_within_1_std = np.sum(np.logical_and(data >= mean - std, data 7lt;= mean + std)) / len(data) # Calculate the percentage within two standard deviations pct_within_2_std = np.sum(np.logical_and(data >= mean - 2*std, data <= mean + 2*std)) / len(data) # Calculate the percentage within three standard deviations pct_within_3_std = np.sum(np.logical_and(data >= mean - 3*std, data <= mean + 3*std)) / len(data) print("Percentage within one standard deviation: {:.2%}".format(pct_within_1_std)) print("Percentage within two standard deviations: {:.2%}".format(pct_within_2_std)) print("Percentage within three standard deviations: {:.2%}".format(pct_within_3_std))
Wenn Sie diesen Code ausführen, sehen Sie den Prozentsatz Ihrer Daten, der innerhalb von 1, 2 und 3 Standardabweichungen vom Mittelwert liegt.
Percentage within one standard deviation: 68.27% Percentage within two standard deviations: 95.61% Percentage within three standard deviations: 99.70%
Diese Ergebnisse stimmen sehr gut mit den erwarteten Prozentsätzen für die 68-95-99,7-Regel überein.
Der von jedem Bereich abgedeckte Prozentsatz hat eine spezifische Interpretation. Daten, die innerhalb einer Standardabweichung vom Mittelwert liegen, sind relativ häufig, während Daten, die außerhalb von drei Standardabweichungen des Mittelwerts liegen, als selten gelten. Das Verständnis dieser Erklärungen hilft, aussagekräftige Rückschlüsse auf die Daten zu ziehen.
Obwohl die 68-95-99,7-Regel eine wertvolle Richtlinie ist, lässt sie sich möglicherweise nicht genau auf Datensätze anwenden, die deutlich von der Normalverteilung abweichen. Bei der Arbeit mit solchen Datensätzen ist es wichtig, andere statistische Techniken zu berücksichtigen und weitere Analysen durchzuführen.
Ausreißer können die Genauigkeit des von jedem Bereich abgedeckten Prozentsatzes stark beeinträchtigen. Diese Extremwerte können die Verteilung verzerren und die Wirksamkeit der Regeln beeinträchtigen. Die ordnungsgemäße Identifizierung und Behandlung von Ausreißern ist wichtig, um eine genaue statistische Analyse sicherzustellen.
68-95-99,7 In allen Bereichen gelten die Regeln. Beispielsweise ist es von entscheidender Bedeutung für die Identifizierung fehlerhafter Produkte in Qualitätskontrollprozessen, für die Bewertung von Risiko und Kapitalrendite in Finanzanalysen, für das Verständnis von Patientenmerkmalen in der Gesundheitsforschung und für das Verständnis von Datenverteilungen in vielen anderen Bereichen.
Wenn Sie tiefer in die Statistiken eintauchen, denken Sie darüber nach, andere Konzepte zu erkunden, die die 68-95-99,7-Regel ergänzen. Schiefe, Kurtosis, Konfidenzintervalle, Hypothesentests und Regressionsanalyse sind nur einige Beispiele für statistische Tools, die Ihr Verständnis und Ihre Analyse Ihrer Daten weiter verbessern können.
68-95-99,7 Regeln sind ein leistungsstarkes Konzept in der Statistik, das es uns ermöglicht, die Verteilung von Daten anhand ihrer Standardabweichung zu verstehen. Durch die Anwendung dieser Regel können wir den Anteil der Daten schätzen, der in einem bestimmten Bereich um den Mittelwert liegt. In diesem Blog verwenden wir Python und die NumPy-Bibliothek, um einen Zufallsdatensatz zu generieren, ihn zu visualisieren und die prozentuale Abdeckung jedes Bereichs zu berechnen. Wenn wir diese Regel verstehen, können wir aussagekräftige Rückschlüsse auf die Daten ziehen und potenzielle Ausreißer oder ungewöhnliche Beobachtungen identifizieren.
Das obige ist der detaillierte Inhalt vonDemonstration der 68-95-99,7-Regel in der Statistik mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!