Bevor Sie beginnen, müssen Sie sicherstellen, dass Python und pip erfolgreich auf Ihrem Computer installiert wurden.
(Optional 1) Wenn Sie Python für die Datenanalyse verwenden, können Sie Anaconda direkt installieren, das Python und Pip integriert hat
(Optional 2) Darüber hinaus wird empfohlen, den VSCode zu verwenden Editor, der viele Vorteile bietet
Bitte wählen Sie eine der folgenden Methoden, um den Befehl zum Installieren von Abhängigkeiten einzugeben:
1. Öffnen Sie Cmd (Start-Ausführen-CMD) in der Windows-Umgebung. 2. MacOS-Umgebung Öffnen Sie das Terminal (Befehl+Leertaste, um das Terminal aufzurufen). 3. Wenn Sie den VSCode-Editor oder Pycharm verwenden, können Sie direkt das Terminal am unteren Rand der Benutzeroberfläche verwenden.pip install pandas pip install numpy pip install scipy pip install seaborn pip install matplotlib # 机器学习部分 pip install scikit-learn
import numpy as np data = [1, 2, 3, 4, 5] mean = np.mean(data) print(mean)
import numpy as np data = [1, 2, 3, 4, 5] median = np.median(data) print(median)
import scipy.stats as stats data = [1, 2, 2, 3, 4, 4, 4, 5] mode = stats.mode(data) print(mode)
import numpy as np data = [1, 2, 3, 4, 5] variance = np.var(data) print(variance)
import numpy as np data = [1, 2, 3, 4, 5] std_dev = np.std(data) print(std_dev)
import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.plot(x, y) plt.show()
import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.scatter(x, y) plt.show()
import matplotlib.pyplot as plt data = [1, 2, 2, 3, 4, 4, 4, 5] plt.hist(data, bins=5) plt.show()
import seaborn as sns data = [1, 2, 2, 3, 4, 4, 4, 5] sns.boxplot(data) plt.show()
import matplotlib.pyplot as plt categories = ['A', 'B', 'C', 'D'] values = [10, 20, 30, 40] plt.bar(categories, values) plt.show()
import pandas as pd # 创建数据集 data = {'sales_date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09', '2022-01-10'], 'sales_amount': [100, 200, 150, 300, 250, 400, 350, 450, 500, 600], 'sales_person': ['John', 'Jane', 'John', 'Jane', 'John', 'Jane', 'John', 'Jane', 'John', 'Jane']} df = pd.DataFrame(data) # 按销售员名称分组,并对每个组的销售金额求和 grouped = df.groupby('sales_person')['sales_amount'].sum() print(grouped)
sales_person
Jane 2200John 18005. Analyse von maschinellen Lernalgorithmen und Erkennung von Mustern Sie können die scikit-learn-Bibliothek verwenden, um maschinelle Lernalgorithmen zu implementieren und Muster in Daten zu entdecken. Das Folgende ist ein einfaches Beispiel, das zeigt, wie der Entscheidungsbaumalgorithmus verwendet wird, um Daten zu klassifizieren und Muster in den Daten zu entdecken:Name: sales_amount, dtype: int64
Wie Sie sehen können, haben wir erfolgreich nach Verkäufername und Summe gruppiert Verkaufsbeträge für jede Gruppe. Auf diese Weise können wir den Gesamtumsatz jedes Verkäufers ermitteln und das Muster der Daten verstehen.
import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 创建数据集 data = {'age': [22, 25, 47, 52, 21, 62, 41, 36, 28, 44], 'income': [21000, 22000, 52000, 73000, 18000, 87000, 45000, 33000, 28000, 84000], 'gender': ['M', 'F', 'F', 'M', 'M', 'M', 'F', 'M', 'F', 'M'], 'bought': ['N', 'N', 'Y', 'Y', 'N', 'Y', 'Y', 'N', 'Y', 'Y']} df = pd.DataFrame(data) # 将文本数据转换成数值数据 df['gender'] = df['gender'].map({'M': 0, 'F': 1}) df['bought'] = df['bought'].map({'N': 0, 'Y': 1}) # 将数据集分成训练集和测试集 X = df[['age', 'income', 'gender']] y = df['bought'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # 创建决策树模型 model = DecisionTreeClassifier() # 训练模型 model.fit(X_train, y_train) # 在测试集上进行预测 y_pred = model.predict(X_test) # 计算模型的准确率 accuracy = accuracy_score(y_test, y_pred) print("Accuracy: {:.2f}%".format(accuracy*100))
Genauigkeit: 50,00 %
Wie Sie sehen können, verwenden wir die Entscheidungsbaumalgorithmus Die Daten wurden klassifiziert und die Genauigkeit des Modells anhand des Testsatzes berechnet. Auf diese Weise können wir Muster in den Daten entdecken, etwa welche Faktoren Kaufentscheidungen beeinflussen. Es ist zu beachten, dass dies nur ein einfaches Beispiel ist. In tatsächlichen Anwendungen müssen geeignete Algorithmen für maschinelles Lernen und Feature-Engineering-Methoden basierend auf spezifischen Problemen ausgewählt werden.
Das obige ist der detaillierte Inhalt vonWie man mit Python Muster in Daten erkennt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!