Datenanalyse ist zu einem integralen Bestandteil moderner Unternehmen geworden und hilft Unternehmen dabei, wertvolle Erkenntnisse aus Daten zu gewinnen und fundierte Entscheidungen zu treffen. Python ist eine leistungsstarke Programmiersprache mit einer umfangreichen Datenanalysebibliothek und damit eines der bevorzugten Tools für die Datenanalyse.
Datenverarbeitung
import pandas as pd # 加载 CSV 文件 df = pd.read_csv("data.csv") # 清洗和准备数据 df = df.dropna()# 删除缺失值 df["column"] = df["column"].astype("cateGory")# 转换数据类型 # 合并数据集 df2 = pd.read_csv("data2.csv") df = pd.merge(df, df2, on="id")
import numpy as np # 创建一个 NumPy 数组 arr = np.array([1, 2, 3, 4, 5]) # 数组操作 arr_mean = np.mean(arr)# 计算平均值 arr_sum = np.sum(arr)# 计算总和
Datenvisualisierung
import matplotlib.pyplot as plt # 创建一个散点图 plt.scatter(df["x"], df["y"]) plt.xlabel("x") plt.ylabel("y") plt.show()
import seaborn as sns # 创建一个热力图 sns.heatmap(df.corr())# 计算相关矩阵并绘制热力图 plt.show()
Data Mining und maschinelles Lernen
from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression # 划分训练和测试集 X_train, X_test, y_train, y_test = train_test_split(df[["x", "y"]], df["z"]) # 训练线性回归模型 model = LinearRegression() model.fit(X_train, y_train) # 评估模型 score = model.score(X_test, y_test)# 计算准确率
import Tensorflow as tf # 创建一个神经网络模型 model = tf.keras.Sequential([ tf.keras.layers.Dense(128, activation="relu"), tf.keras.layers.Dense(1, activation="sigmoid") ]) # 训练模型 model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"]) model.fit(X_train, y_train, epochs=10) # 评估模型 loss, accuracy = model.evaluate(X_test, y_test)
Leistungsstarke Tools:
Das obige ist der detaillierte Inhalt vonPython-Datenanalyse: Einblick in die Muster hinter Ihren Daten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!