Python 在机器学习 (ML) 领域的流行源于其易用性、灵活性和广泛的库支持。本指南提供了使用 Python 进行机器学习的基础介绍,涵盖了基本库并演示了简单的模型构建。
Python 在 ML 领域的主导地位归功于以下几个关键优势:
Python 为机器学习过程的每个阶段(从数据分析到模型部署)提供了全面的工具。
开始 ML 之旅之前,请熟悉这些重要的 Python 库:
NumPy: Python 数值计算的基石。 提供对数组、矩阵和数学函数的支持。
Pandas: 一个强大的数据操作和分析库。 它的 DataFrame 结构简化了结构化数据的处理。
Scikit-learn: Python 中使用最广泛的 ML 库。 提供高效的数据挖掘和分析工具,包括分类、回归和聚类算法。
使用 pip 安装必要的库:
<code class="language-bash">pip install numpy pandas scikit-learn</code>
安装后,您就可以开始编码了。
让我们使用 Iris 数据集构建一个基本的 ML 模型,该模型根据花瓣测量值对鸢尾花物种进行分类。
第 1 步:导入库
导入所需的库:
<code class="language-python">import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score</code>
第 2 步:加载数据集
使用 Scikit-learn 加载 Iris 数据集:
<code class="language-python"># Load the Iris dataset iris = load_iris() # Convert to a Pandas DataFrame data = pd.DataFrame(iris.data, columns=iris.feature_names) data['species'] = iris.target</code>
第 3 步:数据探索
分析数据:
<code class="language-python"># Display initial rows print(data.head()) # Check for missing values print(data.isnull().sum()) # Summary statistics print(data.describe())</code>
第四步:数据准备
分离特征(X)和标签(y),并将数据分成训练集和测试集:
<code class="language-python"># Features (X) and labels (y) X = data.drop('species', axis=1) y = data['species'] # Train-test split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)</code>
第五步:模型训练
训练随机森林分类器:
<code class="language-bash">pip install numpy pandas scikit-learn</code>
第 6 步:预测和评估
进行预测并评估模型准确性:
<code class="language-python">import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score</code>
恭喜!您已经创建了第一个 ML 模型。 为了进一步学习:
以上是Python 机器学习入门的详细内容。更多信息请关注PHP中文网其他相关文章!