雪花雪板：全面的介绍-人工智能-PHP中文网

雪花雪板：全面的介绍

Lisa Kudrow

发布： 2025-03-07 09:49:08

原创

315 人浏览过

雪板：使用雪花

的数据库机器学习

传统的机器学习通常涉及将大量数据集从数据库中移动到模型培训环境。当今的大型数据集越来越效率。 Snowflake Snowpark通过启用数据库处理来解决此问题。 Snowpark直接在Snowflake的云中提供了库和运行时间，以执行代码（Python，Java，Scala），从而最大程度地减少数据移动并增强安全性。

为什么选择Snowpark？

Snowpark提供了几个关键优势：

> 内部的处理：

绩效改进：利用雪花的可扩展体系结构进行高效处理。

降低的成本：最大程度地减少基础架构管理开销。

> 熟悉的工具：与诸如jupyter或vs code（vs code）的现有工具集成，并利用熟悉的库（pandas，scikit-learn，xgboost）。

入门：逐步指南

该教程展示了使用Snowpark构建超参数调整的模型。

>虚拟环境设置：创建一个conda环境并安装必要的库（>，snowflake-snowpark-python，pandas，pyarrow，numpy，matplotlib，seaborn，ipykernel，
）。
数据摄入：导入样本数据（例如，海底钻石数据集）进入雪花表。（注意：在现实世界中，您通常会使用现有的雪花数据库。）
> Snekark Session创建：config.py>使用您的凭据（帐户名，用户名，密码）建立与雪花的连接，将其牢固存储在.gitignore> file（添加到
>）中。
>数据加载：
使用Snowpark会话访问并将数据加载到Snowpark DataFrame中。

了解Snowpark DataFrames

Snowpark DataFrames懒惰地操作，在将操作转换为优化的SQL查询之前，建立了逻辑的操作表示。这与熊猫的渴望执行形成鲜明对比，尤其是在大型数据集的情况下提供了可观的性能增长。

何时使用Snowpark DataFrames：

to_pandas()>使用Snowpark DataFrames作为大型数据集，其中将数据传输到本地机器是不切实际的。对于较小的数据集，熊猫可能就足够了。该方法允许在Snekpark和Pandas DataFrames之间进行转换。该方法提供了直接执行SQL查询的替代方法。 Session.sql() Snowpark DataFrame转换功能：

Snowpark的转换功能（从F中导入为snowflake.snowpark.functions）为数据操作提供了强大的接口。这些函数与.select()，.filter()和.with_column()方法一起使用。

>探索性数据分析（EDA）：

可以通过从Snowpark DataFrame，将其转换为Pandas DataFrame，并使用Matplotlib和Seaborn等可视化库来进行EDA进行EDA。另外，SQL查询可以生成可视化的数据。

机器学习模型培训：

>
数据清洁：确保数据类型正确并处理任何预处理需求（例如，重命名列，铸造数据类型，清洁文本功能）。>
>预处理：>将雪花ML的与Pipeline和OrdinalEncoder一起使用。使用StandardScaler。joblib保存管道
模型培训：使用预处理数据训练XGBoost模型（>。 XGBRegressor random_split()
>使用诸如rmse（
）等指标评估模型。 mean_squared_error snowflake.ml.modeling.metrics
使用
来优化模型超参数。 RandomizedSearchCV
>
>使用
类。 Registry
推断：