如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用-SQL-PHP中文网

如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用

Christopher Nolan

发布： 2024-10-22 13:38:59

转载

1084 人浏览过

作为一名数据专业人员，您需要处理来自各个领域的大量数据各种来源。这可以使数据管理和分析成为挑战。幸运的是，两项 AWS 服务可以提供帮助：AWS Glue 和 Amazon 雅典娜。

当您集成这些服务时，您就释放了 AWS 生态系统中的数据发现、编目和查询。让我们了解他们如何简化您的数据分析工作流程。

如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用

什么是 AWS Glue？

AWS Glue 是一种无服务器托管服务，可让您发现、准备、移动和集成来自多个来源的数据。作为数据集成服务，AWS Glue 让您能够集中管理数据位置，而无需管理基础设施。

什么是 AWS Glue 爬网程序？

Glue爬虫是扫描数据的自动化数据发现工具自动对其中的数据进行分类、分组和编目。然后，它会在您的 AWS Glue 数据中创建新表或更新现有表目录。

什么是 Glue 数据目录？

AWS Glue 数据目录是数据位置的索引，架构和运行时指标。您需要此信息来创建和监控您的提取、转换和加载 (ETL) 作业。

为什么使用 Amazon Athena 和 AWS Glue？

现在我们已经介绍了Amazon Athena、AWS Glue 和 AWS 的基础知识胶水爬虫，让我们更深入地讨论一下它们。

4 个主要 Amazon Athena 使用案例

Amazon Athena 提供了一种简化、灵活的分析方法 PB 级数据就在它们所在的地方。例如，Athena 可以分析从 Amazon Simple Storage Service (S3) 获取数据或构建应用程序数据湖和 30 个数据源，包括本地数据源或使用 SQL 或 Python 的其他云系统。

Amazon Athena 有四种主要用例：

在 S3、本地数据中心或其他云上运行查询
为机器学习模型准备数据
在 SQL 查询或 Python 中使用机器学习模型简化复杂的任务，例如异常检测、客户群体分析和销售预测
执行多云分析（例如在 Azure 中查询数据） Synapse Analytics，然后通过 Amazon 将结果可视化 QuickSight)

3 个关键 AWS Glue 使用案例

现在我们已经介绍了 Amazon Athena，接下来我们来谈谈 AWS Glue。您可以使用 AWS Glue 执行一些不同的操作。

首先，您可以使用 AWS Glue 数据集成引擎，它允许您从几个不同的来源获取数据。这包括亚马逊 S3、 Amazon DynamoDB 和 Amazon RDS 以及在 Amazon 上运行的数据库 EC2（与 AWS Glue 工作室集成）和 AWS Glue for Ray、Python 壳牌和阿帕奇火花。

一旦数据被连接和过滤，它就可以与加载或创建数据的位置，此列表扩展为包含来自以下位置的数据 Amazon Redshift、数据湖和数据仓库等地方。

您还可以使用 AWS Glue 运行 ETL 作业。这些工作可以让你隔离客户数据，保护传输中和现场的客户数据休息，仅在响应客户需要时访问客户数据请求。当配置 ETL 作业时，您需要做的就是提供虚拟专用中的输入数据源和输出数据目标云。

使用 AWS Glue 的最后一种方法是通过数据目录快速发现和搜索多个 AWS 数据集，而无需移动数据。数据编目后，可立即用于搜索并使用 Amazon Athena、Amazon EMR 和 Amazon Redshift 进行查询频谱。