Amazon Athena で AWS Glue クローラーを使用する方法
データ プロフェッショナルとして、あなたはネットワークからの膨大な量のデータを扱います。 さまざまなソース。これにより、データの管理と分析が可能になります。 チャレンジ。幸いなことに、AWS Glue と Amazon という 2 つの AWS サービスが役に立ちます。 アテナ。
これらのサービスを統合すると、次の可能性を最大限に引き出すことができます。 AWS エコシステム内でのデータの検出、カタログ化、クエリ。しましょう データ分析ワークフローをどのように合理化できるかをご覧ください。
AWS Glue とは何ですか?
AWS Glue は、検出、準備、 複数のソースからのデータを移動および統合します。データ統合として AWS Glue サービスを使用すると、データを一元管理することができます。
AWS Glue クローラーとは何ですか?
Glueクローラーは、データをスキャンする自動データ検出ツールです。 ソース内のデータを自動的に分類、グループ化、カタログ化します。 次に、AWS Glue データ内に新しいテーブルを作成するか、既存のテーブルを更新します。 カタログ。
Glue データ カタログとは?
AWS Glue データ カタログデータの場所のインデックスです。 スキーマと実行時メトリクス。作成するにはこの情報が必要です。 抽出、変換、ロード (ETL) ジョブを監視します。
Amazon Athena と AWS Glue を使用する理由
ここまでAmazon Athena、AWS Glue、AWS の基本 グルークローラーについて、もう少し詳しく説明しましょう。
4 つの主要な Amazon Athena ユースケース
Amazon Athena は、分析のための簡素化された柔軟な方法を提供します 彼らが住んでいる場所にペタバイト規模のデータが存在します。たとえば、Athena は分析できます。 Amazon Simple Storage Service (S3) からのデータまたはアプリケーションの構築 データ レイクと 30 個のデータ ソース (オンプレミス データ ソースを含む) SQL または Python を使用する他のクラウド システム。
Amazon Athena には 4 つの主要なユースケースがあります:
S3、オンプレミスのデータセンター、または他のクラウドでクエリを実行
機械学習モデルのデータを準備する
SQL クエリまたは Python で機械学習モデルを使用して、 異常検出、顧客コホートなどの複雑なタスクを簡素化します。 分析と売上予測
マルチクラウド分析の実行 (Azure でのデータのクエリなど) Synapse Analytics と Amazon で結果を視覚化する QuickSight)
3 つの主要な AWS Glue ユースケース
Amazon Athena について説明したので、AWS Glue について話しましょう。 AWS Glue を使用すると、いくつかの異なることができます。
まず、AWS Glue データ統合エンジンを使用できます。 いくつかの異なるソースからデータを取得します。これには Amazon S3 が含まれます。 Amazon DynamoDB、Amazon RDS、および Amazon 上で実行されるデータベース EC2 (AWS Glue スタジオと統合) および AWS Glue for Ray、Python シェル、および Apache Spark。
データがインターフェースされ、フィルタリングされると、データと対話できるようになります。 データをロードまたは作成する場所。このリストは、次の場所からのデータを含むように拡張されます。 Amazon Redshift、データレイク、データ ウェアハウスなどの場所。
AWS Glue を使用して ETL ジョブを実行することもできます。これらの仕事でできることは、 顧客データを分離し、転送中および転送中の顧客データを保護するため 休憩し、顧客に応じて必要な場合にのみ顧客データにアクセスします リクエスト。 ETL ジョブをプロビジョニングするときに必要なのは、 仮想プライベートの入力データ ソースと出力データ ターゲット
AWS Glue を使用できる最後の方法は、データカタログを使用して を移動せずに、複数の AWS データセットをすばやく検出して検索します。 データ。データがカタログ化されると、すぐに検索できるようになります Amazon Athena、Amazon EMR、Amazon Redshift を使用したクエリ Spectrums.
AWS Glue の使用開始: AWS Glue から Amazon Athena にデータを取得する方法
では、AWS Glue から Amazon Athena にデータを取得するにはどうすればよいでしょうか?次の手順に従ってください:
まず、データをデータ ソースにアップロードします。最も人気のある オプションは S3 バケットですが、DynamoDB テーブルと Amazon RedShift も同様です オプション。
データ ソースを選択し、分類子を作成します。 必要。分類子はデータを読み取り、スキーマがあればスキーマを生成します。 フォーマットを認識します。カスタム分類子を作成して確認できます 異なるデータ型。
クローラーを作成します。
クローラーの名前を設定し、データ ソースを選択します カスタム分類子を追加して、AWS Glue が確実に認識できるようにします。 データを正しく実行します。
クローラがプロセスを正しく実行できるように、Identity and Access Management (IAM) ロールを設定します。
作成データセットを保持するデータベース。データを常に最新の状態に保つために、クローラーが動作するタイミングと頻度を設定します。
クローラーを実行します。このプロセスは状況に応じて時間がかかる場合があります データセットの大きさ。クローラーが正常に実行されると、 データベース内のテーブルへの変更を確認してください。
このプロセスが完了したので、Amazon にジャンプできます。 Athena を起動し、データをフィルターして取得するために必要なクエリを実行します。 あなたが探している結果。
以上がAmazon Athena で AWS Glue クローラーを使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











HQL と SQL は Hibernate フレームワークで比較されます。HQL (1. オブジェクト指向構文、2. データベースに依存しないクエリ、3. タイプ セーフティ)、SQL はデータベースを直接操作します (1. データベースに依存しない標準、2. 複雑な実行可能ファイル)。クエリとデータ操作)。

「OracleSQLでの除算演算の使用方法」 OracleSQLでは、除算演算は一般的な数学演算の1つです。データのクエリと処理中に、除算演算はフィールド間の比率を計算したり、特定の値間の論理関係を導出したりするのに役立ちます。この記事では、OracleSQL での除算演算の使用法を紹介し、具体的なコード例を示します。 1. OracleSQL における除算演算の 2 つの方法 OracleSQL では、除算演算を 2 つの異なる方法で実行できます。

Oracle と DB2 は一般的に使用される 2 つのリレーショナル データベース管理システムであり、それぞれに独自の SQL 構文と特性があります。この記事では、Oracle と DB2 の SQL 構文を比較し、相違点を示し、具体的なコード例を示します。データベース接続 Oracle では、次のステートメントを使用してデータベースに接続します: CONNECTusername/password@database DB2 では、データベースに接続するステートメントは次のとおりです: CONNECTTOdataba

MyBatis 動的 SQL タグの解釈: Set タグの使用法の詳細な説明 MyBatis は、豊富な動的 SQL タグを提供し、データベース操作ステートメントを柔軟に構築できる優れた永続層フレームワークです。このうち、Set タグは、UPDATE ステートメントで SET 句を生成するために使用され、更新操作でよく使用されます。この記事では、MyBatis での Set タグの使用法を詳細に説明し、特定のコード例を通じてその機能を示します。 SetタグとはMyBatiで使用するSetタグです。

SQL における Identity とは何ですか? 具体的なコード例が必要です。SQL では、Identity は自動インクリメント数値の生成に使用される特別なデータ型です。多くの場合、テーブル内のデータの各行を一意に識別するために使用されます。 Identity 列は、各レコードが一意の識別子を持つようにするために、主キー列と組み合わせてよく使用されます。この記事では、Identity の使用方法といくつかの実用的なコード例について詳しく説明します。 Identity の基本的な使用方法は、テーブルを作成するときに Identity を使用することです。

解決策: 1. ログインしているユーザーがデータベースにアクセスまたは操作するための十分な権限を持っているかどうかを確認し、ユーザーが正しい権限を持っているかどうかを確認します; 2. SQL Server サービスのアカウントに指定されたファイルまたはデータベースにアクセスする権限があるかどうかを確認します。 3. 指定されたデータベース ファイルが他のプロセスによって開かれているかロックされているかどうかを確認し、ファイルを閉じるか解放して、クエリを再実行します。管理者として試してください。Management Studio をなどとして実行します。

MySQL でデータの集計と統計に SQL ステートメントを使用するにはどうすればよいですか?データの集計と統計は、データ分析と統計を実行する際の非常に重要な手順です。 MySQL は強力なリレーショナル データベース管理システムとして、データの集約と統計操作を簡単に実行できる豊富な集約機能と統計機能を提供します。この記事では、SQL ステートメントを使用して MySQL でデータの集計と統計を実行する方法を紹介し、具体的なコード例を示します。 1. カウントには COUNT 関数を使用します。COUNT 関数は最も一般的に使用されます。

SQL の MONTHS_BETWEEN は、2 つの日付間の月の差を計算するために使用される一般的な関数です。これがどのように使用されるかは、特定のデータベース管理システムによって異なります。
