Amazon AthenaでAWS接着クローラーの使用方法
データの専門家として、さまざまなソースから大量のデータを処理する必要があります。これは、データ管理と分析に課題をもたらす可能性があります。幸いなことに、AWS GlueとAmazon Athenaの2つのAWSサービスが役立ちます。
これらのサービスを統合すると、AWSエコシステムでのデータ発見、カタログ、クエリをリリースします。データ分析ワークフローを簡素化する方法を理解しましょう。
AWS接着剤とは何ですか?
AWS Glueは、複数のソースからデータを発見、準備、移動、統合できるサーバーレスホスティングサービスです。データ統合サービスとして、AWS Glueを使用すると、インフラストラクチャを管理せずにデータの場所を中央に管理できます。
AWS Glue Crawlerとは何ですか?
Glue Crawlerは、データをスキャンする自動データディスカバリーツールで、そのデータを自動的に分類、グループ、カタログ化します。次に、新しいテーブルを作成するか、AWS Glueデータに既存のテーブルディレクトリを更新します。
接着剤データディレクトリとは何ですか?
AWS Glue Data Directoryは、データロケーションのインデックス、スキーマ、およびランタイムメトリックです。抽出、変換(ETL)ジョブを作成および監視するには、この情報が必要です。
なぜAmazon AthenaとAWS Glueを使用するのですか?
Amazon Athena、AWS Glue、およびAWS Glue Crawlersの基本をカバーしたので、それらをより深い方法で議論しましょう。
4つの主要なAmazon Athenaのユースケース
Amazon Athenaは、ペタバイトのデータを分析するための簡素化された柔軟な方法を提供します。たとえば、Athenaは、Amazon Simple Storage Service(S3)のデータを分析したり、SQLまたはPythonを使用してオンプレミスのデータソースやその他のクラウドシステムを含むアプリケーションデータ湖と30のデータソースを構築できます。
Amazon Athenaには4つの主要なユースケースがあります。
S3、オンプレミスのデータセンター、またはその他のクラウドでクエリを実行する
機械学習モデルのデータを準備します
SQLクエリまたはPythonで機械学習モデルを使用した、異常検出、顧客グループ分析、販売予測などの複雑なタスクを簡素化する
マルチクラウド分析(Azureのデータのクエリなど)を実行し、Synapse Analyticsを視覚化し、Amazon QuickSightで視覚化します)
3キーAWS接着剤ユースケース
Amazon Athenaを紹介したので、AWS Glueについて話しましょう。 AWS接着剤を使用して、いくつかの異なるアクションを実行できます。
まず、AWS Glue Data Integration Engineを使用できます。これにより、いくつかの異なるソースからデータを取得できます。これには、Amazon S3、Amazon Dynamodb、およびAmazon RDS、およびAmazonで実行されているデータベースEC2(AWS Glue Studiosと統合)と、Ray、Python Shell、Apache SparkのAWS接着剤が含まれます。
データが接続されてフィルタリングされると、データがロードまたは作成された場所に接続でき、このリストはAmazon Redshift、Data Lakes、Data Warehousesなどの場所に拡張できます。
AWS接着剤を使用してETLジョブを実行することもできます。これらのタスクを使用すると、顧客データを分離し、顧客データを送信して現場で保護し、顧客のニーズに応答する場合にのみ顧客データ要求にアクセスできます。 ETLジョブを構成するとき、必要なのは、仮想プライベートに入力データソースと出力データターゲットクラウドを提供することだけです。
AWS接着剤を使用する最後の方法は、データを移動せずにデータカタログを介して複数のAWSデータセットをすばやく発見および検索することです。データカタログの後、Amazon Athena、Amazon EMR、およびAmazon Redshiftを使用して、Spectrumを検索およびクエリするためにすぐに使用できます。
AWS接着剤を始めましょう:AWS接着剤からAmazon Athenaにデータを取得する方法
それでは、AWSの接着剤からAmazon Athenaにデータを取得するにはどうすればよいですか?これらの手順に従ってください:
最初にデータをデータソースにアップロードします。最も人気のあるオプションはS3バケットですが、DynamodBテーブルとAmazon Redshiftもオプションです。
データソースを選択し、必要に応じて分類器を作成します。分類器はデータを読み取り、パターン(満たされている場合)を生成して形式を識別します。カスタム分類子を作成して、さまざまなデータ型を表示できます。
クローラーを作成します。
クローラーの名前を設定し、データソースを選択し、カスタム分類子を追加して、AWS接着剤がデータを正しく認識していることを確認します。
IDおよびアクセス管理(IAM)の役割を設定して、Crawlerがプロセスを正しく実行するようにします。
データセットを保存するデータベースを作成します。クローラーのランタイムと頻度を設定して、データを最新に保ちます。
クローラーを実行します。このプロセスには、データセットの大きさに応じて、しばらく時間がかかります。クローラーが正常に実行された後、データベース内のテーブルの変更を表示します。
このプロセスが終了したので、Amazon Athenaにジャンプして、データをフィルタリングして探している結果を取得するために必要なクエリを実行できます。
以上がAmazon AthenaでAWS接着クローラーの使用方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

PythonコードをSublimeテキストで実行するには、最初にPythonプラグインをインストールし、次に.pyファイルを作成してコードを書き込み、Ctrl Bを押してコードを実行する必要があります。コードを実行すると、出力がコンソールに表示されます。

Visual Studioコード(VSCODE)でコードを作成するのはシンプルで使いやすいです。 VSCODEをインストールし、プロジェクトの作成、言語の選択、ファイルの作成、コードの書き込み、保存して実行します。 VSCODEの利点には、クロスプラットフォーム、フリーおよびオープンソース、強力な機能、リッチエクステンション、軽量で高速が含まれます。

メモ帳でPythonコードを実行するには、Python実行可能ファイルとNPPEXECプラグインをインストールする必要があります。 Pythonをインストールしてパスを追加した後、nppexecプラグインでコマンド「python」とパラメーター "{current_directory} {file_name}"を構成して、メモ帳のショートカットキー「F6」を介してPythonコードを実行します。

GolangとPythonにはそれぞれ独自の利点があります。Golangは高性能と同時プログラミングに適していますが、PythonはデータサイエンスとWeb開発に適しています。 Golangは同時性モデルと効率的なパフォーマンスで知られていますが、Pythonは簡潔な構文とリッチライブラリエコシステムで知られています。
