Sebagai seorang profesional data, anda berurusan dengan sejumlah besar data daripada a pelbagai sumber. Ini boleh menjadikan pengurusan dan analisis data a cabaran. Nasib baik, dua perkhidmatan AWS boleh membantu: AWS Glue dan Amazon Athena.
Apabila anda menyepadukan perkhidmatan ini, anda membuka kunci potensi penuh penemuan data, pengkatalogan dan pertanyaan dalam ekosistem AWS. Jom lihat cara mereka boleh menyelaraskan aliran kerja analitis data anda.
Gam AWS ialah perkhidmatan terurus tanpa pelayan yang membolehkan anda menemui, menyediakan, bergerak, dan menyepadukan data daripada pelbagai sumber. Sebagai penyepaduan data perkhidmatan, AWS Glue memberi anda kuasa untuk mengurus data secara terpusat lokasi tanpa perlu mengurus infrastruktur.
Glue perangkak ialah alat penemuan data automatik yang mengimbas data sumber untuk mengelaskan, mengumpulkan dan mengkatalogkan data di dalamnya secara automatik. Ia kemudian mencipta baharu atau mengemas kini jadual sedia ada dalam Data Glue AWS anda Katalog.
Katalog Data Glue AWS ialah indeks lokasi data anda, skema, dan metrik masa jalan. Anda memerlukan maklumat ini untuk mencipta dan pantau kerja ekstrak, ubah dan muat (ETL) anda.
Sekarang kita telah membincangkan asas Amazon Athena, AWS Glue dan AWS Perangkak gam, mari bercakap tentangnya dengan lebih mendalam.
Amazon Athena menyediakan cara yang mudah dan fleksibel untuk menganalisis petabait data tepat di tempat mereka tinggal. Sebagai contoh, Athena boleh menganalisis data atau bina aplikasi daripada Perkhidmatan Penyimpanan Mudah Amazon (S3) tasik data dan 30 sumber data, termasuk sumber data di premis atau sistem awan lain menggunakan SQL atau Python.
Terdapat empat kes penggunaan Amazon Athena utama:
Jalankan pertanyaan pada S3, pusat data di premis atau pada awan lain
Sediakan data untuk model pembelajaran mesin
Gunakan model pembelajaran mesin dalam pertanyaan SQL atau Python untuk memudahkan tugas yang kompleks, seperti pengesanan anomali, kohort pelanggan analisis dan ramalan jualan
Lakukan analitik berbilang awan (seperti pertanyaan data dalam Azure Sinaps Analitis dan kemudian memvisualisasikan hasil dengan Amazon QuickSight)
Sekarang kita telah membincangkan Amazon Athena, mari bercakap tentang AWS Glue. Anda boleh melakukan beberapa perkara berbeza dengan AWS Glue.
Pertama, anda boleh menggunakan enjin penyepaduan data AWS Glue, yang membolehkan anda untuk mendapatkan data daripada beberapa sumber yang berbeza. Ini termasuk Amazon S3, Amazon DynamoDB, dan Amazon RDS, serta pangkalan data yang berjalan di Amazon EC2 (yang disepadukan dengan studio AWS Glue) dan AWS Glue untuk Ray, Python Shell, dan Apache Spark.
Setelah data diantara muka dan ditapis supaya ia boleh berinteraksi dengannya tempat untuk memuatkan atau membuat data, senarai ini berkembang untuk memasukkan data daripada tempat seperti Amazon Redshift, tasik data dan gudang data.
Anda juga boleh menggunakan AWS Glue untuk menjalankan kerja ETL anda. Pekerjaan ini membolehkan anda untuk mengasingkan data pelanggan, melindungi data pelanggan dalam transit dan di berehat, dan akses data pelanggan hanya seperti yang diperlukan sebagai tindak balas kepada pelanggan permintaan. Apabila menyediakan pekerjaan ETL, anda hanya perlu menyediakan sumber data input dan sasaran data output dalam peribadi maya anda awan.
Cara terakhir anda boleh menggunakan AWS Glue adalah melalui katalog data untuk cepat menemui dan mencari beberapa set data AWS tanpa mengalihkan data. Setelah data dikatalogkan, ia segera tersedia untuk carian dan pertanyaan menggunakan Amazon Athena, Amazon EMR dan Amazon Redshift Spektrum.
Jadi, bagaimanakah anda boleh mendapatkan data daripada AWS Glue ke dalam Amazon Athena? Ikut langkah ini:
Mulakan dengan memuat naik data ke sumber data. Yang paling popular pilihan ialah baldi S3, tetapi jadual DynamoDB dan Amazon RedShift juga pilihan.
Pilih sumber data anda dan buat pengelas jika perlu. Pengelas membaca data dan menjana skema jika ia mengenali format. Anda boleh membuat pengelas tersuai untuk dilihat jenis data yang berbeza.
Buat perangkak.
Sediakan nama untuk perangkak, kemudian pilih sumber data anda dan tambahkan sebarang pengelas tersuai untuk memastikan AWS Glue mengenali data dengan betul.
Sediakan peranan Pengurusan Identiti dan Akses (IAM) untuk memastikan perangkak dapat menjalankan proses dengan betul.
Buat pangkalan data yang akan menyimpan set data. Tetapkan masa dan kekerapan perangkak berfungsi untuk memastikan data anda sentiasa segar dan terkini.
Jalankan perangkak. Proses ini boleh mengambil sedikit masa bergantung kepada betapa besarnya set data. Setelah perangkak berjaya dijalankan, anda akan melakukannya lihat perubahan pada jadual dalam pangkalan data.
Sekarang anda telah menyelesaikan proses ini, anda boleh melompat ke Amazon Athena dan jalankan pertanyaan yang anda perlukan untuk menapis data dan dapatkan hasil yang anda cari.
Atas ialah kandungan terperinci Cara menggunakan perangkak AWS Glue dengan Amazon Athena. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!