Import data ke redshift menggunakan arahan salinan
menggunakan arahan salinan redshift untuk import data yang cekap
Panduan ini menunjukkan mengimport dataset besar ke Amazon Redshift menggunakan arahan COPY
yang sangat cekap. Kami akan menggunakan dataset "Data Twitter untuk Analisis Sentimen" yang tersedia secara terbuka (sentimen140) sebagai contoh. Nota: TeamSQL, pelanggan pangkalan data pelbagai platform yang serasi dengan RedShift, PostgreSQL, MySQL, dan Microsoft SQL Server (tersedia untuk Mac, Linux, dan Windows), boleh memudahkan proses sambungan. Anda boleh memuat turun TeamSQL secara percuma. Muat turun fail zip data latihan di sini .
Pertimbangan utama:
- Salin vs. Masukkan:
Perintah jauh lebih cepat untuk import data yang besar disebabkan oleh keupayaan pemprosesan selari.COPY
- Sumber Data:
Data anda mesti berada di S3. Format CSV disyorkan. Mampatan (mis., GZIP) mengurangkan masa pemindahan. Pengendalian ralat: - Gunakan jadual sistem untuk mendiagnosis isu import. Pilihan membolehkan perintah
stl_load_errors
untuk meneruskan walaupun menghadapi beberapa kesilapan yang terhad.MAXERROR
COPY
Untuk contoh ini, kami akan menganggap kluster redshift dengan spesifikasi ini:
Jenis kluster: nod tunggal
- Jenis nod: dc1.large
- Zon: US-East-1a
- Buat pangkalan data:
CREATE DATABASE sentiment;
- Buat skema:
CREATE SCHEMA tweets;
- Memahami struktur data:
- fail CSV (latihan.1600000.processed.noemoticon) mengandungi:
-
(int): 0 (negatif), 2 (neutral), 4 (positif) polarity
- (bigint): Tweet ID
id
- (varchar): Tarikh tweet
date_of_tweet
-
query
(varchar): id pengguna -
user_id
(varchar): Teks tweet -
tweet
CREATE DATABASE sentiment;
- unzip fail yang dimuat turun.
- compress menggunakan gzip (mis., ).
- Muat naik fail termampat (
- ) ke baldi S3 anda. Sebagai alternatif, gunakan AWS CLI untuk memuat naik.
-
training.1600000.processed.noemoticon.csv
gzip training.1600000.processed.noemoticon.csv
Sambung dengan TeamSQL: -
training.1600000.processed.noemoticon.csv.gz
- Pasang dan konfigurasikan TeamSQL.
- Buat sambungan redshift, nyatakan butiran kluster anda dan pangkalan data .
-
sentiment
(Pilihan) Cipta semula skema dan jadual dalam TeamSQL: Jika anda lebih suka menguruskan skema dan penciptaan meja dalam TeamSQL, ulangi langkah 2 dan 4 dalam antara muka TeamSQL.
mengimport data dengan arahan salinan:
Jalankan arahan ini dalam TeamSQL, menggantikan ruang letak dengan nilai sebenar anda:
Parameter perintah:
CREATE SCHEMA tweets;
: Menentukan format fail CSV.
: Menunjukkan mampatan gzip.
: Mengendalikan aksara UTF-8 yang tidak sah. Lihat dokumentasi redshift untuk butiran mengenai pilihan ini dan lain -lain seperti- .
-
CSV
- Sahkan import:
GZIP
-
ACCEPTINVCHARS
DELIMITER
semak
untuk sebarang kesilapan import:CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
CREATE DATABASE sentiment;
Panduan Komprehensif ini menyediakan langkah terperinci untuk mengimport dataset besar ke dalam redshift menggunakan arahan COPY
. Ingatlah untuk berunding dengan dokumentasi Redshift rasmi untuk maklumat terkini dan pilihan lanjutan.
Atas ialah kandungan terperinci Import data ke redshift menggunakan arahan salinan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Program perintis ini, kerjasama antara CNCF (Yayasan Pengkomputeran Native Cloud), pengkomputeran ampere, equinix metal, dan digerakkan, menyelaraskan ARM64 CI/CD untuk projek GitHub CNCF. Inisiatif ini menangani kebimbangan keselamatan dan prestasi lim

Tutorial ini membimbing anda melalui membina saluran paip pemprosesan imej tanpa pelayan menggunakan perkhidmatan AWS. Kami akan membuat frontend next.js yang digunakan pada kluster ECS Fargate, berinteraksi dengan Gateway API, Fungsi Lambda, Bucket S3, dan DynamoDB. Th

Tinggal maklumat mengenai trend teknologi terkini dengan surat berita pemaju teratas ini! Senarai ini menawarkan sesuatu untuk semua orang, dari peminat AI ke pemaju backend dan frontend yang berpengalaman. Pilih kegemaran anda dan menjimatkan masa mencari rel

Teka -teki dan penyelesaian CI/CD untuk perisian sumber terbuka dalam seni bina ARM64 Menggunakan perisian sumber terbuka pada seni bina ARM64 memerlukan persekitaran CI/CD yang kuat. Walau bagaimanapun, terdapat perbezaan antara tahap sokongan ARM64 dan seni bina pemproses tradisional x86, yang sering merugikan. Pemaju komponen infrastruktur untuk pelbagai seni bina mempunyai jangkaan tertentu untuk persekitaran kerja mereka: Konsistensi: Alat dan kaedah yang digunakan di seluruh platform adalah konsisten, mengelakkan keperluan untuk mengubah proses pembangunan disebabkan penggunaan platform yang kurang popular. Prestasi: Platform dan mekanisme sokongan mempunyai prestasi yang baik untuk memastikan senario penempatan tidak terjejas oleh kelajuan yang tidak mencukupi apabila menyokong pelbagai platform. Liputan Ujian: Kecekapan, Pematuhan dan

Pembangunan perisian telekom yang disesuaikan tidak dapat diragukan lagi merupakan pelaburan yang besar. Walau bagaimanapun, dalam jangka masa panjang, anda mungkin menyedari bahawa projek sedemikian mungkin lebih kos efektif kerana ia dapat meningkatkan produktiviti anda seperti penyelesaian siap sedia di pasaran. Memahami kelebihan yang paling penting untuk membina sistem telekomunikasi yang disesuaikan. Dapatkan ciri tepat yang anda perlukan Terdapat dua masalah yang berpotensi dengan perisian telekomunikasi di luar rak yang boleh anda beli. Sesetengah kekurangan ciri berguna yang dapat meningkatkan produktiviti anda dengan ketara. Kadang -kadang anda dapat meningkatkannya dengan beberapa integrasi luaran, tetapi itu tidak selalu cukup untuk menjadikannya hebat. Perisian lain mempunyai terlalu banyak fungsi dan terlalu rumit untuk digunakan. Anda mungkin tidak akan menggunakan beberapa perkara ini (tidak pernah!). Sebilangan besar ciri biasanya menambah harga. Berdasarkan keperluan anda
