menggunakan arahan salinan redshift untuk import data yang cekap
Panduan ini menunjukkan mengimport dataset besar ke Amazon Redshift menggunakan arahan COPY
yang sangat cekap. Kami akan menggunakan dataset "Data Twitter untuk Analisis Sentimen" yang tersedia secara terbuka (sentimen140) sebagai contoh. Nota: TeamSQL, pelanggan pangkalan data pelbagai platform yang serasi dengan RedShift, PostgreSQL, MySQL, dan Microsoft SQL Server (tersedia untuk Mac, Linux, dan Windows), boleh memudahkan proses sambungan. Anda boleh memuat turun TeamSQL secara percuma. Muat turun fail zip data latihan di sini .
Pertimbangan utama:
COPY
stl_load_errors
untuk meneruskan walaupun menghadapi beberapa kesilapan yang terhad. MAXERROR
COPY
Untuk contoh ini, kami akan menganggap kluster redshift dengan spesifikasi ini:
Jenis kluster: nod tunggal
CREATE DATABASE sentiment;
CREATE SCHEMA tweets;
polarity
id
date_of_tweet
query
user_id
(varchar): Teks tweet tweet
CREATE DATABASE sentiment;
training.1600000.processed.noemoticon.csv
gzip training.1600000.processed.noemoticon.csv
training.1600000.processed.noemoticon.csv.gz
sentiment
(Pilihan) Cipta semula skema dan jadual dalam TeamSQL: mengimport data dengan arahan salinan:
Jalankan arahan ini dalam TeamSQL, menggantikan ruang letak dengan nilai sebenar anda:
Parameter perintah:
CREATE SCHEMA tweets;
: Menentukan format fail CSV.
: Menunjukkan mampatan gzip.
: Mengendalikan aksara UTF-8 yang tidak sah. Lihat dokumentasi redshift untuk butiran mengenai pilihan ini dan lain -lain sepertiCSV
GZIP
ACCEPTINVCHARS
DELIMITER
semak
untuk sebarang kesilapan import:CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
CREATE DATABASE sentiment;
Panduan Komprehensif ini menyediakan langkah terperinci untuk mengimport dataset besar ke dalam redshift menggunakan arahan COPY
. Ingatlah untuk berunding dengan dokumentasi Redshift rasmi untuk maklumat terkini dan pilihan lanjutan.
Atas ialah kandungan terperinci Import data ke redshift menggunakan arahan salinan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!