Rumah > Peranti teknologi > industri IT > Import data ke redshift menggunakan arahan salinan

Import data ke redshift menggunakan arahan salinan

Lisa Kudrow
Lepaskan: 2025-02-16 12:55:09
asal
230 orang telah melayarinya

menggunakan arahan salinan redshift untuk import data yang cekap

Panduan ini menunjukkan mengimport dataset besar ke Amazon Redshift menggunakan arahan COPY yang sangat cekap. Kami akan menggunakan dataset "Data Twitter untuk Analisis Sentimen" yang tersedia secara terbuka (sentimen140) sebagai contoh. Nota: TeamSQL, pelanggan pangkalan data pelbagai platform yang serasi dengan RedShift, PostgreSQL, MySQL, dan Microsoft SQL Server (tersedia untuk Mac, Linux, dan Windows), boleh memudahkan proses sambungan. Anda boleh memuat turun TeamSQL secara percuma. Muat turun fail zip data latihan di sini .

Pertimbangan utama:

  • Salin vs. Masukkan: Perintah jauh lebih cepat untuk import data yang besar disebabkan oleh keupayaan pemprosesan selari. COPY
  • Sumber Data: Data anda mesti berada di S3. Format CSV disyorkan. Mampatan (mis., GZIP) mengurangkan masa pemindahan.
  • Pengendalian ralat:
  • Gunakan jadual sistem untuk mendiagnosis isu import. Pilihan membolehkan perintah stl_load_errors untuk meneruskan walaupun menghadapi beberapa kesilapan yang terhad. MAXERROR COPY
Menyediakan persekitaran redshift anda:

Untuk contoh ini, kami akan menganggap kluster redshift dengan spesifikasi ini:

Jenis kluster: nod tunggal
  • Jenis nod: dc1.large
  • Zon: US-East-1a
    Buat pangkalan data:
CREATE DATABASE sentiment;
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk
    Buat skema:
CREATE SCHEMA tweets;
Salin selepas log masuk
Salin selepas log masuk
    Memahami struktur data:
  1. fail CSV (latihan.1600000.processed.noemoticon) mengandungi:
  • (int): 0 (negatif), 2 (neutral), 4 (positif) polarity
  • (bigint): Tweet ID id
  • (varchar): Tarikh tweet date_of_tweet
  • (varchar): pertanyaan (atau "no_query")
  • query (varchar): id pengguna
  • user_id (varchar): Teks tweet
  • tweet
Buat Jadual:
  • muat naik ke S3:
    CREATE DATABASE sentiment;
    Salin selepas log masuk
    Salin selepas log masuk
    Salin selepas log masuk
      unzip fail yang dimuat turun.
    1. compress menggunakan gzip (mis.,
    2. ).
      Muat naik fail termampat (
    • ) ke baldi S3 anda. Sebagai alternatif, gunakan AWS CLI untuk memuat naik.
    • training.1600000.processed.noemoticon.csv gzip training.1600000.processed.noemoticon.csv
    • Sambung dengan TeamSQL:
    • training.1600000.processed.noemoticon.csv.gz
      Pasang dan konfigurasikan TeamSQL.
    1. Buat sambungan redshift, nyatakan butiran kluster anda dan pangkalan data .
    Uji sambungan.
    • sentiment (Pilihan) Cipta semula skema dan jadual dalam TeamSQL:
    • Jika anda lebih suka menguruskan skema dan penciptaan meja dalam TeamSQL, ulangi langkah 2 dan 4 dalam antara muka TeamSQL.

    mengimport data dengan arahan salinan: Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Jalankan arahan ini dalam TeamSQL, menggantikan ruang letak dengan nilai sebenar anda: Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command

    Parameter perintah:

    CREATE SCHEMA tweets;
    Salin selepas log masuk
    Salin selepas log masuk

    : Menentukan format fail CSV. Import Data into Redshift Using the COPY Command

    : Menunjukkan mampatan gzip.

    : Mengendalikan aksara UTF-8 yang tidak sah. Lihat dokumentasi redshift untuk butiran mengenai pilihan ini dan lain -lain seperti
      .
    • CSV
    • Sahkan import: GZIP
    • ACCEPTINVCHARS DELIMITER
    Penyelesaian masalah:

    semak

    untuk sebarang kesilapan import:
    CREATE TABLE tweets.training (
        polarity INT,
        id BIGINT,
        date_of_tweet VARCHAR,
        query VARCHAR,
        user_id VARCHAR,
        tweet VARCHAR(MAX)
    );
    Salin selepas log masuk
    CREATE DATABASE sentiment;
    Salin selepas log masuk
    Salin selepas log masuk
    Salin selepas log masuk

    Panduan Komprehensif ini menyediakan langkah terperinci untuk mengimport dataset besar ke dalam redshift menggunakan arahan COPY. Ingatlah untuk berunding dengan dokumentasi Redshift rasmi untuk maklumat terkini dan pilihan lanjutan.

    Atas ialah kandungan terperinci Import data ke redshift menggunakan arahan salinan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

    Kenyataan Laman Web ini
    Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
    Artikel terbaru oleh pengarang
    Tutorial Popular
    Lagi>
    Muat turun terkini
    Lagi>
    kesan web
    Kod sumber laman web
    Bahan laman web
    Templat hujung hadapan