Maison > Périphériques technologiques > Industrie informatique > Importez des données dans Redshift à l'aide de la commande Copie

Importez des données dans Redshift à l'aide de la commande Copie

Lisa Kudrow
Libérer: 2025-02-16 12:55:09
original
241 Les gens l'ont consulté

en utilisant la commande de copie de Redshift pour une importation efficace de données

Ce guide montre l'importation de grands ensembles de données dans Amazon Redshift à l'aide de la commande très efficace COPY. Nous utiliserons le jeu de données "Twitter Data for Sentiment" accessible au public (Sentiment140) par exemple. Remarque: TeamSQL, un client de base de données multiplateforme compatible avec Redshift, PostgreSQL, MySQL et Microsoft SQL Server (disponible pour Mac, Linux et Windows), peut faciliter le processus de connexion. Vous pouvez télécharger GRATUITEMENT CEADSQL. Téléchargez les données de formation Fichier zip ici .

Considérations clés:

  • Copier par rapport à l'insert: La commande COPY est considérablement plus rapide pour les grandes importations de données en raison de ses capacités de traitement parallèles.
  • Source de données: Vos données doivent être dans S3. Le format CSV est recommandé. La compression (par exemple, GZIP) réduit les temps de transfert.
  • Gestion des erreurs: Utilisez la table système stl_load_errors pour diagnostiquer les problèmes d'importation. L'option MAXERROR permet à la commande COPY de poursuivre malgré la rencontre d'un nombre limité d'erreurs.

Configuration de votre environnement de décalage vers le rouge:

Pour cet exemple, nous supposerons un cluster de décalage vers le rouge avec ces spécifications:

  • Type de cluster: nœud unique
  • Type de nœud: dc1.large
  • Zone: US-East-1A
  1. Créer une base de données:
CREATE DATABASE sentiment;
Copier après la connexion
Copier après la connexion
Copier après la connexion
  1. Créer un schéma:
CREATE SCHEMA tweets;
Copier après la connexion
Copier après la connexion
  1. Comprendre la structure des données:

Le fichier CSV (formation.1600000.processed.noemoticon) contient:

  • polarity (int): 0 (négatif), 2 (neutre), 4 (positif)
  • id (BigInt): Tweet ID
  • date_of_tweet (Varchar): Tweet Date
  • query (varchar): requête (ou "no_query")
  • user_id (Varchar): ID utilisateur
  • tweet (Varchar): Tweeter Text
  1. Créez une table:
CREATE DATABASE sentiment;
Copier après la connexion
Copier après la connexion
Copier après la connexion
  1. Téléchargez sur S3:
  • dézip le fichier téléchargé.
  • compress training.1600000.processed.noemoticon.csv en utilisant gzip (par exemple, gzip training.1600000.processed.noemoticon.csv).
  • Téléchargez le fichier compressé (training.1600000.processed.noemoticon.csv.gz) sur votre seau S3. Alternativement, utilisez la CLI AWS pour le téléchargement.
  1. Connectez-vous avec TeamSQL:
  • installer et configurer Teamsql.
  • Créez une connexion à décalage vers le rouge, en spécifiant les détails de votre cluster et la base de données sentiment.
  • tester la connexion.
  1. (Facultatif) Recréer le schéma et la table dans TeamSQL: Si vous préférez gérer le schéma et la création de table dans TeamSQL, répétez les étapes 2 et 4 dans l'interface TeamSQL.

Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command

Importation de données avec la commande de copie:

Exécutez cette commande dans TeamSQL, en remplaçant les espaces réservés par vos valeurs réelles:

CREATE SCHEMA tweets;
Copier après la connexion
Copier après la connexion

Import Data into Redshift Using the COPY Command

Paramètres de commande:

  • CSV: Spécifie le format de fichier CSV.
  • GZIP: indique la compression GZIP.
  • ACCEPTINVCHARS: gère les caractères UTF-8 non valides. Voir la documentation de Redshift pour plus de détails sur cette option et dans d'autres options comme DELIMITER.

Vérifiez l'importation:

CREATE TABLE tweets.training (
    polarity INT,
    id BIGINT,
    date_of_tweet VARCHAR,
    query VARCHAR,
    user_id VARCHAR,
    tweet VARCHAR(MAX)
);
Copier après la connexion

Import Data into Redshift Using the COPY Command

Dépannage:

Vérifiez stl_load_errors pour toute erreur d'importation:

CREATE DATABASE sentiment;
Copier après la connexion
Copier après la connexion
Copier après la connexion

Ce guide complet fournit une procédure pas à pas détaillée de l'importation de grands ensembles de données dans Redshift à l'aide de la commande COPY. N'oubliez pas de consulter la documentation officielle de décalage vers le reds pour les informations les plus à jour et les options avancées.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal