en utilisant la commande de copie de Redshift pour une importation efficace de données
Ce guide montre l'importation de grands ensembles de données dans Amazon Redshift à l'aide de la commande très efficace COPY
. Nous utiliserons le jeu de données "Twitter Data for Sentiment" accessible au public (Sentiment140) par exemple. Remarque: TeamSQL, un client de base de données multiplateforme compatible avec Redshift, PostgreSQL, MySQL et Microsoft SQL Server (disponible pour Mac, Linux et Windows), peut faciliter le processus de connexion. Vous pouvez télécharger GRATUITEMENT CEADSQL. Téléchargez les données de formation Fichier zip ici .
Considérations clés:
COPY
est considérablement plus rapide pour les grandes importations de données en raison de ses capacités de traitement parallèles. stl_load_errors
pour diagnostiquer les problèmes d'importation. L'option MAXERROR
permet à la commande COPY
de poursuivre malgré la rencontre d'un nombre limité d'erreurs. Configuration de votre environnement de décalage vers le rouge:
Pour cet exemple, nous supposerons un cluster de décalage vers le rouge avec ces spécifications:
CREATE DATABASE sentiment;
CREATE SCHEMA tweets;
Le fichier CSV (formation.1600000.processed.noemoticon) contient:
polarity
(int): 0 (négatif), 2 (neutre), 4 (positif) id
(BigInt): Tweet ID date_of_tweet
(Varchar): Tweet Date query
(varchar): requête (ou "no_query") user_id
(Varchar): ID utilisateur tweet
(Varchar): Tweeter Text CREATE DATABASE sentiment;
training.1600000.processed.noemoticon.csv
en utilisant gzip (par exemple, gzip training.1600000.processed.noemoticon.csv
). training.1600000.processed.noemoticon.csv.gz
) sur votre seau S3. Alternativement, utilisez la CLI AWS pour le téléchargement. sentiment
.
Importation de données avec la commande de copie:
Exécutez cette commande dans TeamSQL, en remplaçant les espaces réservés par vos valeurs réelles:
CREATE SCHEMA tweets;
Paramètres de commande:
CSV
: Spécifie le format de fichier CSV. GZIP
: indique la compression GZIP. ACCEPTINVCHARS
: gère les caractères UTF-8 non valides. Voir la documentation de Redshift pour plus de détails sur cette option et dans d'autres options comme DELIMITER
. Vérifiez l'importation:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
Dépannage:
Vérifiez stl_load_errors
pour toute erreur d'importation:
CREATE DATABASE sentiment;
Ce guide complet fournit une procédure pas à pas détaillée de l'importation de grands ensembles de données dans Redshift à l'aide de la commande COPY
. N'oubliez pas de consulter la documentation officielle de décalage vers le reds pour les informations les plus à jour et les options avancées.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!