Verwenden von RedShifts Kopiebefehl für effiziente Datenimport
Diese Anleitung demonstriert das Importieren großer Datensätze in Amazon Redshift mithilfe des Befehls COPY
. Wir werden als Beispiel den öffentlich verfügbaren Datensatz "Twitter -Daten für die Sentimentanalyse" (Sentiment140) verwenden. HINWEIS: Teamsql, ein mit Redshift, Postgresql, MySQL und Microsoft SQL Server (verfügbar für Mac, Linux und Windows verfügbar), können den Verbindungsprozess erleichtern. Sie können Teamsql kostenlos herunterladen. Laden Sie die Trainingsdaten -ZIP -Datei hier herunter .
Schlüsselüberlegungen:
COPY
ist für große Datenimporte aufgrund seiner parallelen Verarbeitungsfunktionen erheblich schneller. stl_load_errors
, um Importprobleme zu diagnostizieren. Mit der Option MAXERROR
ermöglicht es dem Befehl COPY
, trotz einer begrenzten Anzahl von Fehlern vorzugehen. Einrichten Ihrer Rotverschiebungsumgebung:
für dieses Beispiel werden wir mit diesen Spezifikationen einen Rotverschiebungscluster annehmen:
CREATE DATABASE sentiment;
CREATE SCHEMA tweets;
Die CSV -Datei (Training.1600000.Processed.noemoticon) enthält:
polarity
(int): 0 (negativ), 2 (neutral), 4 (positiv) id
(Bigint): Tweet ID date_of_tweet
(varchar): Tweet -Datum query
(varchar): Abfrage (oder "no_query") user_id
(varchar): Benutzer -ID tweet
(varchar): Tweet text CREATE DATABASE sentiment;
training.1600000.processed.noemoticon.csv
mit GZIP (z. B. gzip training.1600000.processed.noemoticon.csv
). training.1600000.processed.noemoticon.csv.gz
) in Ihren S3 -Bucket hoch. Alternativ verwenden Sie die AWS -CLI zum Hochladen. sentiment
-Datenbank an.
Daten mit dem Befehl kopieren:
Führen Sie diesen Befehl in teamSQL aus und ersetzen Sie die Platzhalter durch Ihre tatsächlichen Werte:
CREATE SCHEMA tweets;
Befehlsparameter:
CSV
: Gibt das CSV -Dateiformat an. GZIP
: Zeigt die GZIP -Komprimierung an. ACCEPTINVCHARS
: Verarbeitet ungültige UTF-8-Zeichen. Weitere Informationen zu diesen und anderen Optionen wie DELIMITER
finden Sie unter Redshift -Dokumentation. Überprüfen Sie den Import:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
Fehlerbehebung:
prüfen Sie stl_load_errors
für Importfehler:
CREATE DATABASE sentiment;
Dieser umfassende Leitfaden bietet eine detaillierte Anleitung zum Importieren großer Datensätze in Rotverschiebung mit dem Befehl COPY
. Denken Sie daran, die offizielle Redshift-Dokumentation für die aktuellsten Informationen und erweiterten Optionen zu konsultieren.
Das obige ist der detaillierte Inhalt vonImportieren Sie Daten mit dem Befehl kopieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!