Heim > Technologie-Peripheriegeräte > IT Industrie > Importieren Sie Daten mit dem Befehl kopieren

Importieren Sie Daten mit dem Befehl kopieren

Lisa Kudrow
Freigeben: 2025-02-16 12:55:09
Original
230 Leute haben es durchsucht

Verwenden von RedShifts Kopiebefehl für effiziente Datenimport

Diese Anleitung demonstriert das Importieren großer Datensätze in Amazon Redshift mithilfe des Befehls COPY. Wir werden als Beispiel den öffentlich verfügbaren Datensatz "Twitter -Daten für die Sentimentanalyse" (Sentiment140) verwenden. HINWEIS: Teamsql, ein mit Redshift, Postgresql, MySQL und Microsoft SQL Server (verfügbar für Mac, Linux und Windows verfügbar), können den Verbindungsprozess erleichtern. Sie können Teamsql kostenlos herunterladen. Laden Sie die Trainingsdaten -ZIP -Datei hier herunter .

Schlüsselüberlegungen:

  • kopieren vs. Einfügen: Der Befehl COPY ist für große Datenimporte aufgrund seiner parallelen Verarbeitungsfunktionen erheblich schneller.
  • Datenquelle: Ihre Daten müssen in S3 sein. CSV -Format wird empfohlen. Komprimierung (z. B. GZIP) reduziert die Übertragungszeiten.
  • Fehlerbehandlung: Verwenden Sie die Systemtabelle stl_load_errors, um Importprobleme zu diagnostizieren. Mit der Option MAXERROR ermöglicht es dem Befehl COPY, trotz einer begrenzten Anzahl von Fehlern vorzugehen.

Einrichten Ihrer Rotverschiebungsumgebung:

für dieses Beispiel werden wir mit diesen Spezifikationen einen Rotverschiebungscluster annehmen:

  • Clustertyp: Einzelknoten
  • Knotentyp: dc1.large
  • Zone: US-East-1a
  1. Erstellen Sie eine Datenbank:
CREATE DATABASE sentiment;
Nach dem Login kopieren
Nach dem Login kopieren
Nach dem Login kopieren
  1. Erstellen Sie ein Schema:
CREATE SCHEMA tweets;
Nach dem Login kopieren
Nach dem Login kopieren
  1. Verstehen Sie die Datenstruktur:

Die CSV -Datei (Training.1600000.Processed.noemoticon) enthält:

  • polarity (int): 0 (negativ), 2 (neutral), 4 (positiv)
  • id (Bigint): Tweet ID
  • date_of_tweet (varchar): Tweet -Datum
  • query (varchar): Abfrage (oder "no_query")
  • user_id (varchar): Benutzer -ID
  • tweet (varchar): Tweet text
  1. Erstellen Sie eine Tabelle:
CREATE DATABASE sentiment;
Nach dem Login kopieren
Nach dem Login kopieren
Nach dem Login kopieren
  1. Auf S3 hochladen:
  • die heruntergeladene Datei entpacken.
  • komprimieren training.1600000.processed.noemoticon.csv mit GZIP (z. B. gzip training.1600000.processed.noemoticon.csv).
  • Laden Sie die komprimierte Datei (training.1600000.processed.noemoticon.csv.gz) in Ihren S3 -Bucket hoch. Alternativ verwenden Sie die AWS -CLI zum Hochladen.
  1. verbinden Sie sich mit TeamSQL:
  • installieren und konfigurieren Sie Teamsql.
  • Erstellen Sie eine Redshift -Verbindung, geben Sie Ihre Clusterdetails und die sentiment -Datenbank an.
  • testen Sie die Verbindung.
  1. (optional) Erstellen Sie Schema und Tabelle in TeamsQL: Wenn Sie das Schema und die Tabellenerstellung innerhalb von TeamsQL vorziehen, wiederholen Sie die Schritte 2 und 4 in der TeamsQL -Schnittstelle.

Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command

Daten mit dem Befehl kopieren:

Führen Sie diesen Befehl in teamSQL aus und ersetzen Sie die Platzhalter durch Ihre tatsächlichen Werte:

CREATE SCHEMA tweets;
Nach dem Login kopieren
Nach dem Login kopieren

Import Data into Redshift Using the COPY Command

Befehlsparameter:

  • CSV: Gibt das CSV -Dateiformat an.
  • GZIP: Zeigt die GZIP -Komprimierung an.
  • ACCEPTINVCHARS: Verarbeitet ungültige UTF-8-Zeichen. Weitere Informationen zu diesen und anderen Optionen wie DELIMITER finden Sie unter Redshift -Dokumentation.

Überprüfen Sie den Import:

CREATE TABLE tweets.training (
    polarity INT,
    id BIGINT,
    date_of_tweet VARCHAR,
    query VARCHAR,
    user_id VARCHAR,
    tweet VARCHAR(MAX)
);
Nach dem Login kopieren

Import Data into Redshift Using the COPY Command

Fehlerbehebung:

prüfen Sie stl_load_errors für Importfehler:

CREATE DATABASE sentiment;
Nach dem Login kopieren
Nach dem Login kopieren
Nach dem Login kopieren

Dieser umfassende Leitfaden bietet eine detaillierte Anleitung zum Importieren großer Datensätze in Rotverschiebung mit dem Befehl COPY. Denken Sie daran, die offizielle Redshift-Dokumentation für die aktuellsten Informationen und erweiterten Optionen zu konsultieren.

Das obige ist der detaillierte Inhalt vonImportieren Sie Daten mit dem Befehl kopieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage