ホームページ > テクノロジー周辺機器 > IT業界 > コピーコマンドを使用してデータをRedshiftにインポートします

コピーコマンドを使用してデータをRedshiftにインポートします

Lisa Kudrow
リリース: 2025-02-16 12:55:09
オリジナル
230 人が閲覧しました

効率的なデータインポートのためにRedshiftのコピーコマンドを使用して

このガイドは、非常に効率的なコマンドを使用して、大規模なデータセットをAmazon Redshiftにインポートすることを示しています。例として、公開されている「Twitter Data for Sentiment Analysis」データセット(Sentiment140)を使用します。 注:Redshift、PostgreSQL、MySQL、Microsoft SQL Server(Mac、Linux、およびWindowsで利用可能)と互換性のあるマルチプラットフォームデータベースクライアントであるTeamSQLは、接続プロセスを促進できます。 TeamSQLを無料でダウンロードできます。トレーニングデータzipファイルをダウンロードしてください

COPY 主要な考慮事項:

copy vs. insert:
    コマンドは、並列処理機能により、大規模なデータインポートの場合は大幅に高速です。
  • データソース:データはS3にある必要があります。 CSV形式をお勧めします。 圧縮(GZIPなど)は転送時間を短縮します COPY
  • エラー処理:
  • システムテーブルを使用して、インポートの問題を診断します。 オプションは、限られた数のエラーに遭遇したにもかかわらず、
  • コマンドを続行できるようにします。
  • redshift環境のセットアップ:stl_load_errorsMAXERROR COPYこの例では、これらの仕様を備えた赤方偏移クラスターを想定しています。
クラスタータイプ:シングルノード

ノードタイプ:dc1.large

ゾーン:us-east-1a

  • データベースを作成します:
  1. スキーマを作成します:
CREATE DATABASE sentiment;
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー
  1. データ構造を理解してください:
CSVファイル(Training.1600000.Processed.NoeMoticon)が含まれます:
CREATE SCHEMA tweets;
ログイン後にコピー
ログイン後にコピー
  • polarity(int):0(否定)、2(中立)、4(陽性)
  • id(bigint):ツイートID
  • date_of_tweet(varchar):ツイート日付
  • query(varchar):query(or "no_query")
  • user_id(varchar):user id
  • tweet(varchar):Tweet Text
  1. テーブルを作成:
CREATE DATABASE sentiment;
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー
  1. s3:
  2. にアップロードします
    ダウンロードされたファイルを解凍します
  • gzip(例えば、
  • )を使用して
  • compresstraining.1600000.processed.noemoticon.csv gzip training.1600000.processed.noemoticon.csv圧縮されたファイル(
  • )をS3バケツにアップロードします。 または、アップロードにAWS CLIを使用してください。
  • training.1600000.processed.noemoticon.csv.gz
    TeamSQLに接続:
TeamSQLをインストールして構成します。
  • レッドシフト接続を作成し、クラスターの詳細と
  • データベースを指定します。
  • 接続をテストします。sentiment
(オプション)TeamQLのスキーマとテーブルを再作成します:
    TeamSQL内のスキーマとテーブルの作成を管理する場合は、TeamQLインターフェイス内でステップ2と4を繰り返します。

Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command コピーコマンドでデータのインポート:Import Data into Redshift Using the COPY Command

このコマンドをTeamSQLで実行し、プレースホルダーを実際の値に置き換えます。

CREATE SCHEMA tweets;
ログイン後にコピー
ログイン後にコピー
コマンドパラメーター:

Import Data into Redshift Using the COPY Command

:CSVファイル形式を指定します

:gzip圧縮を示します。
  • CSV:無効なUTF-8文字を処理します。 この詳細については、
  • GZIP
  • インポートを確認してください:
  • ACCEPTINVCHARS DELIMITER

トラブルシューティング:

CREATE TABLE tweets.training (
    polarity INT,
    id BIGINT,
    date_of_tweet VARCHAR,
    query VARCHAR,
    user_id VARCHAR,
    tweet VARCHAR(MAX)
);
ログイン後にコピー

インポートエラーの場合はImport Data into Redshift Using the COPY Command を確認してください:

CREATE DATABASE sentiment;
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー

この包括的なガイドは、COPYコマンドを使用して大規模なデータセットをRedshiftにインポートする詳細なウォークスルーを提供します。最新の情報と高度なオプションについては、公式のRedshiftドキュメントを参照してください。

以上がコピーコマンドを使用してデータをRedshiftにインポートしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート