効率的なデータインポートのためにRedshiftのコピーコマンドを使用して
このガイドは、非常に効率的なコマンドを使用して、大規模なデータセットをAmazon Redshiftにインポートすることを示しています。例として、公開されている「Twitter Data for Sentiment Analysis」データセット(Sentiment140)を使用します。 注:Redshift、PostgreSQL、MySQL、Microsoft SQL Server(Mac、Linux、およびWindowsで利用可能)と互換性のあるマルチプラットフォームデータベースクライアントであるTeamSQLは、接続プロセスを促進できます。 TeamSQLを無料でダウンロードできます。トレーニングデータzipファイルをダウンロードしてください
copy vs. insert:
COPY
stl_load_errors
MAXERROR
COPY
この例では、これらの仕様を備えた赤方偏移クラスターを想定しています。
ノードタイプ:dc1.large
ゾーン:us-east-1a
CREATE DATABASE sentiment;
CREATE SCHEMA tweets;
polarity
(int):0(否定)、2(中立)、4(陽性)id
(bigint):ツイートID date_of_tweet
(varchar):ツイート日付query
(varchar):query(or "no_query")user_id
(varchar):user idtweet
(varchar):Tweet TextCREATE DATABASE sentiment;
training.1600000.processed.noemoticon.csv
gzip training.1600000.processed.noemoticon.csv
圧縮されたファイル(training.1600000.processed.noemoticon.csv.gz
sentiment
コピーコマンドでデータのインポート:
このコマンドをTeamSQLで実行し、プレースホルダーを実際の値に置き換えます。
CREATE SCHEMA tweets;
:CSVファイル形式を指定します
:gzip圧縮を示します。CSV
:無効なUTF-8文字を処理します。 この詳細については、GZIP
ACCEPTINVCHARS
DELIMITER
トラブルシューティング:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
インポートエラーの場合はを確認してください:
CREATE DATABASE sentiment;
この包括的なガイドは、COPY
コマンドを使用して大規模なデータセットをRedshiftにインポートする詳細なウォークスルーを提供します。最新の情報と高度なオプションについては、公式のRedshiftドキュメントを参照してください。
以上がコピーコマンドを使用してデータをRedshiftにインポートしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。