使用Redshift的複制命令進行有效的數據導入
本指南使用高效的COPY
命令演示了將大型數據集導入到亞馬遜紅移中。我們將以公開可用的“情感分析Twitter數據”數據集(Sentiment140)為例。 注意:TeamSQL是一種多平台數據庫客戶端,與RedShift,PostgreSQL,MySQL和Microsoft SQL Server兼容(可用於Mac,Linux和Windows),可以簡化連接過程。 您可以免費下載TeamSQL。在此處下載培訓數據zip文件。
COPY
>數據源:stl_load_errors
MAXERROR
COPY
設置紅移環境:在此示例中,我們將假設具有這些規格的紅移群集:
節點類型:dc1.large
CREATE DATABASE sentiment;
CREATE SCHEMA tweets;
polarity
(int):0(否定),2(中性),4(正)id
(bigint):tweet IDdate_of_tweet
(varchar):tweet Datequery
(varchar):query(或“ no_query”)user_id
(varchar):用戶ID tweet
(varchar):tweet textCREATE DATABASE sentiment;
training.1600000.processed.noemoticon.csv
)。 gzip training.1600000.processed.noemoticon.csv
>
training.1600000.processed.noemoticon.csv.gz
sentiment
測試連接。
>用複制命令導入數據:
>
在TeamSQL中執行此命令,用您的實際值代替佔位符:
CREATE SCHEMA tweets;
>命令參數:
:指定CSV文件格式。
>CSV
GZIP
>。
ACCEPTINVCHARS
驗證導入:DELIMITER
>故障排除:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
對於任何導入錯誤: 本綜合指南提供了使用 以上是使用複制命令將數據導入紅移的詳細內容。更多資訊請關注PHP中文網其他相關文章!CREATE DATABASE sentiment;
COPY
>命令將大型數據集導入紅移的詳細演練。請記住,請諮詢官方的紅移文檔以獲取最新信息和高級選項。