使用Redshift的复制命令进行有效的数据导入
本指南使用高效的COPY
命令演示了将大型数据集导入到亚马逊红移中。我们将以公开可用的“情感分析Twitter数据”数据集(Sentiment140)为例。 注意:TeamSQL是一种多平台数据库客户端,与RedShift,PostgreSQL,MySQL和Microsoft SQL Server兼容(可用于Mac,Linux和Windows),可以简化连接过程。 您可以免费下载TeamSQL。在此处下载培训数据zip文件。
COPY
>数据源:stl_load_errors
MAXERROR
COPY
设置红移环境:在此示例中,我们将假设具有这些规格的红移群集:
节点类型:dc1.large
CREATE DATABASE sentiment;
CREATE SCHEMA tweets;
polarity
(int):0(否定),2(中性),4(正)id
(bigint):tweet IDdate_of_tweet
(varchar):tweet Datequery
(varchar):query(或“ no_query”)user_id
(varchar):用户ID tweet
(varchar):tweet textCREATE DATABASE sentiment;
training.1600000.processed.noemoticon.csv
)。gzip training.1600000.processed.noemoticon.csv
>
training.1600000.processed.noemoticon.csv.gz
sentiment
测试连接。
>用复制命令导入数据:
>
在TeamSQL中执行此命令,用您的实际值代替占位符:
CREATE SCHEMA tweets;
>命令参数:
:指定CSV文件格式。
>CSV
GZIP
>。
ACCEPTINVCHARS
验证导入:DELIMITER
>故障排除:
CREATE TABLE tweets.training ( polarity INT, id BIGINT, date_of_tweet VARCHAR, query VARCHAR, user_id VARCHAR, tweet VARCHAR(MAX) );
对于任何导入错误: 本综合指南提供了使用 以上是使用复制命令将数据导入红移的详细内容。更多信息请关注PHP中文网其他相关文章!CREATE DATABASE sentiment;
COPY
>命令将大型数据集导入红移的详细演练。请记住,请咨询官方的红移文档以获取最新信息和高级选项。