효율적인 데이터 가져 오기에 redshift의 사본 명령을 사용하는 명령을 사용하여 대형 데이터 세트를 Amazon Redshift로 가져 오는 것을 보여줍니다. 공개적으로 사용 가능한 "감정 분석을위한 Twitter Data"데이터 세트 (Sentiment140)를 예로 사용하겠습니다. 참고 : Redshift, PostgreSQL, MySQL 및 Microsoft SQL Server (Mac, Linux 및 Windows에서 사용 가능)와 호환되는 멀티 플랫폼 데이터베이스 클라이언트 인 TeamSQL은 연결 프로세스를 용이하게 할 수 있습니다. TeamSQL을 무료로 다운로드 할 수 있습니다. 훈련 데이터 zip 파일
이 예에서는 다음과 같은 사양으로 적색 편이 클러스터를 가정합니다.
<: :> 클러스터 유형 : 단일 노드
<: :> 노드 유형 : dc1.large
Zone : US-East-1a
COPY
복사 대 삽입 : 명령은 병렬 처리 기능으로 인해 대규모 데이터 가져 오기에 대해 훨씬 빠릅니다.
데이터 출처 : 데이터는 S3에 있어야합니다. CSV 형식이 권장됩니다. 압축 (예 : GZIP)은 전달 시간을 줄입니다
오류 처리 : 시스템 테이블을 사용하여 가져 오기 문제를 진단하십시오. 옵션은 제한된 수의 오류가 발생 했음에도 불구하고 명령이 진행할 수 있도록합니다.
COPY
stl_load_errors
(int) : 0 (음수), 2 (중립), 4 (양수)
(bigint) : 트윗 ID
(Varchar) : 트윗 날짜
(varchar) : query (또는 "no_query")
(varchar) : 사용자 ID
polarity
id
date_of_tweet
S3에 업로드 : query
user_id
tweet
TeamSQL 내에서 스키마 및 테이블 작성을 선호하는 경우 TeamSQL 인터페이스 내에서 2 단계와 4 단계를 반복하십시오.
CREATE DATABASE sentiment;
<<>
<<>
<🎜 🎜>
training.1600000.processed.noemoticon.csv
와 같은 다른 옵션에 대한 자세한 내용은 Redshift 문서를 참조하십시오.
gzip training.1600000.processed.noemoticon.csv
training.1600000.processed.noemoticon.csv.gz
<<> 가져 오기 오류에 대해서는 <🎜 🎜>를 점검하십시오
CREATE DATABASE sentiment;
위 내용은 사본 명령을 사용하여 데이터를 적색 편이로 가져옵니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!