首頁 > 科技週邊 > IT業界 > 使用複制命令將數據導入紅移

使用複制命令將數據導入紅移

Lisa Kudrow
發布: 2025-02-16 12:55:09
原創
235 人瀏覽過

使用Redshift的複制命令進行有效的數據導入

本指南使用高效的COPY命令演示了將大型數據集導入到亞馬遜紅移中。我們將以公開可用的“情感分析Twitter數據”數據集(Sentiment140)為例。 注意:TeamSQL是一種多平台數據庫客戶端,與RedShift,PostgreSQL,MySQL和Microsoft SQL Server兼容(可用於Mac,Linux和Windows),可以簡化連接過程。 您可以免費下載TeamSQL。在此處下載培訓數據zip文件

關鍵因素:

    複製與插入:
  • 由於其並行處理功能,大型數據導入的命令的命令明顯更快。 COPY>數據源:您的數據必須在S3中。建議使用CSV格式。 壓縮(例如,GZIP)減少了傳輸時間。
  • >
  • 錯誤處理:利用
  • 的系統表來診斷導入問題。儘管遇到有限的錯誤,但
  • 選項允許命令繼續進行。 > stl_load_errors MAXERROR COPY設置紅移環境:
>

在此示例中,我們將假設具有這些規格的紅移群集:> 群集類型:單節點

節點類型:dc1.large

    區域:us-east-1a
  • >創建一個數據庫:
  1. 創建一個架構:
CREATE DATABASE sentiment;
登入後複製
登入後複製
登入後複製
  1. 了解數據結構:
  2. >
CREATE SCHEMA tweets;
登入後複製
登入後複製
> csv文件(triending.1600000.processed.noemoticon)包含:
  • polarity(int):0(否定),2(中性),4(正)
  • >
  • >id(bigint):tweet ID
  • >date_of_tweet(varchar):tweet Date
  • query(varchar):query(或“ no_query”)
  • >
  • > user_id(varchar):用戶ID
  • >tweet(varchar):tweet text
  1. 創建一個表:
CREATE DATABASE sentiment;
登入後複製
登入後複製
登入後複製
  1. 上傳到S3:
    >解壓縮下載的文件。
  • compress
  • 使用gzip(例如,training.1600000.processed.noemoticon.csv)。 gzip training.1600000.processed.noemoticon.csv>
  • >將壓縮文件(
  • )上傳到您的S3存儲桶中。 或者,使用AWS CLI上傳。 training.1600000.processed.noemoticon.csv.gz
  1. >與TeamsQl: 連接
安裝和配置Teamsql。
  • 創建一個紅移連接,指定群集詳細信息和
  • >數據庫。
  • sentiment測試連接。
>
    (可選)在TeamSQL中重新創建架構和表格:
  1. 如果您更喜歡在TeamSQL中管理架構和表創建,請在TeamsSQL接口中重複步驟2和4。

Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command Import Data into Redshift Using the COPY Command >用複制命令導入數據:

> 在TeamSQL中執行此命令,用您的實際值代替佔位符:>

CREATE SCHEMA tweets;
登入後複製
登入後複製

>命令參數:Import Data into Redshift Using the COPY Command

:指定CSV文件格式。

>
  • :指示gzip壓縮。 CSV
  • :處理無效的UTF-8字符。 有關此選項的詳細信息,請參見Redshift文檔,例如GZIP>。
  • ACCEPTINVCHARS驗證導入:DELIMITER

>故障排除:
CREATE TABLE tweets.training (
    polarity INT,
    id BIGINT,
    date_of_tweet VARCHAR,
    query VARCHAR,
    user_id VARCHAR,
    tweet VARCHAR(MAX)
);
登入後複製

對於任何導入錯誤: checkImport Data into Redshift Using the COPY Command

CREATE DATABASE sentiment;
登入後複製
登入後複製
登入後複製

本綜合指南提供了使用COPY>命令將大型數據集導入紅移的詳細演練。請記住,請諮詢官方的紅移文檔以獲取最新信息和高級選項。

>

以上是使用複制命令將數據導入紅移的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板