목차
데이터 엔지니어링이란 무엇인가요?
개발 환경 설정
1. 데이터 스토리지: 데이터베이스 및 파일 시스템
PostgreSQL 설정
2. 데이터 처리: PySpark 및 분산 컴퓨팅
PySpark를 사용한 데이터 처리
3. 워크플로우 자동화: Airflow
Airflow를 통한 ETL 자동화
4. 시스템 모니터링
결론
백엔드 개발 파이썬 튜토리얼 데이터 엔지니어링 기초: 실습 가이드

데이터 엔지니어링 기초: 실습 가이드

Jan 13, 2025 pm 10:33 PM

데이터 엔지니어링 ETL 파이프라인 구축을 위한 실무 가이드입니다. 이 가이드는 저장, 처리, 자동화, 모니터링을 다루는 데이터 엔지니어링 기본 사항을 이해하고 구현하는 실무적인 접근 방식을 제공합니다.

데이터 엔지니어링이란 무엇인가요?

데이터 엔지니어링은 원시 데이터를 분석 및 의사 결정을 위한 귀중한 통찰력으로 변환하기 위해 데이터 워크플로를 구성, 처리 및 자동화하는 데 중점을 둡니다. 이 가이드에서는 다음 내용을 다룹니다.

  1. 데이터 저장: 데이터가 저장되는 위치와 방법을 정의합니다.
  2. 데이터 처리: 원시 데이터를 정리하고 변환하는 기술
  3. 워크플로 자동화: 원활하고 효율적인 워크플로 실행을 구현합니다.
  4. 시스템 모니터링: 전체 데이터 파이프라인의 신뢰성과 원활한 작동을 보장합니다.

각 스테이지를 살펴볼까요!


개발 환경 설정

시작하기 전에 다음 사항을 확인하세요.

  1. 환경 설정:
    • Unix 기반 시스템(macOS) 또는 Linux용 Windows 하위 시스템(WSL)
    • Python 3.11(또는 그 이상)이 설치되어 있습니다.
    • PostgreSQL 데이터베이스가 로컬에 설치되어 실행 중입니다.
  2. 전제 조건:
    • 기본적인 명령줄 숙련도.
    • Python 프로그래밍의 기초 지식
    • 소프트웨어 설치 및 구성을 위한 관리 권한
  3. 건축 개요: Data Engineering Foundations: A Hands-On Guide

다이어그램은 파이프라인 구성 요소 간의 상호 작용을 보여줍니다. 이 모듈식 설계는 워크플로 조정을 위한 Airflow, 분산 데이터 처리를 위한 Spark, 구조화된 데이터 저장을 위한 PostgreSQL 등 각 도구의 장점을 활용합니다.

  1. 필요한 도구 설치:
    • PostgreSQL:

      1

      2

      brew update

      brew install postgresql

      로그인 후 복사
      로그인 후 복사
      로그인 후 복사
    • PySpark:

      1

      brew install apache-spark

      로그인 후 복사
      로그인 후 복사
      로그인 후 복사
    • 공기 흐름:

      1

      2

      3

      4

      python -m venv airflow_env

      source airflow_env/bin/activate  # macOS/Linux

      pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt"

      airflow db migrate

      로그인 후 복사
      로그인 후 복사
      로그인 후 복사

Data Engineering Foundations: A Hands-On Guide

환경이 준비되었으니 각 구성 요소를 살펴보겠습니다.


1. 데이터 스토리지: 데이터베이스 및 파일 시스템

데이터 스토리지는 모든 데이터 엔지니어링 파이프라인의 기초입니다. 두 가지 기본 카테고리를 고려해 보겠습니다.

  • 데이터베이스: 검색, 복제, 인덱싱과 같은 기능을 통해 효율적으로 구성된 데이터 스토리지입니다. 예는 다음과 같습니다.
    • SQL 데이터베이스: 구조화된 데이터용(예: PostgreSQL, MySQL)
    • NoSQL 데이터베이스: 스키마 없는 데이터(예: MongoDB, Redis)용.
  • 파일 시스템: 구조화되지 않은 데이터에 적합하며 데이터베이스보다 적은 기능을 제공합니다.

PostgreSQL 설정

  1. PostgreSQL 서비스 시작:

1

2

brew update

brew install postgresql

로그인 후 복사
로그인 후 복사
로그인 후 복사

Data Engineering Foundations: A Hands-On Guide

  1. 데이터베이스 생성, 연결 및 테이블 생성:

1

brew install apache-spark

로그인 후 복사
로그인 후 복사
로그인 후 복사
  1. 샘플 데이터 삽입:

1

2

3

4

python -m venv airflow_env

source airflow_env/bin/activate  # macOS/Linux

pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt"

airflow db migrate

로그인 후 복사
로그인 후 복사
로그인 후 복사

Data Engineering Foundations: A Hands-On Guide

이제 데이터가 PostgreSQL에 안전하게 저장되었습니다.


2. 데이터 처리: PySpark 및 분산 컴퓨팅

데이터 처리 프레임워크는 원시 데이터를 실행 가능한 통찰력으로 변환합니다. 분산 컴퓨팅 기능을 갖춘 Apache Spark가 인기 있는 선택입니다.

  • 처리 모드:
    • 일괄 처리: 고정된 크기의 일괄 처리로 데이터를 처리합니다.
    • 스트림 처리: 실시간으로 데이터를 처리합니다.
  • 공용 도구: Apache Spark, Flink, Kafka, Hive

PySpark를 사용한 데이터 처리

  1. Java 및 PySpark 설치:

1

brew services start postgresql

로그인 후 복사
  1. CSV 파일에서 데이터 로드:

다음 데이터를 사용하여 sales.csv 파일을 만듭니다.

1

2

3

4

5

6

7

8

CREATE DATABASE sales_data;

\c sales_data

CREATE TABLE sales (

    id SERIAL PRIMARY KEY,

    item_name TEXT,

    amount NUMERIC,

    sale_date DATE

);

로그인 후 복사

다음 Python 스크립트를 사용하여 데이터를 로드하고 처리합니다.

1

2

3

INSERT INTO sales (item_name, amount, sale_date)

VALUES ('Laptop', 1200, '2024-01-10'),

       ('Phone', 800, '2024-01-12');

로그인 후 복사

Data Engineering Foundations: A Hands-On Guide Data Engineering Foundations: A Hands-On Guide

  1. 고가치 매출 필터링:

1

brew install openjdk@11 && brew install apache-spark

로그인 후 복사

Data Engineering Foundations: A Hands-On Guide Spark UI - High-Value Sales

  1. Postgres DB 드라이버 설정: 필요한 경우 PostgreSQL JDBC 드라이버를 다운로드하고 아래 스크립트에서 경로를 업데이트하세요.

  2. 처리된 데이터를 PostgreSQL에 저장:

1

2

brew update

brew install postgresql

로그인 후 복사
로그인 후 복사
로그인 후 복사

Data Engineering Foundations: A Hands-On Guide Data Engineering Foundations: A Hands-On Guide Data Engineering Foundations: A Hands-On Guide

Spark를 이용한 데이터 처리가 완료되었습니다.


3. 워크플로우 자동화: Airflow

자동화는 예약 및 종속성 정의를 사용하여 워크플로 관리를 간소화합니다. Airflow, Oozie 및 Luigi와 같은 도구가 이를 용이하게 합니다.

Airflow를 통한 ETL 자동화

  1. 공기 흐름 초기화:

1

brew install apache-spark

로그인 후 복사
로그인 후 복사
로그인 후 복사

Data Engineering Foundations: A Hands-On Guide Create Airflow User

  1. 워크플로(DAG) 만들기:

1

2

3

4

python -m venv airflow_env

source airflow_env/bin/activate  # macOS/Linux

pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt"

airflow db migrate

로그인 후 복사
로그인 후 복사
로그인 후 복사

이 DAG는 매일 실행되고 PySpark 스크립트를 실행하며 확인 단계를 포함합니다. 실패 시 이메일 알림이 전송됩니다.

  1. 워크플로 모니터링: Airflow의 dags/ 디렉터리에 DAG 파일을 배치하고 Airflow 서비스를 다시 시작한 다음 http://localhost:8080에서 Airflow UI를 통해 모니터링합니다.

Data Engineering Foundations: A Hands-On Guide


4. 시스템 모니터링

모니터링을 통해 파이프라인 안정성이 보장됩니다. Airflow의 경고 또는 Grafana 및 Prometheus와 같은 도구와의 통합은 효과적인 모니터링 전략입니다. Airflow UI를 사용하여 작업 상태 및 로그를 확인하세요.

Data Engineering Foundations: A Hands-On Guide


결론

데이터 저장소를 설정하고, PySpark를 사용하여 데이터를 처리하고, Airflow를 사용하여 워크플로를 자동화하고, 시스템을 모니터링하는 방법을 배웠습니다. 데이터 엔지니어링은 중요한 분야이며, 이 가이드는 추가 탐색을 위한 강력한 기반을 제공합니다. 더 자세한 정보를 보려면 제공된 참고 자료를 참조하세요.

위 내용은 데이터 엔지니어링 기초: 실습 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?

파이썬의 이미지 필터링 파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

파이썬의 이미지 필터링

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Mar 10, 2025 pm 06:52 PM

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?

파이썬의 병렬 및 동시 프로그래밍 소개 파이썬의 병렬 및 동시 프로그래밍 소개 Mar 03, 2025 am 10:32 AM

파이썬의 병렬 및 동시 프로그래밍 소개

파이썬의 수학 모듈 : 통계 파이썬의 수학 모듈 : 통계 Mar 09, 2025 am 11:40 AM

파이썬의 수학 모듈 : 통계

파이썬 객체의 직렬화 및 사제화 : 1 부 파이썬 객체의 직렬화 및 사제화 : 1 부 Mar 08, 2025 am 09:39 AM

파이썬 객체의 직렬화 및 사제화 : 1 부

파이썬에서 자신의 데이터 구조를 구현하는 방법 파이썬에서 자신의 데이터 구조를 구현하는 방법 Mar 03, 2025 am 09:28 AM

파이썬에서 자신의 데이터 구조를 구현하는 방법

See all articles