이 집중 16주(4개월) 데이터 엔지니어링 부트 캠프는 Python, SQL, 클라우드 플랫폼(Azure 및 AWS), Apache Airflow, Kafka, Spark 등에 대한 포괄적인 교육을 제공합니다.
일정:
-
월요일~목요일: 강의 및 실습
-
금요일: 업계 멘토십 또는 동료 공동 프로젝트
-
토요일: 전용 랩 세션 및 프로젝트 기반 학습
모듈 1: 데이터 엔지니어링 기초(1~4주)
1주 차: 온보딩 및 설정
-
월요일: 환영합니다. 과정 개요, 진로, 도구 소개
-
화요일: 클라우드 컴퓨팅 개요(Azure 및 AWS).
-
수요일: 데이터 거버넌스, 보안 및 규정 준수
-
목요일: SQL 기초 및 PostgreSQL 설정
-
금요일: 동료 프로젝트: 환경 설정 과제
-
토요일(실험실): 미니 프로젝트: PostgreSQL 및 Azure Blob Storage를 사용한 기본 파이프라인
2주차: SQL 마스터하기
-
월요일: 핵심 SQL(SELECT, WHERE, JOIN, GROUP BY).
-
화요일: 고급 SQL(재귀 쿼리, 창 함수, CTE).
-
수요일: 쿼리 최적화 및 실행 계획
-
목요일: 데이터 모델링(정규화, 비정규화, 별형 스키마)
-
금요일: Job Shadowing: SQL 쿼리 최적화 기술 관찰
-
토요일(실험실): 미니 프로젝트: 스타 스키마 설계 및 SQL 기반 데이터 분석
3주 차: 데이터 파이프라인 소개
-
월요일: ETL/ELT 워크플로우 이론
-
화요일: 실습: CSV 데이터를 위한 Python 기반 ETL 파이프라인
-
수요일: ETL 모범 사례
-
목요일: 실습: 일괄 데이터 처리를 위한 Python ETL 파이프라인
-
금요일: 피어 프로젝트: 협업 ETL 워크플로우 설계
-
토요일(실험실): 미니 프로젝트: 영업 데이터 처리를 위한 ETL 파이프라인
4주차: Apache Airflow 기초
-
월요일: Apache Airflow, DAG 및 예약 소개
-
화요일: 실습: 기본 Airflow DAG 설정 및 생성
-
수요일: Airflow DAG 모범 사례 및 예약
-
목요일: 실습: PostgreSQL 및 Azure Blob Storage와 Airflow 통합
-
금요일: 직업 체험: 실제 Airflow 파이프라인 관찰
-
토요일(실험실): 미니 프로젝트: Airflow를 사용한 ETL 파이프라인 자동화
모듈 2: 중급 기술(5~8주차)
5주차: 데이터 웨어하우징 및 레이크
-
월요일: 데이터 웨어하우징(OLAP 대 OLTP, 파티셔닝, 클러스터링)
-
화요일: 실습: Amazon Redshift 및 Snowflake 작업
-
수요일: 데이터 레이크 및 레이크하우스 아키텍처
-
목요일: 실습: Delta Lake 설정
-
금요일: 피어 프로젝트: 데이터 웨어하우스 및 데이터 레이크 모델 구현
-
토요일(실험실): 미니 프로젝트: 기본 Lakehouse 아키텍처 설계 및 구현
6주차: 데이터 거버넌스 및 보안
-
월요일: 데이터 거버넌스 프레임워크 및 보안 원칙
-
화요일: 실습: 액세스 제어를 위해 AWS Lake Formation 사용
-
수요일: 민감한 데이터 및 규정 준수 관리(GDPR, HIPAA)
-
목요일: 실습: S3 및 Azure Blob Storage에서 보안 정책 구현
-
금요일: 직업 체험: 거버넌스 정책 적용 관찰
-
토요일(실험실): 미니 프로젝트: AWS와 Azure를 활용한 클라우드 데이터 보안
7주 차: Kafka를 사용한 실시간 데이터
-
월요일: 실시간 데이터 스트리밍을 위한 Apache Kafka 소개
-
화요일: 실습: Kafka 생산자와 소비자 설정
-
수요일: Kafka 주제, 파티션 및 메시지 브로커
-
목요일: 실습: 실시간 업데이트를 위해 Kafka를 PostgreSQL과 통합
-
금요일: 피어 프로젝트: 실시간 Kafka 파이프라인 구축
-
토요일(실험실): 미니 프로젝트: Kafka로 전자상거래 데이터 스트리밍
8주 차: 일괄 처리와 스트림 처리
-
월요일: 일괄 처리와 스트림 처리 비교
-
화요일: 실습: PySpark를 사용한 일괄 처리
-
수요일: 일괄 처리 및 스트림 처리 워크플로 결합
-
목요일: 실습: Apache Flink 및 Spark Streaming을 사용한 실시간 처리
-
금요일: Job Shadowing: 실시간 처리 파이프라인 관찰
-
토요일(실험실): 미니 프로젝트: 하이브리드 배치/실시간 파이프라인 구축
모듈 3: 고급 데이터 엔지니어링(9~12주)
9주차: 데이터 파이프라인의 ML 통합
-
월요일: 데이터 엔지니어링의 ML 워크플로 개요
-
화요일: 실습: Pandas 및 PySpark를 사용한 ML용 데이터 전처리
-
수요일: 특성 추출 및 자동화된 특성 추출
-
목요일: 실습: Apache Airflow를 사용하여 기능 추출 자동화
-
금요일: 피어 프로젝트: ML 모델을 통합하는 파이프라인 구축
-
토요일(실험실): 미니 프로젝트: ML 기반 추천 시스템 구축
10주 차: 빅 데이터를 위한 Spark 및 PySpark
-
월요일: Apache Spark 소개
-
화요일: 실습: Spark 및 PySpark 설정
-
수요일: Spark RDD, DataFrames 및 SQL
-
목요일: 실습: Spark SQL을 사용하여 대규모 데이터세트 분석
-
금요일: 피어 프로젝트: 대규모 데이터 처리를 위한 PySpark 파이프라인 구축
-
토요일(실험실): 미니 프로젝트: Spark 및 PySpark를 사용하여 대규모 데이터세트 분석
11주차: 고급 Apache Airflow
-
월요일: 고급 Airflow 기능(XCom, 작업 종속성).
-
화요일: 실습: 동적 DAG 및 작업 종속성 구현
-
수요일: 공기 흐름 예약, 모니터링 및 오류 처리
-
목요일: 실습: 다단계 ETL 파이프라인을 위한 복잡한 DAG 생성
-
금요일: 직업 체험: 고급 Airflow 파이프라인 구현 관찰
-
토요일(실험실): 미니 프로젝트: 고급 Airflow DAG 설계
12주차: 데이터 레이크 및 델타 레이크
-
월요일: 데이터 레이크, 레이크하우스 및 Delta Lake 아키텍처
-
화요일: 실습: AWS에서 Delta Lake 설정
-
수요일: Delta Lake에서 스키마 진화를 관리합니다.
-
목요일: 실습: Delta Lake에 일괄 및 실시간 데이터 로드 구현
-
금요일: 동료 프로젝트: 레이크하우스 건축 설계
-
토요일(실험실): 미니 프로젝트: 확장 가능한 Delta Lake 아키텍처 구현
모듈 4: 캡스톤 프로젝트(13~16주)
13~16주차: 캡스톤 프로젝트 개발 및 발표
이번 주에는 배치 데이터 파이프라인(전자상거래 판매 분석)과 실시간 데이터 파이프라인(IoT 센서 모니터링)이라는 두 가지 주요 캡스톤 프로젝트를 개발하고 발표하는 데 중점을 두고 두 가지를 모두 보여주는 통합 솔루션으로 마무리합니다. 마지막 주에는 업계 전문가와 강사를 대상으로 한 프로젝트 프리젠테이션이 진행됩니다.
위 내용은 종합적인 LuxDevHQ 데이터 엔지니어링 코스 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!