Heim > Backend-Entwicklung > Python-Tutorial > Umfassender LuxDevHQ Data Engineering-Kursführer

Umfassender LuxDevHQ Data Engineering-Kursführer

Linda Hamilton
Freigeben: 2025-01-21 22:11:14
Original
623 Leute haben es durchsucht

Comprehensive LuxDevHQ Data Engineering Course Guide

Dieses intensive 16-wöchige (4-monatige) Data-Engineering-Bootcamp bietet umfassende Schulungen in Python, SQL, Cloud-Plattformen (Azure und AWS), Apache Airflow, Kafka, Spark und mehr.

Zeitplan:

  • Montag - Donnerstag:Vorlesungen und praktische Übungen.
  • Freitag: Branchen-Mentoring oder gemeinsame Peer-Projekte.
  • Samstag:Dedizierte Laborsitzungen und projektbasiertes Lernen.

Modul 1: Data Engineering-Grundlagen (Woche 1-4)

Woche 1: Onboarding & Setup

  • Montag:Begrüßung, Kursübersicht, Karrierewege, Tool-Einführungen.
  • Dienstag: Cloud Computing-Übersicht (Azure & AWS).
  • Mittwoch:Datenverwaltung, Sicherheit und Compliance.
  • Donnerstag:SQL-Grundlagen und PostgreSQL-Setup.
  • Freitag: Peer-Projekt: Herausforderungen bei der Umgebungseinrichtung.
  • Samstag (Lab):Miniprojekt: Grundlegende Pipeline mit PostgreSQL und Azure Blob Storage.

Woche 2: SQL beherrschen

  • Montag: Core SQL (SELECT, WHERE, JOIN, GROUP BY).
  • Dienstag: Erweitertes SQL (rekursive Abfragen, Fensterfunktionen, CTEs).
  • Mittwoch:Abfrageoptimierung und Ausführungspläne.
  • Donnerstag: Datenmodellierung (Normalisierung, Denormalisierung, Sternschemata).
  • Freitag: Job Shadowing: Beobachtung von Techniken zur SQL-Abfrageoptimierung.
  • Samstag (Lab):Miniprojekt: Star-Schema-Design und SQL-basierte Datenanalyse.

Woche 3: Einführung in die Datenpipeline

  • Montag: ETL/ELT-Workflow-Theorie.
  • Dienstag:Labor: Python-basierte ETL-Pipeline für CSV-Daten.
  • Mittwoch:Best Practices für ETL.
  • Donnerstag: Labor: Python ETL-Pipeline für die Stapeldatenverarbeitung.
  • Freitag: Peer-Projekt: Kollaboratives ETL-Workflow-Design.
  • Samstag (Lab):Miniprojekt: ETL-Pipeline für die Vertriebsdatenverarbeitung.

Woche 4: Apache Airflow-Grundlagen

  • Montag: Einführung in Apache Airflow, DAGs und Terminplanung.
  • Dienstag:Lab: Einrichten und Erstellen eines einfachen Airflow-DAG.
  • Mittwoch:Best Practices und Planung für Airflow DAG.
  • Donnerstag:Lab: Integration von Airflow mit PostgreSQL und Azure Blob Storage.
  • Freitag: Job-Shadowing: Beobachtung der Luftströmungspipeline unter realen Bedingungen.
  • Samstag (Lab):Miniprojekt: Automatisierung einer ETL-Pipeline mit Airflow.

Modul 2: Mittlere Fähigkeiten (Woche 5-8)

Woche 5: Data Warehousing & Lakes

  • Montag:Data Warehousing (OLAP vs. OLTP, Partitionierung, Clustering).
  • Dienstag:Labor: Arbeiten mit Amazon Redshift und Snowflake.
  • Mittwoch:Datenseen und Lakehouse-Architektur.
  • Donnerstag:Labor: Delta Lake aufbauen.
  • Freitag: Peer-Projekt: Implementierung eines Data Warehouse- und Data-Lake-Modells.
  • Samstag (Lab):Miniprojekt: Entwurf und Implementierung einer grundlegenden Lakehouse-Architektur.

Woche 6: Datenverwaltung und -sicherheit

  • Montag: Data-Governance-Frameworks und Sicherheitsprinzipien.
  • Dienstag:Labor: Verwendung von AWS Lake Formation für die Zugangskontrolle.
  • Mittwoch:Verwaltung sensibler Daten und Compliance (DSGVO, HIPAA).
  • Donnerstag:Labor: Implementierung von Sicherheitsrichtlinien in S3 und Azure Blob Storage.
  • Freitag: Job Shadowing: Beobachtung der Anwendung von Governance-Richtlinien.
  • Samstag (Lab):Miniprojekt: Cloud-Daten mit AWS und Azure sichern.

Woche 7: Echtzeitdaten mit Kafka

  • Montag: Einführung in Apache Kafka für Echtzeit-Datenstreaming.
  • Dienstag:Labor: Einrichten eines Kafka-Produzenten und -Konsumenten.
  • Mittwoch:Kafka-Themen, Partitionen und Nachrichtenbroker.
  • Donnerstag:Lab: Integration von Kafka mit PostgreSQL für Echtzeit-Updates.
  • Freitag: Peer-Projekt: Aufbau einer Echtzeit-Kafka-Pipeline.
  • Samstag (Lab):Miniprojekt: Streaming von E-Commerce-Daten mit Kafka.

Woche 8: Batch- vs. Stream-Verarbeitung

  • Montag: Vergleich zwischen Batch- und Stream-Verarbeitung.
  • Dienstag:Labor: Stapelverarbeitung mit PySpark.
  • Mittwoch:Kombination von Batch- und Stream-Verarbeitungsworkflows.
  • Donnerstag:Labor: Echtzeitverarbeitung mit Apache Flink und Spark Streaming.
  • Freitag: Job Shadowing: Beobachtung einer Echtzeit-Verarbeitungspipeline.
  • Samstag (Lab):Miniprojekt: Aufbau einer Hybrid-Batch-/Echtzeit-Pipeline.

Modul 3: Advanced Data Engineering (Woche 9-12)

Woche 9: ML-Integration in Datenpipelines

  • Montag:Überblick über ML-Workflows im Data Engineering.
  • Dienstag:Labor: Datenvorverarbeitung für ML mit Pandas und PySpark.
  • Mittwoch: Feature-Engineering und automatisierte Feature-Extraktion.
  • Donnerstag:Labor: Automatisierung der Feature-Extraktion mit Apache Airflow.
  • Freitag: Peer-Projekt: Aufbau einer Pipeline zur Integration von ML-Modellen.
  • Samstag (Lab):Miniprojekt: Aufbau eines ML-gestützten Empfehlungssystems.

Woche 10: Spark & ​​PySpark für Big Data

  • Montag:Einführung in Apache Spark.
  • Dienstag:Labor: Einrichten von Spark und PySpark.
  • Mittwoch: Spark RDDs, DataFrames und SQL.
  • Donnerstag:Labor: Analyse großer Datensätze mit Spark SQL.
  • Freitag: Peer-Projekt: Aufbau einer PySpark-Pipeline für die Datenverarbeitung im großen Maßstab.
  • Samstag (Lab):Miniprojekt: Analyse großer Datensätze mit Spark und PySpark.

Woche 11: Erweiterter Apache Airflow

  • Montag: Erweiterte Airflow-Funktionen (XCom, Aufgabenabhängigkeiten).
  • Dienstag:Labor: Implementierung dynamischer DAGs und Aufgabenabhängigkeiten.
  • Mittwoch: Luftstromplanung, Überwachung und Fehlerbehandlung.
  • Donnerstag:Labor: Erstellen komplexer DAGs für mehrstufige ETL-Pipelines.
  • Freitag: Job Shadowing: Beobachtung fortgeschrittener Airflow-Pipeline-Implementierungen.
  • Samstag (Lab):Miniprojekt: Entwurf eines fortschrittlichen Airflow-DAG.

Woche 12: Data Lakes & Delta Lake

  • Montag: Datenseen, Seehäuser und Delta-Lake-Architektur.
  • Dienstag:Labor: Einrichten von Delta Lake auf AWS.
  • Mittwoch:Schemaentwicklung in Delta Lake verwalten.
  • Donnerstag:Labor: Batch- und Echtzeit-Datenladen in Delta Lake implementieren.
  • Freitag: Peer-Projekt: Entwurf einer Lakehouse-Architektur.
  • Samstag (Lab):Miniprojekt: Implementierung einer skalierbaren Delta-Lake-Architektur.

Modul 4: Abschlussprojekte (Woche 13–16)

Wochen 13–16: Capstone-Projektentwicklung und Präsentation

Diese Wochen konzentrieren sich auf die Entwicklung und Präsentation zweier wichtiger Schlussprojekte: einer Batch-Datenpipeline (E-Commerce-Verkaufsanalyse) und einer Echtzeit-Datenpipeline (IoT-Sensorüberwachung), die in einer integrierten Lösung gipfelt, die beide präsentiert. Die letzte Woche beinhaltet Projektpräsentationen vor Branchenexperten und Ausbildern.

Das obige ist der detaillierte Inhalt vonUmfassender LuxDevHQ Data Engineering-Kursführer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage