Dieses intensive 16-wöchige (4-monatige) Data-Engineering-Bootcamp bietet umfassende Schulungen in Python, SQL, Cloud-Plattformen (Azure und AWS), Apache Airflow, Kafka, Spark und mehr.
Zeitplan:
-
Montag - Donnerstag:Vorlesungen und praktische Übungen.
-
Freitag: Branchen-Mentoring oder gemeinsame Peer-Projekte.
-
Samstag:Dedizierte Laborsitzungen und projektbasiertes Lernen.
Modul 1: Data Engineering-Grundlagen (Woche 1-4)
Woche 1: Onboarding & Setup
-
Montag:Begrüßung, Kursübersicht, Karrierewege, Tool-Einführungen.
-
Dienstag: Cloud Computing-Übersicht (Azure & AWS).
-
Mittwoch:Datenverwaltung, Sicherheit und Compliance.
-
Donnerstag:SQL-Grundlagen und PostgreSQL-Setup.
-
Freitag: Peer-Projekt: Herausforderungen bei der Umgebungseinrichtung.
-
Samstag (Lab):Miniprojekt: Grundlegende Pipeline mit PostgreSQL und Azure Blob Storage.
Woche 2: SQL beherrschen
-
Montag: Core SQL (SELECT, WHERE, JOIN, GROUP BY).
-
Dienstag: Erweitertes SQL (rekursive Abfragen, Fensterfunktionen, CTEs).
-
Mittwoch:Abfrageoptimierung und Ausführungspläne.
-
Donnerstag: Datenmodellierung (Normalisierung, Denormalisierung, Sternschemata).
-
Freitag: Job Shadowing: Beobachtung von Techniken zur SQL-Abfrageoptimierung.
-
Samstag (Lab):Miniprojekt: Star-Schema-Design und SQL-basierte Datenanalyse.
Woche 3: Einführung in die Datenpipeline
-
Montag: ETL/ELT-Workflow-Theorie.
-
Dienstag:Labor: Python-basierte ETL-Pipeline für CSV-Daten.
-
Mittwoch:Best Practices für ETL.
-
Donnerstag: Labor: Python ETL-Pipeline für die Stapeldatenverarbeitung.
-
Freitag: Peer-Projekt: Kollaboratives ETL-Workflow-Design.
-
Samstag (Lab):Miniprojekt: ETL-Pipeline für die Vertriebsdatenverarbeitung.
Woche 4: Apache Airflow-Grundlagen
-
Montag: Einführung in Apache Airflow, DAGs und Terminplanung.
-
Dienstag:Lab: Einrichten und Erstellen eines einfachen Airflow-DAG.
-
Mittwoch:Best Practices und Planung für Airflow DAG.
-
Donnerstag:Lab: Integration von Airflow mit PostgreSQL und Azure Blob Storage.
-
Freitag: Job-Shadowing: Beobachtung der Luftströmungspipeline unter realen Bedingungen.
-
Samstag (Lab):Miniprojekt: Automatisierung einer ETL-Pipeline mit Airflow.
Modul 2: Mittlere Fähigkeiten (Woche 5-8)
Woche 5: Data Warehousing & Lakes
-
Montag:Data Warehousing (OLAP vs. OLTP, Partitionierung, Clustering).
-
Dienstag:Labor: Arbeiten mit Amazon Redshift und Snowflake.
-
Mittwoch:Datenseen und Lakehouse-Architektur.
-
Donnerstag:Labor: Delta Lake aufbauen.
-
Freitag: Peer-Projekt: Implementierung eines Data Warehouse- und Data-Lake-Modells.
-
Samstag (Lab):Miniprojekt: Entwurf und Implementierung einer grundlegenden Lakehouse-Architektur.
Woche 6: Datenverwaltung und -sicherheit
-
Montag: Data-Governance-Frameworks und Sicherheitsprinzipien.
-
Dienstag:Labor: Verwendung von AWS Lake Formation für die Zugangskontrolle.
-
Mittwoch:Verwaltung sensibler Daten und Compliance (DSGVO, HIPAA).
-
Donnerstag:Labor: Implementierung von Sicherheitsrichtlinien in S3 und Azure Blob Storage.
-
Freitag: Job Shadowing: Beobachtung der Anwendung von Governance-Richtlinien.
-
Samstag (Lab):Miniprojekt: Cloud-Daten mit AWS und Azure sichern.
Woche 7: Echtzeitdaten mit Kafka
-
Montag: Einführung in Apache Kafka für Echtzeit-Datenstreaming.
-
Dienstag:Labor: Einrichten eines Kafka-Produzenten und -Konsumenten.
-
Mittwoch:Kafka-Themen, Partitionen und Nachrichtenbroker.
-
Donnerstag:Lab: Integration von Kafka mit PostgreSQL für Echtzeit-Updates.
-
Freitag: Peer-Projekt: Aufbau einer Echtzeit-Kafka-Pipeline.
-
Samstag (Lab):Miniprojekt: Streaming von E-Commerce-Daten mit Kafka.
Woche 8: Batch- vs. Stream-Verarbeitung
-
Montag: Vergleich zwischen Batch- und Stream-Verarbeitung.
-
Dienstag:Labor: Stapelverarbeitung mit PySpark.
-
Mittwoch:Kombination von Batch- und Stream-Verarbeitungsworkflows.
-
Donnerstag:Labor: Echtzeitverarbeitung mit Apache Flink und Spark Streaming.
-
Freitag: Job Shadowing: Beobachtung einer Echtzeit-Verarbeitungspipeline.
-
Samstag (Lab):Miniprojekt: Aufbau einer Hybrid-Batch-/Echtzeit-Pipeline.
Modul 3: Advanced Data Engineering (Woche 9-12)
Woche 9: ML-Integration in Datenpipelines
-
Montag:Überblick über ML-Workflows im Data Engineering.
-
Dienstag:Labor: Datenvorverarbeitung für ML mit Pandas und PySpark.
-
Mittwoch: Feature-Engineering und automatisierte Feature-Extraktion.
-
Donnerstag:Labor: Automatisierung der Feature-Extraktion mit Apache Airflow.
-
Freitag: Peer-Projekt: Aufbau einer Pipeline zur Integration von ML-Modellen.
-
Samstag (Lab):Miniprojekt: Aufbau eines ML-gestützten Empfehlungssystems.
Woche 10: Spark & PySpark für Big Data
-
Montag:Einführung in Apache Spark.
-
Dienstag:Labor: Einrichten von Spark und PySpark.
-
Mittwoch: Spark RDDs, DataFrames und SQL.
-
Donnerstag:Labor: Analyse großer Datensätze mit Spark SQL.
-
Freitag: Peer-Projekt: Aufbau einer PySpark-Pipeline für die Datenverarbeitung im großen Maßstab.
-
Samstag (Lab):Miniprojekt: Analyse großer Datensätze mit Spark und PySpark.
Woche 11: Erweiterter Apache Airflow
-
Montag: Erweiterte Airflow-Funktionen (XCom, Aufgabenabhängigkeiten).
-
Dienstag:Labor: Implementierung dynamischer DAGs und Aufgabenabhängigkeiten.
-
Mittwoch: Luftstromplanung, Überwachung und Fehlerbehandlung.
-
Donnerstag:Labor: Erstellen komplexer DAGs für mehrstufige ETL-Pipelines.
-
Freitag: Job Shadowing: Beobachtung fortgeschrittener Airflow-Pipeline-Implementierungen.
-
Samstag (Lab):Miniprojekt: Entwurf eines fortschrittlichen Airflow-DAG.
Woche 12: Data Lakes & Delta Lake
-
Montag: Datenseen, Seehäuser und Delta-Lake-Architektur.
-
Dienstag:Labor: Einrichten von Delta Lake auf AWS.
-
Mittwoch:Schemaentwicklung in Delta Lake verwalten.
-
Donnerstag:Labor: Batch- und Echtzeit-Datenladen in Delta Lake implementieren.
-
Freitag: Peer-Projekt: Entwurf einer Lakehouse-Architektur.
-
Samstag (Lab):Miniprojekt: Implementierung einer skalierbaren Delta-Lake-Architektur.
Modul 4: Abschlussprojekte (Woche 13–16)
Wochen 13–16: Capstone-Projektentwicklung und Präsentation
Diese Wochen konzentrieren sich auf die Entwicklung und Präsentation zweier wichtiger Schlussprojekte: einer Batch-Datenpipeline (E-Commerce-Verkaufsanalyse) und einer Echtzeit-Datenpipeline (IoT-Sensorüberwachung), die in einer integrierten Lösung gipfelt, die beide präsentiert. Die letzte Woche beinhaltet Projektpräsentationen vor Branchenexperten und Ausbildern.
Das obige ist der detaillierte Inhalt vonUmfassender LuxDevHQ Data Engineering-Kursführer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!