Kem boot kejuruteraan data intensif selama 16 minggu (4 bulan) ini menyediakan latihan komprehensif dalam Python, SQL, platform awan (Azure dan AWS), Apache Airflow, Kafka, Spark dan banyak lagi.
Jadual:
-
Isnin - Khamis: Kuliah dan latihan praktikal.
-
Jumaat: Bimbingan industri atau projek rakan sebaya kolaboratif.
-
Sabtu: Sesi makmal khusus dan pembelajaran berasaskan projek.
Modul 1: Asas Kejuruteraan Data (Minggu 1-4)
Minggu 1: Penyediaan & Persediaan
-
Isnin: Selamat datang, gambaran keseluruhan kursus, laluan kerjaya, pengenalan alat.
-
Selasa: Gambaran keseluruhan pengkomputeran awan (Azure & AWS).
-
Rabu: Tadbir urus, keselamatan dan pematuhan data.
-
Khamis: Asas SQL dan persediaan PostgreSQL.
-
Jumaat: Projek rakan sebaya: Cabaran persediaan persekitaran.
-
Sabtu (Makmal): Projek mini: Saluran paip asas menggunakan PostgreSQL dan Azure Blob Storage.
Minggu 2: Menguasai SQL
-
Isnin: Core SQL (PILIH, DI MANA, SERTAI, KUMPULAN OLEH).
-
Selasa: SQL Lanjutan (pertanyaan rekursif, fungsi tetingkap, CTE).
-
Rabu: Pengoptimuman pertanyaan dan rancangan pelaksanaan.
-
Khamis: Pemodelan data (penormalan, penyahnormalan, skema bintang).
-
Jumaat: Membayangkan kerja: Memerhati teknik pengoptimuman pertanyaan SQL.
-
Sabtu (Makmal): Projek mini: Reka bentuk skema bintang dan analisis data berasaskan SQL.
Minggu 3: Pengenalan Saluran Paip Data
-
Isnin: Teori aliran kerja ETL/ELT.
-
Selasa: Makmal: talian paip ETL berasaskan Python untuk data CSV.
-
Rabu: Amalan terbaik ETL.
-
Khamis: Makmal: Saluran paip Python ETL untuk pemprosesan data kelompok.
-
Jumaat: Projek rakan sebaya: Reka bentuk aliran kerja ETL kolaboratif.
-
Sabtu (Makmal): Projek mini: saluran paip ETL untuk pemprosesan data jualan.
Minggu 4: Asas Aliran Udara Apache
-
Isnin: Pengenalan kepada Aliran Udara Apache, DAG dan penjadualan.
-
Selasa: Makmal: Menyediakan dan mencipta DAG aliran Udara asas.
-
Rabu: Amalan dan penjadualan terbaik DAG Aliran Udara.
-
Khamis: Makmal: Mengintegrasikan Aliran Udara dengan PostgreSQL dan Storan Blob Azure.
-
Jumaat: Membayangkan kerja: Pemerhatian saluran paip aliran Udara dunia sebenar.
-
Sabtu (Makmal): Projek mini: Mengautomasikan saluran paip ETL dengan Aliran Udara.
Modul 2: Kemahiran Pertengahan (Minggu 5-8)
Minggu 5: Penyimpanan Data & Tasik
-
Isnin: Penyimpanan data (OLAP lwn. OLTP, pembahagian, pengelompokan).
-
Selasa: Makmal: Bekerja dengan Amazon Redshift dan Snowflake.
-
Rabu: Tasik data dan seni bina Lakehouse.
-
Khamis: Makmal: Menyediakan Delta Lake.
-
Jumaat: Projek rakan sebaya: Melaksanakan gudang data dan model tasik data.
-
Sabtu (Makmal): Projek mini: Mereka bentuk dan melaksanakan seni bina Lakehouse asas.
Minggu 6: Tadbir Urus & Keselamatan Data
-
Isnin: Rangka kerja tadbir urus data dan prinsip keselamatan.
-
Selasa: Makmal: Menggunakan AWS Lake Formation untuk kawalan akses.
-
Rabu: Mengurus data sensitif dan pematuhan (GDPR, HIPAA).
-
Khamis: Makmal: Melaksanakan dasar keselamatan dalam S3 dan Storan Blob Azure.
-
Jumaat: Membayangkan pekerjaan: Memerhatikan pemakaian dasar tadbir urus.
-
Sabtu (Makmal): Projek mini: Mengamankan data awan menggunakan AWS dan Azure.
Minggu 7: Data Masa Nyata dengan Kafka
-
Isnin: Pengenalan kepada Apache Kafka untuk penstriman data masa nyata.
-
Selasa: Makmal: Menyediakan pengeluar dan pengguna Kafka.
-
Rabu: Topik, partition dan broker mesej Kafka.
-
Khamis: Makmal: Mengintegrasikan Kafka dengan PostgreSQL untuk kemas kini masa nyata.
-
Jumaat: Projek rakan sebaya: Membina saluran paip Kafka masa nyata.
-
Sabtu (Makmal): Projek mini: Menstrim data e-dagang dengan Kafka.
Minggu 8: Pemprosesan Kelompok lwn. Strim
-
Isnin: Perbandingan pemprosesan kelompok lwn. strim.
-
Selasa: Makmal: Pemprosesan kelompok dengan PySpark.
-
Rabu: Menggabungkan aliran kerja pemprosesan kelompok dan strim.
-
Khamis: Makmal: Pemprosesan masa nyata dengan Apache Flink dan Spark Streaming.
-
Jumaat: Membayangkan kerja: Memerhati saluran pemprosesan masa nyata.
-
Sabtu (Makmal): Projek mini: Membina saluran paip hibrid/masa nyata.
Modul 3: Kejuruteraan Data Lanjutan (Minggu 9-12)
Minggu 9: Penyepaduan ML dalam Talian Paip Data
-
Isnin: Gambaran keseluruhan aliran kerja ML dalam kejuruteraan data.
-
Selasa: Makmal: Prapemprosesan data untuk ML menggunakan Pandas dan PySpark.
-
Rabu: Kejuruteraan ciri dan pengekstrakan ciri automatik.
-
Khamis: Makmal: Mengautomasikan pengekstrakan ciri menggunakan Apache Airflow.
-
Jumaat: Projek rakan sebaya: Membina saluran paip yang menyepadukan model ML.
-
Sabtu (Makmal): Projek mini: Membina sistem pengesyoran berkuasa ML.
Minggu 10: Spark & PySpark untuk Data Besar
-
Isnin: Pengenalan kepada Apache Spark.
-
Selasa: Makmal: Menyediakan Spark dan PySpark.
-
Rabu: Spark RDD, DataFrames dan SQL.
-
Khamis: Makmal: Menganalisis set data besar menggunakan Spark SQL.
-
Jumaat: Projek rakan sebaya: Membina saluran paip PySpark untuk pemprosesan data berskala besar.
-
Sabtu (Makmal): Projek mini: Menganalisis set data besar dengan Spark dan PySpark.
Minggu 11: Aliran Udara Apache Lanjutan
-
Isnin: Ciri Aliran Udara Lanjutan (XCom, kebergantungan tugas).
-
Selasa: Makmal: Melaksanakan DAG dinamik dan kebergantungan tugas.
-
Rabu: Penjadualan aliran udara, pemantauan dan pengendalian ralat.
-
Khamis: Makmal: Mencipta DAG kompleks untuk saluran paip ETL berbilang langkah.
-
Jumaat: Membayangkan kerja: Memerhati pelaksanaan saluran paip aliran udara lanjutan.
-
Sabtu (Makmal): Projek mini: Mereka bentuk DAG Aliran Udara termaju.
Minggu 12: Tasik Data & Tasik Delta
-
Isnin: Seni bina tasik data, Lakehouses dan Delta Lake.
-
Selasa: Makmal: Menyediakan Delta Lake di AWS.
-
Rabu: Menguruskan evolusi skema di Delta Lake.
-
Khamis: Makmal: Melaksanakan pemuatan data kelompok dan masa nyata ke Tasik Delta.
-
Jumaat: Projek rakan sebaya: Mereka bentuk seni bina Lakehouse.
-
Sabtu (Makmal): Projek mini: Melaksanakan seni bina Tasik Delta berskala.
Modul 4: Projek Capstone (Minggu 13-16)
Minggu 13-16: Pembangunan & Pembentangan Projek Capstone
Minggu-minggu ini menumpukan pada membangunkan dan membentangkan dua projek capstone utama: saluran paip data kelompok (analitik jualan e-dagang) dan saluran paip data masa nyata (pemantauan sensor IoT), yang memuncak dalam penyelesaian bersepadu yang mempamerkan kedua-duanya. Minggu terakhir melibatkan pembentangan projek kepada profesional industri dan pengajar.
Atas ialah kandungan terperinci Panduan Kursus Kejuruteraan Data LuxDevHQ Komprehensif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!