データエンジニアリングの基礎: 実践ガイド-Python チュートリアル-php.cn

環境セットアップ:
- Unix ベースのシステム (macOS) または Linux 用 Windows サブシステム (WSL)。
- Python 3.11 (またはそれ以降) がインストールされています。
- PostgreSQL データベースがローカルにインストールされ、実行されています。
前提条件:
- 基本的なコマンドラインの熟練度。
- Python プログラミングの基本的な知識。
- ソフトウェアのインストールと構成のための管理者権限。
アーキテクチャの概要:

この図は、パイプラインコンポーネント間の相互作用を示しています。このモジュラー設計は、ワークフローオーケストレーション用の Airflow、分散データ処理用の Spark、構造化データストレージ用の PostgreSQL など、各ツールの長所を活用しています。

必要なツールのインストール:
- PostgreSQL:
  brew update brew install postgresql
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー
- PySpark:
  brew install apache-spark
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー
- エアフロー:
  python -m venv airflow_env source airflow_env/bin/activate # macOS/Linux pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt" airflow db migrate
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー

Data Engineering Foundations: A Hands-On Guide

環境が準備できたら、各コンポーネントを詳しく見てみましょう。

1.データストレージ: データベースとファイルシステム

データストレージは、あらゆるデータエンジニアリングパイプラインの基盤です。 2 つの主なカテゴリを検討します:

データベース: 検索、レプリケーション、インデックス作成などの機能を備えた効率的に編成されたデータストレージ。例:
- SQL データベース: 構造化データ (PostgreSQL、MySQL など) 用。
- NoSQL データベース: スキーマのないデータ用 (MongoDB、Redis など)。
ファイルシステム: データベースより機能が少なく、非構造化データに適しています。

PostgreSQL のセットアップ

PostgreSQL サービスを開始します:

brew update
brew install postgresql

ログイン後にコピー

Data Engineering Foundations: A Hands-On Guide

データベースの作成、接続、テーブルの作成:

brew install apache-spark

ログイン後にコピー

サンプルデータの挿入:

python -m venv airflow_env
source airflow_env/bin/activate  # macOS/Linux
pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt"
airflow db migrate

ログイン後にコピー

Data Engineering Foundations: A Hands-On Guide

データは PostgreSQL に安全に保存されました。

2.データ処理: PySpark と分散コンピューティング

データ処理フレームワークは、生データを実用的な洞察に変換します。分散コンピューティング機能を備えた Apache Spark は、人気のある選択肢です。

処理モード:
- バッチ処理: 固定サイズのバッチでデータを処理します。
- ストリーム処理: データをリアルタイムで処理します。
共通ツール: Apache Spark、Flink、Kafka、Hive。

PySpark によるデータの処理

Java と PySpark をインストールします:

brew services start postgresql

ログイン後にコピー

CSV ファイルからデータをロード:

次のデータを含む sales.csv ファイルを作成します:

CREATE DATABASE sales_data;
\c sales_data
CREATE TABLE sales (
    id SERIAL PRIMARY KEY,
    item_name TEXT,
    amount NUMERIC,
    sale_date DATE
);

ログイン後にコピー

次の Python スクリプトを使用して、データをロードして処理します:

INSERT INTO sales (item_name, amount, sale_date)
VALUES ('Laptop', 1200, '2024-01-10'),
       ('Phone', 800, '2024-01-12');

ログイン後にコピー

Data Engineering Foundations: A Hands-On Guide

高価値販売のフィルター:

brew install openjdk@11 && brew install apache-spark

ログイン後にコピー

Data Engineering Foundations: A Hands-On Guide Spark UI - High-Value Sales

Postgres DB ドライバーのセットアップ: 必要に応じて PostgreSQL JDBC ドライバーをダウンロードし、以下のスクリプト内のパスを更新します。
処理されたデータを PostgreSQL に保存:

brew update
brew install postgresql

ログイン後にコピー

Data Engineering Foundations: A Hands-On Guide

Spark によるデータ処理が完了しました。

3.ワークフローの自動化: Airflow

自動化は、スケジュールと依存関係の定義を使用してワークフロー管理を合理化します。 Airflow、Oozie、Luigi などのツールを使用すると、これが容易になります。

Airflow による ETL の自動化

エアフローの初期化:

brew install apache-spark

ログイン後にコピー

Data Engineering Foundations: A Hands-On Guide Create Airflow User

ワークフロー (DAG) の作成:

python -m venv airflow_env
source airflow_env/bin/activate  # macOS/Linux
pip install "apache-airflow[postgres]==" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.11.txt"
airflow db migrate

ログイン後にコピー

この DAG は毎日実行され、PySpark スクリプトを実行し、検証ステップが含まれます。失敗すると電子メールアラートが送信されます。

ワークフローを監視します: DAG ファイルを Airflow の dags/ ディレクトリに配置し、Airflow サービスを再起動し、http://localhost:8080 で Airflow UI を介して監視します。

Data Engineering Foundations: A Hands-On Guide

4.システム監視

モニタリングによりパイプラインの信頼性が保証されます。 Airflow のアラート、または Grafana や Prometheus などのツールとの統合は、効果的な監視戦略です。 Airflow UI を使用して、タスクのステータスとログを確認します。

Data Engineering Foundations: A Hands-On Guide

結論

データストレージのセットアップ、PySpark を使用したデータの処理、Airflow によるワークフローの自動化、システムの監視について学びました。データエンジニアリングは重要な分野であり、このガイドはさらなる探求のための強力な基盤を提供します。さらに詳しい情報については、提供されている参考資料を必ず参照してください。

以上がデータエンジニアリングの基礎: 実践ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Java チュートリアル

1667

CakePHP チュートリアル

1426

Laravel チュートリアル

1328

PHP チュートリアル

1273

C# チュートリアル

1255

Related knowledge

Python：ゲーム、GUIなど Apr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：曲線と使いやすさの学習 Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Pythonと時間：勉強時間を最大限に活用する Apr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python vs. C：パフォーマンスと効率の探索 Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？ Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonの学習：2時間の毎日の研究で十分ですか？ Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Python vs. C：重要な違いを理解します Apr 21, 2025 am 12:18 AM

PythonとCにはそれぞれ独自の利点があり、選択はプロジェクトの要件に基づいている必要があります。 1）Pythonは、簡潔な構文と動的タイピングのため、迅速な開発とデータ処理に適しています。 2）Cは、静的なタイピングと手動メモリ管理により、高性能およびシステムプログラミングに適しています。

See all articles

データエンジニアリングの基礎: 実践ガイド

データエンジニアリングとは何ですか?

開発環境のセットアップ

1.データストレージ: データベースとファイルシステム

PostgreSQL のセットアップ

2.データ処理: PySpark と分散コンピューティング

PySpark によるデータの処理

3.ワークフローの自動化: Airflow

Airflow による ETL の自動化

4.システム監視

結論

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

データ エンジニアリングの基礎: 実践ガイド

データ エンジニアリングとは何ですか?

開発環境のセットアップ

1.データストレージ: データベースとファイルシステム

PostgreSQL のセットアップ

2.データ処理: PySpark と分散コンピューティング

PySpark によるデータの処理

3.ワークフローの自動化: Airflow

Airflow による ETL の自動化

4.システム監視

結論

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

データエンジニアリングの基礎: 実践ガイド

データエンジニアリングとは何ですか?