dbt 巨集指南 - 目的、優點和用法-Python教學-PHP中文網

A Guide to dbt Macros - Purpose, Benefits, and Usage

阿帕契冰山 101
Apache 冰山實務介紹
免費 Apache Iceberg 速成課程
Apache Iceberg 的免費副本：權威指南

使用 dbt 時，您可以使用的最強大的功能之一是巨集。巨集可讓您編寫可在整個 dbt 專案中使用的可重複使用程式碼，幫助您最佳化開發、減少冗餘並標準化常見模式。在這篇文章中，我們將探討 dbt 巨集的用途、它們如何幫助您簡化資料轉換工作流程以及如何有效地使用它們。

什麼是 dbt 巨集？

在較高的層面上，dbt 巨集 是用 Jinja（一種整合到 dbt 的模板語言）編寫的可重複使用程式碼片段。巨集的作用類似於您可以在 dbt 專案中的各個位置（例如模型、測試，甚至其他巨集）呼叫的函數。它們允許您簡化重複性任務並向 SQL 轉換添加邏輯。

您可以將巨集視為DRY（不要重複自己）您的 dbt 程式碼的一種方式，這在大型專案中特別有用，因為在許多模型中重複類似的 SQL 模式。

dbt 巨集如何幫助您

以下是專案中使用 dbt 巨集的一些主要好處：

1. 減少冗餘

在許多資料轉換工作流程中，您可能會發現自己在多個模型中編寫相同的 SQL 邏輯。例如，過濾掉無效記錄或套用特定轉換。透過宏，您可以將此邏輯抽象化為可重複使用的函數，並在需要時呼叫它們，從而減少程式碼重複。

2. 標準化SQL邏輯

巨集有助於確保通用邏輯（例如資料驗證或自訂聯接）在整個專案中一致應用。這種標準化減少了錯誤的可能性，並確保您的轉換在不同模型中遵循相同的規則。

3. 簡化複雜邏輯

透過使用宏，您可以將複雜的邏輯分解為可管理、可重複使用的元件。這簡化了您的 SQL 模型，使其更易於閱讀、維護和調試。

4. 動態產生SQL

巨集可讓您編寫基於變數、組態設定或輸入來適應不同用例的 SQL。這種動態產生 SQL 可以幫助您處理各種邊緣情況和環境，而無需手動更改程式碼。

5. 跨模型重複使用

定義巨集後，它可以在多個模型中使用，確保對巨集的任何更新都反映在整個專案中。這促進了更輕鬆的維護和更快的更新。

如何寫和使用 dbt 宏

定義巨集

巨集通常在 dbt 專案的 Macros/ 目錄下的 .sql 檔案中定義。以下是計算列平均值的簡單巨集範例：

-- macros/calculate_average.sql

{% macro calculate_average(column_name) %}
    AVG({{ column_name }})
{% endmacro %}

登入後複製

在此範例中，巨集calculate_average接受列名作為參數，並傳回套用於該列的AVG() SQL函數。

在模型中使用宏

定義巨集後，您可以使用下列語法在任何模型中呼叫它：

-- models/my_model.sql

SELECT
    {{ calculate_average('price') }} AS avg_price,
    category
FROM
    {{ ref('products') }}
GROUP BY
    category

登入後複製

這裡，我們在 SELECT 語句中使用calculate_average 巨集來計算 products 表中的平均價格，而不需要手動重複邏輯。

使用帶有變數的宏

巨集還可以與變數組合以增加更多彈性。例如，讓我們定義一個基於變數動態建構 WHERE 子句的巨集：

-- macros/filter_by_status.sql

{% macro filter_by_status(status) %}
    WHERE status = '{{ status }}'
{% endmacro %}

登入後複製

您現在可以使用此巨集根據變數過濾數據，如下所示：

-- models/orders.sql

SELECT *
FROM {{ ref('orders') }}
{{ filter_by_status(var('order_status', 'completed')) }}

登入後複製

在這種情況下，filter_by_status 動態新增一個 WHERE 子句，透過 order_status 過濾結果，如果沒有提供，則預設為完成。

複雜宏：動態表連接
下面是一個更高級的巨集範例，它根據傳遞給它的參數建立動態連接：

-- macros/join_tables.sql

{% macro join_tables(left_table, right_table, join_key) %}
    SELECT
        left.*,
        right.*
    FROM
        {{ ref(left_table) }} AS left
    INNER JOIN
        {{ ref(right_table) }} AS right
    ON
        left.{{ join_key }} = right.{{ join_key }}
{% endmacro %}

登入後複製

此巨集採用兩個表名和一個連接鍵，然後在表之間動態建立 INNER JOIN：

-- models/joined_data.sql

{{ join_tables('customers', 'orders', 'customer_id') }}

登入後複製

當您呼叫此巨集時，它會產生完整的 SQL，用於在 customer_id 鍵上連接客戶和訂單表。

使用 dbt 巨集的最佳實踐

保持巨集的焦點：每個巨集都應該執行單一的、定義明確的任務。避免將太多邏輯塞進單一巨集中；相反，將其分解為更小的、可重複使用的元件。
使用清晰的命名約定：確保巨集名稱具有描述性，以便在模型中使用時其用途清晰。這使得程式碼更容易理解和維護。
處理邊緣情況：始終考慮巨集中可能的邊緣情況（例如空值或意外輸入），以確保它們在不同場景下可靠地執行。
在測試中利用巨集：您也可以在 dbt 測試中使用巨集來建立可重複使用的測試邏輯，確保項目驗證步驟的一致性。
記錄您的巨集：為您的巨集新增註解和文件以解釋其目的、參數和用法。當多個團隊成員為同一專案做出貢獻時，這尤其有用。

結論

dbt 巨集是一個強大的工具，可以幫助您在資料轉換專案中編寫更清晰、更易於維護且可重複使用的程式碼。透過抽象複雜邏輯、標準化重複模式以及動態生成 SQL，巨集顯著降低了 dbt 工作流程的複雜性並提高了可靠性。

無論您是 dbt 新手還是經驗豐富的用戶，學習有效編寫和使用巨集都可以將您的資料工程能力提升到一個新的水平。從簡單的可重複使用程式碼片段開始，隨著時間的推移，融入更高級的邏輯，以充分釋放宏在 dbt 專案中的潛力。

以上是dbt 巨集指南 - 目的、優點和用法的詳細內容。更多資訊請關注PHP中文網其他相關文章！