畫像標籤體系建構與應用實踐-人工智慧-PHP中文網

去哪裡在每個業務發展過程中建構了獨立的畫像標籤系統。隨著公司的不斷壯大，需將各業務的畫像標籤系統整合。從技術角度來看，整合的過程相對簡單，但業務層面的整合則較為複雜。因為各個標籤在不同業務中的定義有差異，這增加了整合的難度。為了確保整合後的標籤系統能夠更好地服務公司的整體策略，需要進行深入的關鍵字提取和優化，確保各個標籤的邏輯性和一致性。

畫像標籤體系建構與應用實踐

1. 什麼是畫像標籤

使用者行為是指使用者在應用程式中進行的操作，而業務日誌則是指使用者在伺服器端產生的數據，例如點擊、下單和搜尋行為。畫像標籤是透過規則統計和挖掘演算法對使用者行為和業務資料進行分析後得出的使用者多維度資料。透過分析用戶行為和業務數據，可以更了解用戶的偏好和需求，從而為用戶提供更個人化和精準的服務。這些使用者畫像標籤可以幫助企業更好地定位目標使用者群體，制定針對性的行銷策略，並提升使用者體驗。透過深入分析用戶行為和業務數據，企業可以更能理解用戶的行為模式，為用戶提供更優質的產品和服務，從而提升用戶滿意度和忠誠度

畫像標籤體系建構與應用實踐

2. 畫像標籤的需求來源

每個業務部門在搭建自己的畫像標籤平台時，由於目標不同，需求也有所差異，例如機票業務通常以行銷為目標，飯店業務通常以服務為目標。我們應從實際業務需求出發，與各部門溝通，包括公司管理階層、實習生等不同層級的人員，進行深入的需求調查，以確保整合後的標籤系統能更好地滿足業務需求。在整合過程中，使用者畫像標籤需求主要分為三類：行銷風控、內部業務分析應用和描述使用者。

畫像標籤體系建構與應用實踐

行銷風控：用戶行銷、個人化推薦、精準廣告投放、用戶風控。

業務分析：業務最佳化分析、多維度業務指標監控、指導新業務產品設計。

畫像標籤體系建構與應用實踐

描述使用者：單一使用者的定義、平台使用者的定位、產業報告。

3. 畫像標籤的分類畫像標籤體系建構與應用實踐

######在畫像標籤建構的過程中分為業務分類和技術分類。 ############從使用者需求中提取出業務所需的使用者畫像分類，主要根據一級和二級類目，以業務流程為主要分類依據，並不斷擴展和完善。 #####################另外，根據不同的技術需求，我們需要選擇合適的技術堆疊來實作畫像標籤的產生、儲存和呼叫。 ############首先，需要明確畫像標籤的定義和目標，以便確定需要使用哪種技術。其次，需要考慮標籤的更新周期和存取方式，這決定了是否需要線上或離線處理標籤，以及選擇哪種儲存資源。最後，根據這些因素，我們可以選擇合適的技術堆疊來實現畫像標籤體系，確保系統的效能和穩定性。透過這樣的技術分類，可以更好地管理和維護畫像標籤體系，提高其可擴展性和可用性###############

（1）建構方法

統計類別：依賴 SQL 即可完成。
規則類：面向資料分析師、商業分析師以及產品營運等具有一定業務背景的人透過對業務的理解，去建立一些規則類的標籤，這類標籤會基於業務的理解變化而產生變動。
模型類別：這類標籤需要演算法團隊進行複雜的計算或需要樣本資料。與一些基礎標籤不同，模型類標籤在精確度上可能有挑戰，無法達到百分之百的準確。因為有時我們獲得的樣本數量非常有限，使得標籤的準確率難以維持在較高的水準。因此，對於模型類標籤，我們可能需要尋找其他的方法和技術來提高其精確度和可用性。

（2）更新週期

#除了已列出的按小時、週、月的更新週期外，我們目前還實現了即時的標籤更新，這更接近串流更新。

（3）存取方式

由於畫像標籤平台需要處理大量資料和使用者請求，需要根據後台技術堆疊來選擇合適的存取方式，對於一些大型公司，用戶量和資料量都非常龐大，因此我們需要考慮如何有效地儲存和呼叫標籤。有些標籤可能只需要離線構建，而有些標籤則可能需要在線調用。對於離線標籤，我們可以選擇不佔用高儲存成本的資源，例如將資料儲存在 Redis 或 HBase 中。而對於線上標籤，需要確保系統能夠快速回應使用者請求，並提供穩定的服務。因此，在選擇存取方式時，我們需要根據實際情況進行權衡和選擇，以確保系統的效能和穩定性。

4. 畫像標籤系統建構過程

畫像標籤體系建構與應用實踐

在畫像標籤系統的生產過程中，我們需要對各類資料來源進行一系列的處理，最終產生標籤。其中，ID Mapping 是一個關鍵環節。 ID Mapping 的目標是解決不同ID 指向同一人的問題，特別針對早期成立的公司，由於註冊方式多樣，可能會出現多個 ID 對應同一用戶的情況。例如，用戶透過郵箱註冊後可以綁定或更改手機號，或曾經允許未登入狀態下使用，這些情況都可能導致多個 ID 對應同一用戶。

為了解決這個問題，ID Mapping 承擔著實作多裝置關聯的任務。另外，ID Mapping 對於風控來說也是至關重要的基礎步驟。透過 ID Mapping，可以更好地識別和關聯不同設備的使用者，從而更好地進行風險控制和安全管理。透過合理的 ID Mapping 設計和管理，我們可以更好地保護使用者隱私和資料安全，同時提高畫像標籤系統的準確性和可靠性。

二、畫像標籤平台

畫像標籤平台也稱之為CDP 平台，包含了畫像標籤的生產、資料分析、業務應用、效果分析等服務。下圖為去哪裡 CDP 平台的功能架構。

畫像標籤體系建構與應用實踐

在去哪裡網，疫情發生後加強了內部能力的建設，將畫像標籤與主流策略平台進行了整合。目前該平台涵蓋了畫像標籤的整個生命週期，可實現畫像構建、人群圈選以及最終的營銷動作等功能。透過這樣的整合，能夠更好地實現數據驅動的行銷策略，將使用者畫像與行銷活動無縫連接起來。這有助於提高行銷效果和使用者滿意度，同時也有利於企業內部的資料整合和協同工作。

畫像標籤體系建構與應用實踐

#三、常見演算法類別畫像標籤

#1. 常見模型類別標籤常用演算法類型

在實踐過程中，基於樣本和技術棧，可以將模型類別標籤常用演算法分為如下幾大類別：

畫像標籤體系建構與應用實踐

（1）分類演算法：在業務流程中利用預測類別標籤來進行圈選和業務過濾，需要擁有足夠的樣本資料來進行訓練和最佳化模型，從而提高預測準確率。預測類標籤不僅限於訂單支付預測，還可以包括搜尋支付預測、搜尋預測、詳情頁預測等。

（2）推薦演算法：與排序和優先順序相關，需要更廣泛的前沿知識和技術堆疊。推薦演算法的目標是從召回集中為用戶推薦合適的飯店房型。例如，對於親子出遊的場景，推薦演算法可以為使用者推薦雙床房或套間等合適的飯店房型。

（3）知識圖譜：利用圖資料庫技術更好地揭示使用者及其周邊關係。風控場景中應用較多，例如識別異常使用者和判斷是否為惡意使用者。

（4）因果推論：透過一個例子解釋了向使用者發送簡訊和 push 訊息對行銷效果的影響，並涉及成本問題。

（5）圖形影像：結合圖形影像處理技術，對圖形影像進行打標。涉及到對圖像的分割、識別等技術，但更多的是透過使用者標籤反向應用到圖像打標上。例如，對於發表不正當評論的用戶，將其標籤提取出來，並應用到圖形圖像打標演算法中，以提高打標的效率和準確性。

（6）NLP 機器人

（7）lookalike 行銷演算法：即透過種子使用者進行擴展行銷的演算法。

畫像標籤體系建構與應用實踐

基於需求的型別會有不同的分類方法：

單一實體：透過關係網絡或知識圖譜來尋找其他相關實體。例如，利用知識圖譜可以發現實體之間的關係，從而擴展單一實體的關聯實體。
業務實體集：與特定業務相關的標籤，由業務本身產生，而非人為控制。例如，飯店搜尋用戶或機票搜尋用戶，如果想要針對這些用戶進行行銷並擴展業務，就要透過對業務實體標籤的深入分析和挖掘，更好地理解用戶需求和行為，從而優化業務策略，提高轉換率和使用者體驗。業務實體集可以透過品牌模式、關聯規則、方案標籤平台等方式進行擴充，以取得更豐富的畫像標籤或畫像使用者。
規則實體集：指基於特定規則或條件產生的標籤。這些標籤通常是由產品團隊根據對業務的理解，利用標籤工具圈選出符合特定規則的使用者群體。例如，在推薦行程或房型的過程中，有些用戶可能已經購買了北京的機票和飯店，那麼我們可以將這些具有特定行為鏈的用戶作為目標群體，進行行銷推廣。可以使用關係實體和聚類演算法來處理。在進行聚類演算法時，需要注意不能只使用規則標籤進行聚類，而應該使用其他標籤。同時，需要避免將與規則標籤強相關的標籤與規則標籤混成一組。為了避免這種情況，方案標籤平台會提供標籤與其他標籤的相關性分析，幫助使用者過濾掉類似的標籤。
行為實體集：基於使用者行為產生的標籤。這些標籤透過分析使用者的行為特徵和需求類型，來制定相應的行銷策略。例如，對於購買過北京機票和飯店的用戶，我們可以進一步分析他們的行為特徵，如購買時間、頻率、偏好等，以製定更具針對性的行銷策略。

2. 基於知識圖譜和頻繁模式的looklike 演算法

只依賴畫像標籤進行篩選可能產生大量不符合需求的目標用戶，如何對這些用戶進行排序成為了一個難題。傳統的方法如根據價值、活躍度等進行排序，很難確保選出的用戶與目標用戶群最為相似。而透過知識圖譜或頻繁模式，我們可以衡量使用者之間的相似度，而這種相似度是可量化和擴展的。透過關係層面，演算法能夠更準確地找到與目標使用者相似的使用者群體。

畫像標籤體系建構與應用實踐

3. 基於因果推斷的lookalike 演算法

與傳統的關聯規則和畫像標籤相比，因果推論能夠解決更深層的問題。關聯規則和畫像標籤主要解決的是相關性問題，例如“購買啤酒的用戶也可能會購買尿布”，但無法解釋為什麼存在這種相關性。在不同的文化和市場中，這種相關性可能並不成立。因此透過歷史資料和模型進行因果推斷，可以找到影響使用者行為和轉換的關鍵因素。這些關鍵因素可以透過關係發現被找到，進而幫助我們更理解使用者行為和業務過程。

例如右上角紅色部分透過對業務的理解篩選出的更能體現業務的過程的部分，從而去擴充更多的用戶出來。

畫像標籤體系建構與應用實踐

4. 物的畫像

畫像標籤體系建構與應用實踐

在物的在畫像建造過程中，我們主要關注的是物的屬性和特徵，例如飯店畫像中的城市、商圈、航線、航班等。這些屬性有助於我們更準確地描述和了解物，並為其畫像提供豐富的內容。

畫像標籤體系建構與應用實踐

與使用者畫像相比，物的畫像更強調物與物之間的相似性。在實踐中，我們通常利用物的相似性進行推薦和排序等操作。為了衡量物與物之間的相似性，可以採用多種方法，例如屬性向量和 embedding。這些方法可以將物表示為向量，並利用這些向量進行相似性計算。需要注意的是，物的畫像建構過程與使用者畫像建構過程雖然相似，但在實際應用中，我們需要根據業務需求和場景進行適當的調整和最佳化。同時，也需要深入分析物與物之間的關係與層次結構，以確保物的畫像能準確反映業務需求。

畫像標籤體系建構與應用實踐

此外，在物的畫像建構過程中，我們還需要專注於一些關鍵問題。

（1）相近並不表示相似。例如，在使用 embedding 方法時，如果高價值的使用者群體搜尋的都是五星級飯店，那麼這些五星級飯店之間的相關性可能會很強。但在某些業務場景中，這種相關性可能並不適用。因此，我們需要根據具體業務場景仔細考慮物的相似性。

（2）冷啟動問題。例如在飯店畫像中，當一個新的飯店上線時，它可能缺乏使用者行為資料。為了解決這個問題，我們可以利用屬性距離來抽取大維度的標籤屬性，建構一個偏用戶態的畫像標籤，並利用這個標籤進行相似度計算。

（3）可解釋性

畫像標籤體系建構與應用實踐

四、畫像標籤應用場景

應用程式一：行銷人群精選與擴散

畫像標籤體系建構與應用實踐

#畫像標籤在行銷的精選和擴散過程中扮演了至關重要的角色。透過合理運用畫像標籤，營運人員可以對已選定的使用者群體進行更細緻的分析和篩選，當營運人員覺得初始精選的使用者群體過大或過小，或者行銷效果需要進一步擴大或優化時，可以透過畫像標籤進行擴散或重新精選以達到更好的行銷效果。

然而，在進行畫像標籤的精選和擴散時，最常見的是用戶轉化和運營幹預的四象限問題。這四個像限分別代表不同的使用者轉換狀態和營運介入策略，需要針對不同情況進行不同的因應措施。例如，對於高轉換低介入的用戶，可以採取維持現狀的策略；對於低轉換低介入的用戶，可以採取促進轉換的策略等。

以下是畫像標籤在應用過程中行銷精選擴散的四個階段：

科學分析：深入挖掘用戶數據，精準定位目標群體，以提升轉化效果。

輔助圈選：利用標籤高效篩選目標用戶，提升行銷活動的針對性與效率。

智慧擴量：基於演算法和模型，對使用者群體進行智慧分類和擴量，以擴大行銷覆蓋範圍。

模型落地：結合實際行銷活動，優化畫像標籤和策略，達到最佳的行銷成效。

畫像標籤體系建構與應用實踐

應用二：業務指標歸因分析

畫像標籤體系建構與應用實踐

透過畫像標籤系統來分析業務指標的好壞，並進一步優化策略。在業務迭代過程中，我們通常使用歸因分析演算法和商業分析等方法來產生策略。然後進行實驗測量，如果實驗策略表現良好，就會全量上線。

畫像標籤體系建構與應用實踐

#然而，在這個過程中會遇到兩個問題：如何分析指標的好壞以及實驗結果的好壞。為了解決這些問題，我們需要進行業務指標的歸因分析。首先，透過報表、警報等途徑發現業務問題，找出問題的原因，明確具體的場景和實際的轉換關係。接著，定位問題的原因，並判斷這個原因是可控的還是不可控的。如果是不可控的，可能就是一個自然抖動，不需要太多關注；如果是可控的，就需要進一步探究是否存在未知的場景導致這個問題。

在質性分析模組中，我們會明確可控因素和不可控因素，並挖掘一些未知的場景出現問題的原因。最後，給予建議，指導業務人員在什麼場景下去做。這個場景其實就是某個業務的轉換率下降了，透過整個業務的分析過程，我們可以得到非市場因素和可控制因素分別佔比多少。如果市場因素佔比較大，那我們就可以先落後解決這個問題，不必立即動用大量人力物力。

應用三：AB 實驗效能分析

畫像標籤體系建構與應用實踐

在負責去哪裡的AB 實驗系統的過程中，我們常常面對一些挑戰。當產品團隊投入大量時間和資源完成實驗後，如果實驗結果不顯著，很容易產生諸如「為什麼實驗無效」和「下一步迭代的方向是什麼」等疑問。

為了解決這些問題，我們進行了 AB 實驗效能分析，主要分為三個部分。首先，我們透過業務流程漏斗模型、核心使用者畫像標籤識別以及業務領域誤導標籤識別，嘗試判斷實驗效果不佳是否因為量提升不夠。其次，運用決策樹等分析方法，探究質的提升是否有問題，例如其他實驗的衝突或提升量未達到顯著比例的情況。最後，量化動作效能，明確每個動作對目標的影響程度。

透過這些分析流程，我們可以為產品團隊提供具體的指導，幫助他們選擇效能更高的方向進行最佳化，從而實現質的提升。這些分析不僅有助於優化產品迭代方向，還能為公司節省資源與時間，並提高整體業務效果。

五、問答環節

Q1：使用者行為跟業務日誌有什麼不同？

A1：使用者行為資料主要記錄了使用者在 APP 端的互動行為，如點擊等，這些資料主要反映使用者互動的過程。而業務資料則涉及後台處理的各種訊息，例如代理連接流程、物流資訊等，這些資料雖然對使用者來說是不可見的，但對於理解整個業務流程和提升使用者體驗同樣至關重要。在實際操作中，我們需要將這些資料納入我們的畫像標籤系統中，以便更好地分析和理解使用者行為和業務流程。例如對於電商平台來說，有些資料可能對使用者無關緊要，但有些則涉及使用者體驗和業務流程，因此需要適當的篩選和處理。

Q2：目前串流標籤是怎麼做的？能支援比較複雜的標籤規則嘛？是數據開發出來還是視覺化配置的？

A2：串流標籤可以透過串流運算來實現，例如使用 Flink 等工具。使用者可以拖曳定義好的數據，透過串流計算進行標籤的計算。同時，也可以上傳 Python 程式碼或 SQL 程式碼進行自訂的計算。此外，還可以透過 Spark 等方式來支援。在流式標籤中，需要限制計算的量和時間窗口，以滿足不同需求。

串流標籤可以支援複雜的標籤規則。使用者可以透過上傳 Python 程式碼或 SQL 程式碼來實現更複雜的標籤計算。

串流標籤可以透過資料開發和視覺化配置兩種方式來實現。在去哪旅行平台上，使用者可以拖曳定義好的數據，透過串流計算進行標籤的計算，也可以上傳 Python 程式碼或 SQL 程式碼進行自訂的計算。

Q3：什麼是即時標籤？

A3：即時標籤是指在使用者行為或業務事件發生時，即時計算並套用的標籤。例如，當使用者在前端介面提交投訴時，系統會即時分析使用者的訴求和訂單問題，並為使用者打上相應的即時標籤。這種即時標籤能夠快速反映使用者的需求和問題，以便及時地進行處理和優化。不同公司對即時標籤的定義有所不同，去哪裡 3 秒以內的算實時，而小時都稱之為是非實時的一個場景。

Q4：ID Mapping 是將多個手機號碼/裝置號碼識別成一個唯一的 ID?還是讓每個使用者都有一個唯一的 ID？例如一個手機號碼在兩個裝置登入過，其中一個裝置又登入過另外一手機號，是唯一的一個還是三個?

A4：隨著行動網路的普及，越來越多的公司開始採用手機號碼作為用戶唯一的識別碼。一鍵登入已成為業界通用的做法，使得用戶能夠更方便地登入和使用應用程式。對於去哪裡這樣的平台，我們也採用了手機號碼作為使用者唯一的 ID。在大多數情況下，我們會將手機號碼視為使用者的唯一識別碼。但在某些特殊情況下，我們也會考慮用戶更換手機號碼的場景，並對其進行相應的處理。此外，為了更好地管理和識別用戶，當一個手機號碼在兩個裝置上登入時，我們會透過一系列的判斷來確定用戶對裝置的持有狀態。如果使用者是臨時登入設備，我們將其視為訪客；如果使用者長期持有該設備，則將其視為持有人。

Q5：貨品標籤有哪些應用情境？

A5：其中最常見的是貨品定價。為了實現貨品定價的個人化，我們需要使用貨品標籤。這些標籤是基於內部因素和外部因素的具體數值計算得出的。如果內在因素沒有得到適當的梳理，外在因素的影響可能會被誇大。可以理解為類似於暴力求解的方式，我們把每一個因素都放進去試，然後去看每個因素對它的影響是多少，並且在每個因素裡判斷它是相關性還是因果性。

Q6：業務的即時標籤是不是要客製化開發？

A6：即時標籤在建成之後，我們已經透過開發層面去盡可能地窮舉了一些透過基礎的統計就能出來的一些即時標籤。至於說像規則類別和模型類別的即時標籤，肯定是要客製化開發的。

Q7：標籤的生命週期怎麼管理？

A7：在建立之初會有一些一次性的標籤，用完就不使用了。

Q8：是否可以用一些统计方法来确定 AB 实验的时候的最小样本量？AB 实验有标准的计算过程，这样是不是可以知道大概需要多少样本量可以达到统计显著的一个效果了？

A8：更小的业务公司，可能流量先天性就不够，你想要达到一个最小样本量，操作层面也不太能实现，所以我们需要有一些在没有达到最小样本量的时候，能快速去大致地推断这个实验效果。

Q9：用户口径画像的口径类型是怎么存储和展示的？用户画像的标签除了单一的，还有多标签，形成一个用户偏好角度。这两类标签怎么存储比较好？

A9：展示每一个公司都不一样。从存储角度来说去哪儿是有多个存储方式的，我们可以容忍一部分数据的冗余存储，主要还是为了以实时响应快为准，就是它在访问化标签的时候，我们尽可能地以一个低耗时去访问它。

Q10：模型在方案标签建设中有哪些应用？

A10：其实这个我现在通过去哪儿这边的实践来说，大模型在算法标签应用是非常的广的。首先最简单的一个例子，我们在构建户的画像的时候，经常会遇到 POI 地标数据，地标的数据是从一些文档里面抽取的，可能这个就大模型在用，这个地方的准确率说实话比我们以往自己构建的一些模型效果好很多。以及我们在构建知识图谱的时候，会遇到一些实体消歧、实体合并等等。