去哪裡在每個業務發展過程中建構了獨立的畫像標籤系統。隨著公司的不斷壯大,需將各業務的畫像標籤系統整合。從技術角度來看,整合的過程相對簡單,但業務層面的整合則較為複雜。因為各個標籤在不同業務中的定義有差異,這增加了整合的難度。為了確保整合後的標籤系統能夠更好地服務公司的整體策略,需要進行深入的關鍵字提取和優化,確保各個標籤的邏輯性和一致性。
使用者行為是指使用者在應用程式中進行的操作,而業務日誌則是指使用者在伺服器端產生的數據,例如點擊、下單和搜尋行為。畫像標籤是透過規則統計和挖掘演算法對使用者行為和業務資料進行分析後得出的使用者多維度資料。透過分析用戶行為和業務數據,可以更了解用戶的偏好和需求,從而為用戶提供更個人化和精準的服務。這些使用者畫像標籤可以幫助企業更好地定位目標使用者群體,制定針對性的行銷策略,並提升使用者體驗。透過深入分析用戶行為和業務數據,企業可以更能理解用戶的行為模式,為用戶提供更優質的產品和服務,從而提升用戶滿意度和忠誠度
業務分析:業務最佳化分析、多維度業務指標監控、指導新業務產品設計。
描述使用者:單一使用者的定義、平台使用者的定位、產業報告。
3. 畫像標籤的分類
######在畫像標籤建構的過程中分為業務分類和技術分類。 ############從使用者需求中提取出業務所需的使用者畫像分類,主要根據一級和二級類目,以業務流程為主要分類依據,並不斷擴展和完善。 #####################另外,根據不同的技術需求,我們需要選擇合適的技術堆疊來實作畫像標籤的產生、儲存和呼叫。 ############首先,需要明確畫像標籤的定義和目標,以便確定需要使用哪種技術。其次,需要考慮標籤的更新周期和存取方式,這決定了是否需要線上或離線處理標籤,以及選擇哪種儲存資源。最後,根據這些因素,我們可以選擇合適的技術堆疊來實現畫像標籤體系,確保系統的效能和穩定性。透過這樣的技術分類,可以更好地管理和維護畫像標籤體系,提高其可擴展性和可用性################除了已列出的按小時、週、月的更新週期外,我們目前還實現了即時的標籤更新,這更接近串流更新。
由於畫像標籤平台需要處理大量資料和使用者請求,需要根據後台技術堆疊來選擇合適的存取方式,對於一些大型公司,用戶量和資料量都非常龐大,因此我們需要考慮如何有效地儲存和呼叫標籤。有些標籤可能只需要離線構建,而有些標籤則可能需要在線調用。對於離線標籤,我們可以選擇不佔用高儲存成本的資源,例如將資料儲存在 Redis 或 HBase 中。而對於線上標籤,需要確保系統能夠快速回應使用者請求,並提供穩定的服務。因此,在選擇存取方式時,我們需要根據實際情況進行權衡和選擇,以確保系統的效能和穩定性。
在畫像標籤系統的生產過程中,我們需要對各類資料來源進行一系列的處理,最終產生標籤。其中,ID Mapping 是一個關鍵環節。 ID Mapping 的目標是解決不同ID 指向同一人的問題,特別針對早期成立的公司,由於註冊方式多樣,可能會出現多個 ID 對應同一用戶的情況。例如,用戶透過郵箱註冊後可以綁定或更改手機號,或曾經允許未登入狀態下使用,這些情況都可能導致多個 ID 對應同一用戶。
為了解決這個問題,ID Mapping 承擔著實作多裝置關聯的任務。另外,ID Mapping 對於風控來說也是至關重要的基礎步驟。透過 ID Mapping,可以更好地識別和關聯不同設備的使用者,從而更好地進行風險控制和安全管理。透過合理的 ID Mapping 設計和管理,我們可以更好地保護使用者隱私和資料安全,同時提高畫像標籤系統的準確性和可靠性。
畫像標籤平台也稱之為CDP 平台,包含了畫像標籤的生產、資料分析、業務應用、效果分析等服務。下圖為去哪裡 CDP 平台的功能架構。
在去哪裡網,疫情發生後加強了內部能力的建設,將畫像標籤與主流策略平台進行了整合。目前該平台涵蓋了畫像標籤的整個生命週期,可實現畫像構建、人群圈選以及最終的營銷動作等功能。透過這樣的整合,能夠更好地實現數據驅動的行銷策略,將使用者畫像與行銷活動無縫連接起來。這有助於提高行銷效果和使用者滿意度,同時也有利於企業內部的資料整合和協同工作。
在實踐過程中,基於樣本和技術棧,可以將模型類別標籤常用演算法分為如下幾大類別:
(1)分類演算法:在業務流程中利用預測類別標籤來進行圈選和業務過濾,需要擁有足夠的樣本資料來進行訓練和最佳化模型,從而提高預測準確率。預測類標籤不僅限於訂單支付預測,還可以包括搜尋支付預測、搜尋預測、詳情頁預測等。
(2)推薦演算法:與排序和優先順序相關,需要更廣泛的前沿知識和技術堆疊。推薦演算法的目標是從召回集中為用戶推薦合適的飯店房型。例如,對於親子出遊的場景,推薦演算法可以為使用者推薦雙床房或套間等合適的飯店房型。
(3)知識圖譜:利用圖資料庫技術更好地揭示使用者及其周邊關係。風控場景中應用較多,例如識別異常使用者和判斷是否為惡意使用者。
(4)因果推論:透過一個例子解釋了向使用者發送簡訊和 push 訊息對行銷效果的影響,並涉及成本問題。
(5)圖形影像:結合圖形影像處理技術,對圖形影像進行打標。涉及到對圖像的分割、識別等技術,但更多的是透過使用者標籤反向應用到圖像打標上。例如,對於發表不正當評論的用戶,將其標籤提取出來,並應用到圖形圖像打標演算法中,以提高打標的效率和準確性。
(6)NLP 機器人
(7)lookalike 行銷演算法:即透過種子使用者進行擴展行銷的演算法。
基於需求的型別會有不同的分類方法:
只依賴畫像標籤進行篩選可能產生大量不符合需求的目標用戶,如何對這些用戶進行排序成為了一個難題。傳統的方法如根據價值、活躍度等進行排序,很難確保選出的用戶與目標用戶群最為相似。而透過知識圖譜或頻繁模式,我們可以衡量使用者之間的相似度,而這種相似度是可量化和擴展的。透過關係層面,演算法能夠更準確地找到與目標使用者相似的使用者群體。
與傳統的關聯規則和畫像標籤相比,因果推論能夠解決更深層的問題。關聯規則和畫像標籤主要解決的是相關性問題,例如“購買啤酒的用戶也可能會購買尿布”,但無法解釋為什麼存在這種相關性。在不同的文化和市場中,這種相關性可能並不成立。因此透過歷史資料和模型進行因果推斷,可以找到影響使用者行為和轉換的關鍵因素。這些關鍵因素可以透過關係發現被找到,進而幫助我們更理解使用者行為和業務過程。
例如右上角紅色部分透過對業務的理解篩選出的更能體現業務的過程的部分,從而去擴充更多的用戶出來。
在物的在畫像建造過程中,我們主要關注的是物的屬性和特徵,例如飯店畫像中的城市、商圈、航線、航班等。這些屬性有助於我們更準確地描述和了解物,並為其畫像提供豐富的內容。
與使用者畫像相比,物的畫像更強調物與物之間的相似性。在實踐中,我們通常利用物的相似性進行推薦和排序等操作。為了衡量物與物之間的相似性,可以採用多種方法,例如屬性向量和 embedding。這些方法可以將物表示為向量,並利用這些向量進行相似性計算。需要注意的是,物的畫像建構過程與使用者畫像建構過程雖然相似,但在實際應用中,我們需要根據業務需求和場景進行適當的調整和最佳化。同時,也需要深入分析物與物之間的關係與層次結構,以確保物的畫像能準確反映業務需求。
此外,在物的畫像建構過程中,我們還需要專注於一些關鍵問題。
(1)相近並不表示相似。例如,在使用 embedding 方法時,如果高價值的使用者群體搜尋的都是五星級飯店,那麼這些五星級飯店之間的相關性可能會很強。但在某些業務場景中,這種相關性可能並不適用。因此,我們需要根據具體業務場景仔細考慮物的相似性。
(2)冷啟動問題。例如在飯店畫像中,當一個新的飯店上線時,它可能缺乏使用者行為資料。為了解決這個問題,我們可以利用屬性距離來抽取大維度的標籤屬性,建構一個偏用戶態的畫像標籤,並利用這個標籤進行相似度計算。
(3)可解釋性
#畫像標籤在行銷的精選和擴散過程中扮演了至關重要的角色。透過合理運用畫像標籤,營運人員可以對已選定的使用者群體進行更細緻的分析和篩選,當營運人員覺得初始精選的使用者群體過大或過小,或者行銷效果需要進一步擴大或優化時,可以透過畫像標籤進行擴散或重新精選以達到更好的行銷效果。
然而,在進行畫像標籤的精選和擴散時,最常見的是用戶轉化和運營幹預的四象限問題。這四個像限分別代表不同的使用者轉換狀態和營運介入策略,需要針對不同情況進行不同的因應措施。例如,對於高轉換低介入的用戶,可以採取維持現狀的策略;對於低轉換低介入的用戶,可以採取促進轉換的策略等。
以下是畫像標籤在應用過程中行銷精選擴散的四個階段:
科學分析:深入挖掘用戶數據,精準定位目標群體,以提升轉化效果。
輔助圈選:利用標籤高效篩選目標用戶,提升行銷活動的針對性與效率。
智慧擴量:基於演算法和模型,對使用者群體進行智慧分類和擴量,以擴大行銷覆蓋範圍。
模型落地:結合實際行銷活動,優化畫像標籤和策略,達到最佳的行銷成效。
透過畫像標籤系統來分析業務指標的好壞,並進一步優化策略。在業務迭代過程中,我們通常使用歸因分析演算法和商業分析等方法來產生策略。然後進行實驗測量,如果實驗策略表現良好,就會全量上線。
#然而,在這個過程中會遇到兩個問題:如何分析指標的好壞以及實驗結果的好壞。為了解決這些問題,我們需要進行業務指標的歸因分析。首先,透過報表、警報等途徑發現業務問題,找出問題的原因,明確具體的場景和實際的轉換關係。接著,定位問題的原因,並判斷這個原因是可控的還是不可控的。如果是不可控的,可能就是一個自然抖動,不需要太多關注;如果是可控的,就需要進一步探究是否存在未知的場景導致這個問題。
在質性分析模組中,我們會明確可控因素和不可控因素,並挖掘一些未知的場景出現問題的原因。最後,給予建議,指導業務人員在什麼場景下去做。這個場景其實就是某個業務的轉換率下降了,透過整個業務的分析過程,我們可以得到非市場因素和可控制因素分別佔比多少。如果市場因素佔比較大,那我們就可以先落後解決這個問題,不必立即動用大量人力物力。
在負責去哪裡的AB 實驗系統的過程中,我們常常面對一些挑戰。當產品團隊投入大量時間和資源完成實驗後,如果實驗結果不顯著,很容易產生諸如「為什麼實驗無效」和「下一步迭代的方向是什麼」等疑問。
為了解決這些問題,我們進行了 AB 實驗效能分析,主要分為三個部分。首先,我們透過業務流程漏斗模型、核心使用者畫像標籤識別以及業務領域誤導標籤識別,嘗試判斷實驗效果不佳是否因為量提升不夠。其次,運用決策樹等分析方法,探究質的提升是否有問題,例如其他實驗的衝突或提升量未達到顯著比例的情況。最後,量化動作效能,明確每個動作對目標的影響程度。
透過這些分析流程,我們可以為產品團隊提供具體的指導,幫助他們選擇效能更高的方向進行最佳化,從而實現質的提升。這些分析不僅有助於優化產品迭代方向,還能為公司節省資源與時間,並提高整體業務效果。
A1:使用者行為資料主要記錄了使用者在 APP 端的互動行為,如點擊等,這些資料主要反映使用者互動的過程。而業務資料則涉及後台處理的各種訊息,例如代理連接流程、物流資訊等,這些資料雖然對使用者來說是不可見的,但對於理解整個業務流程和提升使用者體驗同樣至關重要。在實際操作中,我們需要將這些資料納入我們的畫像標籤系統中,以便更好地分析和理解使用者行為和業務流程。例如對於電商平台來說,有些資料可能對使用者無關緊要,但有些則涉及使用者體驗和業務流程,因此需要適當的篩選和處理。
A2:串流標籤可以透過串流運算來實現,例如使用 Flink 等工具。使用者可以拖曳定義好的數據,透過串流計算進行標籤的計算。同時,也可以上傳 Python 程式碼或 SQL 程式碼進行自訂的計算。此外,還可以透過 Spark 等方式來支援。在流式標籤中,需要限制計算的量和時間窗口,以滿足不同需求。
串流標籤可以支援複雜的標籤規則。使用者可以透過上傳 Python 程式碼或 SQL 程式碼來實現更複雜的標籤計算。
串流標籤可以透過資料開發和視覺化配置兩種方式來實現。在去哪旅行平台上,使用者可以拖曳定義好的數據,透過串流計算進行標籤的計算,也可以上傳 Python 程式碼或 SQL 程式碼進行自訂的計算。
A3:即時標籤是指在使用者行為或業務事件發生時,即時計算並套用的標籤。例如,當使用者在前端介面提交投訴時,系統會即時分析使用者的訴求和訂單問題,並為使用者打上相應的即時標籤。這種即時標籤能夠快速反映使用者的需求和問題,以便及時地進行處理和優化。不同公司對即時標籤的定義有所不同,去哪裡 3 秒以內的算實時,而小時都稱之為是非實時的一個場景。
A4:隨著行動網路的普及,越來越多的公司開始採用手機號碼作為用戶唯一的識別碼。一鍵登入已成為業界通用的做法,使得用戶能夠更方便地登入和使用應用程式。對於去哪裡這樣的平台,我們也採用了手機號碼作為使用者唯一的 ID。在大多數情況下,我們會將手機號碼視為使用者的唯一識別碼。但在某些特殊情況下,我們也會考慮用戶更換手機號碼的場景,並對其進行相應的處理。此外,為了更好地管理和識別用戶,當一個手機號碼在兩個裝置上登入時,我們會透過一系列的判斷來確定用戶對裝置的持有狀態。如果使用者是臨時登入設備,我們將其視為訪客;如果使用者長期持有該設備,則將其視為持有人。
A5:其中最常見的是貨品定價。為了實現貨品定價的個人化,我們需要使用貨品標籤。這些標籤是基於內部因素和外部因素的具體數值計算得出的。如果內在因素沒有得到適當的梳理,外在因素的影響可能會被誇大。 可以理解為類似於暴力求解的方式,我們把每一個因素都放進去試,然後去看每個因素對它的影響是多少,並且在每個因素裡判斷它是相關性還是因果性。
A6:即時標籤在建成之後,我們已經透過開發層面去盡可能地窮舉了一些透過基礎的統計就能出來的一些即時標籤。至於說像規則類別和模型類別的即時標籤,肯定是要客製化開發的。
A7:在建立之初會有一些一次性的標籤,用完就不使用了。
A8:更小的业务公司,可能流量先天性就不够,你想要达到一个最小样本量,操作层面也不太能实现,所以我们需要有一些在没有达到最小样本量的时候,能快速去大致地推断这个实验效果。
A9:展示每一个公司都不一样。从存储角度来说去哪儿是有多个存储方式的,我们可以容忍一部分数据的冗余存储,主要还是为了以实时响应快为准,就是它在访问化标签的时候,我们尽可能地以一个低耗时去访问它。
A10:其实这个我现在通过去哪儿这边的实践来说,大模型在算法标签应用是非常的广的。首先最简单的一个例子,我们在构建户的画像的时候,经常会遇到 POI 地标数据,地标的数据是从一些文档里面抽取的,可能这个就大模型在用,这个地方的准确率说实话比我们以往自己构建的一些模型效果好很多。以及我们在构建知识图谱的时候,会遇到一些实体消歧、实体合并等等。
A11:其实不是的,这个推荐是推荐工程师,但是推荐算法要用到画像工程师的结果,画像工程师需要把画像标签的质量和这个应用的场景作出清晰的描述以便于推荐排序工程师能够更好地使用。
以上是畫像標籤體系建構與應用實踐的詳細內容。更多資訊請關注PHP中文網其他相關文章!