AI 引領的新一代資訊技術,正驅動新一波科技浪潮席捲而來。作為近年來國內發展最為迅速的行動網路平台之一,小紅書乘勢而上,目前已經形成了以圖文和短影片內容為主的超大型 UGC 社群。在這個獨特而活躍的社群裡,每天都會產生大量多模態資料及使用者行為回饋,催生出兼具價值與挑戰的新議題。
目前,大規模深度學習系統正發生著許多令人興奮的進展。 10 月15 日「小紅書REDtech 青年科技沙龍」活動中,小紅書科技副總裁凱吉進行了《大規模深度學習系統技術及其在小紅書的應用》分享,為我們揭開LarC 的「神秘面紗」。
凱奇:小紅書技術副總裁,畢業於上海交通大學,曾擔任歡聚時代技術副總裁和百度鳳巢首席架構師,負責百度搜尋廣告 CTR 機器學習演算法工作。曾任 IBM 深度問答(DeepQA)專案中國技術負責人。
以下內容根據凱吉現場報告整理
小紅書是一個蓬勃發展的內容社區,大量懂生活、愛分享的人在這裡交換著彼此的生活體驗和生活態度,並不斷吸引著越來越多的用戶加入。現在,小紅書已經有2 億的月度活躍用戶,90 後佔比70% 以上,50% 的用戶來自於一、二線城市,也有一半來自於三、四線城市,用戶構成非常豐富和年輕化。
“普通人”在分享他們“真實”的“生活體驗”,是小紅書與其他內容平台和社區非常大的一個不同點。首先,分享者都是“普通人”,其次,“真誠分享,友好互動”是小紅書社區公約,“真誠”是很重要的一點。這些社群中的分享和我們的離線生活消費有著緊密的聯繫,例如寶藏書店、或是怎麼穿衣搭配、怎麼裝修、怎麼做菜等內容,都是大家的日常「生活體驗」。
我們用一些數字也可以去衡量小紅書社群這些年的發展,我們看到,筆記發布量從2018 年到2021 年是每年都以非常快的速度在成長,2020 到2021 年,小紅書用戶筆記發布量較去年同期成長超150%。
#在這樣一個高速發展的內容社群裡,最主要的三大業務就是社群、商業化和電商。
首先,我們的內容社群和內容平台是一個涵蓋全生活品類,以 UGC 為主的生活方式內容社群。也因為這種貼合生活和日常消費的“真誠分享”,用戶對我們的社區內容有很高的信任度,大家在看到好的生活方式、消費內容、服務和產品等時會被“種草”,我們透過獨特的“種草”商業模式帶來品牌和效果的轉化。
“種草後是不是順便可以拔個草”,在消費內容的同時,大家也希望能夠自然、方便地買到自己心儀的物品,這是我們高效的閉環消費場域,也就是電商這一部分。
多模態技術是當前整個AI 領域廣受關注、發展迅速的技術方向之一,UGC 社群和內容生態中包含大量的圖文、影片、文字和使用者行為訊息,產生了海量高品質的多模態數據,因此成為了極佳的實踐場景。用戶看到好的內容按讚、做的各種搜尋行為、對某個影片的觀看等等,構成了大量用戶實際的回饋。
現在每一天實際透過使用者行為產生的回饋樣本量都有幾百億的等級。 如何在海量的多模態資料中挖掘使用者感興趣的內容和好的商業內容,從這個目標出發,衍生出許多有價值同時也具備挑戰性的問題.
我們是怎麼去解決這些技術的:
打開小紅書,首先映入眼簾的就是列的瀑布流或內容流,這些都是推薦系統給大家推薦的內容。根據統計,小紅書每天產生的使用者行為達到數百億等級的規模。對於這些數據,小紅書技術團隊使用基於 LarC 的機器學習框架對模型進行訓練,根據使用者行為中的規律,找出使用者感興趣的內容並推薦給使用者。
下圖為小紅書推薦模型的大概結構。這是一個多任務的機器學習模型,它能夠預估使用者的點擊、停留時間、是否按讚收藏等行為。針對小紅書平台產生的海量的係數參數,小紅書透過超大規模無衝突的參數伺服器,對這些參數進行更新和捕捉。
推薦系統的 Online Training 如下。當使用者在瀏覽資訊流的時候,推薦系統會即時捕捉用戶的瀏覽、點擊、按讚等行為,這些行為會基於Flink 即時處理的計算引擎對這些數據進行拼接,從而產生高效能的樣本,然後這些樣本會被即時送到模型中去做預估。同時,這些短暫累積的樣本也會用來做一次非常短暫的 Online Training 來更新模型參數。這些更新後的模型參數會立刻發佈到線上,去服務下次的請求。整個過程是保持在分鐘級別的。
業界還有一個經典問題,例如大家瀏覽推薦內容時常會發現:為什麼要密集地推送我以前看過的東西?我看的東西新鮮感不夠了怎麼辦?
在推薦場景中,關注較短的時間週期會使得追打和資訊繭房問題嚴重,小紅書技術團隊對用戶的多元化長短期行為設計了不同的序列建模方式,在多個維度帶來了顯著提升。此外,關於內容推薦的多樣性問題,小紅書技術團隊將傳統的多樣性做法從DPP 改進到SSD 演算法,在資訊流推薦的場景中高效地滑窗計算,從而將單篇模型的價值排序轉化為整個瀏覽週期的建模。這背後所依賴的是孿生神經網路學習長尾內容的相似性。
相關工作成果我們已經發表在KDD 2021 會議上,它從單篇價值的預估轉變成一個序列價值的預估,從單篇的多樣性轉變成多篇的多樣性,背後也是基於SSD 演算法,以及基於這個孿生神經網路對內容相似性的評估。
由於小紅書社群包含了的大量實際生活當中非常有用的信息,很多用戶都會把小紅書當作搜尋引擎來用。這其中包含一些挑戰,例如多種資料形態的搜尋、長尾現象嚴重、意圖理解問題等。
現有的圖文搜尋引擎,透過文字可以搜尋圖片,但做法都相對簡單,通常都是給圖片打上文字的標籤,然後再做文字的匹配。小紅書團隊建構的下一代多模態泛生活搜尋引擎,它基於對多模態內容深入的理解,透過圖文、文字真正搜尋視覺的內容,也能夠根據使用者的特徵去做更個人化的搜尋.
什麼叫做泛生活知識搜尋引擎?例如我們在小紅書上看到了一件好看的衣服或鞋子,想搜一搜它的搭配有哪些,以及在不同場合下它分別展現出怎樣的感覺。這是關於生活知識的搜索,同時它又是一個多模態的搜索。
這其中顯示的是小紅書技術團隊規劃的多模態,特別是對於搜圖片這樣的技術架構,其中非常關鍵的一個依賴是特徵多模組,需要依賴大規模的神經網絡去做表徵學習,對圖片中包含的內容,無論是衣服、鞋子或其他商品商品,都能有一個很好的表徵。很好的從大量的多模態內容當中檢索出相同的商品或相似的商品,這是我們在搜尋上對大規模神經網路的一個應用。
與其他平台相比,小紅書的商業內容有一個很大的不同點-原生化。所謂原生化,就是從按讚、留言等行為去看,用戶對這個內容非常欣賞,可能完全感覺不到它是一個商業內容。但是對於平台上的商家來說,製作這樣的商業內容的門檻很高。如何平衡商家的商業意圖與生產內容的使用者價值,是一個很關鍵的問題。
為此,小紅書技術團隊使用了基於大規模神經網路的生成式技術,來幫助商家根據內容去產生更好的標題和內容。例如商家可以選擇進行多個賣點表達,也可以選擇突出目標客戶群,或者是喜歡的小紅書風格,機器會自動給出建議的標題,在引用機器創作的標題後,無論業務效果、點擊或者是停留時長都得到了很好的提升,用戶也是非常喜歡這樣的內容,所以它做到商業和用戶價值很好的平衡。
這背後其實是基於大規模的預訓練模型,包括業界較為領先的T5、BERT、GPT 等模型架構,這些模型架構都在小紅書海量在的多模態資料上進行了訓練。一部分的預訓練模型用來去做筆記內容理解,一部分預訓練模型會被用來去指導生成式模型去產生標題,這些都是相關技術在商業領域的應用方式。
#上述所有的機器學習內容,其實都是基於小紅書技術團隊自研的LarC 機器學習平台。它啟動於 2019 年,到了 2020 年和 2021 年,相關的機器學習框架和平台推廣到了搜尋、推薦、廣告等所有領域。 2022 年,LarC 實現了平台化。
目前,LarC 機器學習平台的能力已經相當完整,涵蓋從底層基礎設施到計算框架、資源調度、離線應用以及在線部署多個層面(其中標黃部分代表已經實現)。
借助 LarC 機器學習平台,小紅書技術團隊希望能夠幫助所有演算法同學迅速、有效率地處理海量數據,訓練大規模機器學習和深度學習模型。
小紅書是高速發展的內容社區,「普通人」、「真實分享」、「生活體驗」是它的關鍵字。
在這樣一個具有大量的多模態資料及使用者回饋資料場景下,催生出許多尖端技術探索。以上是從大量技術工作當中挑了一些點出來跟大家做分享,其實還有很多內容,希望大家能夠從當中對小紅書的技術和大規模的深度學習有所了解。
以上是首次解密小紅書「種草」機制:大規模深度學習系統技術是如何應用的的詳細內容。更多資訊請關注PHP中文網其他相關文章!