#首先來介紹我們對多模態內容的感知。
提升內容理解能力,讓廣告系統在細分場景下更懂內容。
在提升內容理解能力時,會遇到許多現實的問題:
什麼是好的多模態基礎表徵。
什麼是一個好的多模態表徵?
從廣度上要擴大資料應用的範圍,從深度上要提升視覺效果,同時確保場景的資料微調。在
之前,常規的思路是,訓練一個模型去學習圖片的模態,一個自回歸的任務,然後做文本的任務,再套用一些雙塔的模式,去拉近二者的模態關係。那時的文字建模比較簡單,大家更多的是在研究視覺怎麼建模。最開始是CNN,後麵包括一些基於目標檢測的方式去提升視覺的表徵,例如bbox方式,但這種方式的檢測能力有限,並且太重了,並不利於大規模的資料訓練。
到了2020年和2021年前後, VIT方式成為了主流。這裡不得不提的一個比較有名的模型就是 OpenAI在20年發布的一個模型CLIP,基於雙塔的架構分別去做文字和視覺的表徵。再用cosine去拉進二者的距離。模型在檢索上面非常優秀,但在VQA任務等一些需要邏輯推理的任務上,就稍微顯出能力不足了。
學表徵:提升自然語言對視覺的基礎知覺能力。
我們的目標就是要提升自然語言對視覺的基礎感知能力。數據方面,我們的商業領域有著億級的數據,但仍然不夠,我們需要進一步擴展,引入商業域以往的數據,並進行清洗和梳理。建構了百億級別的訓練集。
我們建構了VICAN-12B多模態表徵生成模型,利用生成任務讓視覺對文本的還原,進一步確保視覺表徵對文本的融合效果,提升自然語言對視覺的基礎感知能力。上圖中展示了模型的整體結構,可以看到它還是一個雙塔 單塔的複合結構。因為首先要解決的是一個大規模的圖片檢索任務。左邊的框框中的部分我們稱之為視覺的感知器,是20億參數規模的ViT結構。右邊可以分成兩層看,下面為了做檢索,是一個文字的transformer的堆疊,上面為了做生成。模型分為了三個任務,一個是生成任務,一個是分類任務,一個是圖片對比任務,基於這三個不同目標去訓練模型,所以達到了比較好的效果,但我們也會進一步去優化。
一套高效率、統一、可遷移的多場景全域表徵方案。
結合商業場景數據,引入了LLM模型提升模型理解能力。 CV模型是感知器,LLM模型是理解器。我們的做法就是需要把視覺特徵做對應的遷移,因為剛才提到,表徵是多模態的,大模型是基於文字的。我們只要讓它去適合我們的文心LLM的大模型就可以了,所以我們需要利用Combo attention的方式,去做對應的特徵融合。我們需要保留大模型的邏輯推理能力,所以盡量不動大模型,只是加入商業場景回饋數據,去促進視覺特徵到大模型的融合。我們可以用few shot的方式去支撐下任務。主要任務包括:
下面,重點分享下場景化精調。
視覺檢索場景,基於基礎表徵的雙塔微調。
以基礎表徵為基礎,結合文字大模型,利用商業各場景的圖片點擊回饋訊號為Labelers,精細化刻畫不同場景圖文偏序關係。我們在7大數據集上進行了評測,都可以達到SOTA的效果。
排序場景,受文本切詞啟發,將多模態特徵語意量化。
表徵以外,另一個問題是如何提升排序場景中視覺的效果。先來看領域背景,大規模離散DNN為業界排序模型主流發展方向,離散特性也是排序模型最佳化的核心。文本入模型,基於切詞將其token化,與其他離散特徵組合,效果佳。而對於視覺,我們希望也能將其進行token化。
ID類別特徵其實是一個極具個性化的特徵,但是泛化特徵通用性好了,其刻畫精度可能就變差了。我們需要透過數據和任務去動態調節這個平衡點在哪。也就是希望找到一個和資料最相關的尺度,去把特徵進行對應的」切詞」變成一個ID,像文字一樣去切分多模態特徵。所以我們提出了一個多尺度、多層次的內容量化學習方法,去解決這個問題。
排序場景,多模態特徵與模型的融合 MmDict。
主要分兩步,第一步是學離散,第二步是學融合。
① 利用稀疏活化將連續訊號用多個離散化訊號表達;也就是透過稀疏活化的方式把稠密特徵進行切分,然後去激活對應多模態codebook裡面的ID,但這裡面其實只有argmax操作,會引來不可導的問題,同時為了去防止特徵空間的坍塌,加入了激活神經元與未激活神經元信息交互。
② 引入 STE 策略,解決網路不可導問題, rebuild原始特徵,確保偏序關係不變。
透過encoder-decoder的方式,把稠密特徵進行序列量化,再透過正確的方式把量化出來的特徵進行還原。還原前後要確保它的偏序關係不變,幾乎可以控制特徵在具體任務上的量化損失小於1%,這樣的ID具備了當下資料分佈個性化的同時,還具有泛化特性。
① 與排序模式大規模離散在 Sparse層融合。
那麼剛才提到的隱層複用直接放在上面去,其實效果一般。如果把它ID化,量化之後,到sparse特徵層和其他類別的特徵進行融合,有著比較好的效果。
② 通過中心 -> 殘差2層級,S-M-L 3種尺度,降低損失。
當然我們也採用了一些殘差,以及多尺度的方式。從2020年開始,我們把量化的損失逐步壓低,去年達到了一個點以下,這樣就可以在大模型抽出來特徵之後,我們用這種可學習量化的方式對視覺內容進行刻畫,具備語義關聯ID的特徵其實非常適配我們現在的商業系統,包括推薦系統的ID的這樣一個探索的研究方式。
##百度行銷AIGC創意平台從靈感到創作,再到投放形成了一個完美的閉環。從解構、生成、回饋都在推進優化我們的AIGC。
一個好的商業Prompt,具備以下一些要素:
影片生成目前已經比較成熟。但它其實依然存在著一些問題:
前期透過prompt來輸入,想產生一個什麼樣的視頻,希望選擇一個什麼樣的人,讓他去說什麼,都透過prompt來輸入,然後我們根據其訴求,能夠準確控制我們的大模型去產生對應的腳本。
接下來我們可以透過我們的數位人庫去召回對應的數字人,但可能利用AI技術進一步提升數字人的多樣性,例如人臉替換、背景替換、口音語音替換去適配我們的prompt,最後腳本、數字人唇形替換、背景替換、人臉替換,視頻壓制之後,就可以得到一個口播視頻。顧客得以利用數位人的方式去介紹產品對應的一些行銷賣點。這樣3分鐘即可做好一個數字人,大大提升了廣告主當數字人的能力。
大模型還可以幫助商業實現行銷海報的生成與商品背景的替換。我們已有一個百億規模的多模態表徵,中間這一層是我們學的一個擴散,我們基於好的動態表徵去學unet。在經過大數據的訓練之後,客戶也希望有一些特別個人化的東西,所以我們還需要加入一些微調的方式。
我們提供了一個幫助客戶微調的方案,一個大模型動態載入小參數的方案,這也是目前業界的一個通用的解決方案。
首先我們為客戶提供一個生圖能力,客戶可以透過編輯或Prompt去改變這個圖片背後的背景。
以上是百度商業多模態理解及 AIGC 創新實踐的詳細內容。更多資訊請關注PHP中文網其他相關文章!