百度商業多模態理解及 AIGC 創新實踐
一、富媒體多模態理解
#首先來介紹我們對多模態內容的感知。
1、多模態理解
提升內容理解能力,讓廣告系統在細分場景下更懂內容。
在提升內容理解能力時,會遇到許多現實的問題:
- 商業業務場景多、行業多,獨立建模冗餘且會導致過擬合,場景間分佈共性和特異性,統一建模如何兼顧。
- 商業視覺材料週邊文字差,容易導致配圖badcase。
- 系統充斥無意義ID類別特徵、泛化性差。
- 富媒體時代,如何有效率地利用視覺語義,這些內容特徵、影片特徵和其他特徵如何融合,是我們需要去解決的,用以提升系統內對富媒體內容的感知力度。
什麼是好的多模態基礎表徵。
什麼是一個好的多模態表徵?
從廣度上要擴大資料應用的範圍,從深度上要提升視覺效果,同時確保場景的資料微調。在
之前,常規的思路是,訓練一個模型去學習圖片的模態,一個自回歸的任務,然後做文本的任務,再套用一些雙塔的模式,去拉近二者的模態關係。那時的文字建模比較簡單,大家更多的是在研究視覺怎麼建模。最開始是CNN,後麵包括一些基於目標檢測的方式去提升視覺的表徵,例如bbox方式,但這種方式的檢測能力有限,並且太重了,並不利於大規模的資料訓練。
到了2020年和2021年前後, VIT方式成為了主流。這裡不得不提的一個比較有名的模型就是 OpenAI在20年發布的一個模型CLIP,基於雙塔的架構分別去做文字和視覺的表徵。再用cosine去拉進二者的距離。模型在檢索上面非常優秀,但在VQA任務等一些需要邏輯推理的任務上,就稍微顯出能力不足了。
學表徵:提升自然語言對視覺的基礎知覺能力。
我們的目標就是要提升自然語言對視覺的基礎感知能力。數據方面,我們的商業領域有著億級的數據,但仍然不夠,我們需要進一步擴展,引入商業域以往的數據,並進行清洗和梳理。建構了百億級別的訓練集。
我們建構了VICAN-12B多模態表徵生成模型,利用生成任務讓視覺對文本的還原,進一步確保視覺表徵對文本的融合效果,提升自然語言對視覺的基礎感知能力。上圖中展示了模型的整體結構,可以看到它還是一個雙塔 單塔的複合結構。因為首先要解決的是一個大規模的圖片檢索任務。左邊的框框中的部分我們稱之為視覺的感知器,是20億參數規模的ViT結構。右邊可以分成兩層看,下面為了做檢索,是一個文字的transformer的堆疊,上面為了做生成。模型分為了三個任務,一個是生成任務,一個是分類任務,一個是圖片對比任務,基於這三個不同目標去訓練模型,所以達到了比較好的效果,但我們也會進一步去優化。
一套高效率、統一、可遷移的多場景全域表徵方案。
結合商業場景數據,引入了LLM模型提升模型理解能力。 CV模型是感知器,LLM模型是理解器。我們的做法就是需要把視覺特徵做對應的遷移,因為剛才提到,表徵是多模態的,大模型是基於文字的。我們只要讓它去適合我們的文心LLM的大模型就可以了,所以我們需要利用Combo attention的方式,去做對應的特徵融合。我們需要保留大模型的邏輯推理能力,所以盡量不動大模型,只是加入商業場景回饋數據,去促進視覺特徵到大模型的融合。我們可以用few shot的方式去支撐下任務。主要任務包括:
- 圖片的描述,其實它不只是個描述,而是一個Prompt逆向工程,優質的圖文資料可以作為我們後面文生圖的一個比較好的資料來源。
- 圖文相關性控制,因為商業需要做配置,需要做對圖片資訊的理解,我們廣告配圖的搜尋字詞和圖片語意其實是需要做控制的,當然這是一個很通用的方式,就可以對圖片和Prompt進行相關的判定。
- 圖片風險&體驗控制,我們已經能夠對圖片的內容進行比較好的描述了,那麼我們只需要簡單利用風控的小樣本數據遷移就能夠清楚知道它是否涉及一些風險問題。
下面,重點分享下場景化精調。
2、場景化精調
視覺檢索場景,基於基礎表徵的雙塔微調。
以基礎表徵為基礎,結合文字大模型,利用商業各場景的圖片點擊回饋訊號為Labelers,精細化刻畫不同場景圖文偏序關係。我們在7大數據集上進行了評測,都可以達到SOTA的效果。
排序場景,受文本切詞啟發,將多模態特徵語意量化。
表徵以外,另一個問題是如何提升排序場景中視覺的效果。先來看領域背景,大規模離散DNN為業界排序模型主流發展方向,離散特性也是排序模型最佳化的核心。文本入模型,基於切詞將其token化,與其他離散特徵組合,效果佳。而對於視覺,我們希望也能將其進行token化。
ID類別特徵其實是一個極具個性化的特徵,但是泛化特徵通用性好了,其刻畫精度可能就變差了。我們需要透過數據和任務去動態調節這個平衡點在哪。也就是希望找到一個和資料最相關的尺度,去把特徵進行對應的」切詞」變成一個ID,像文字一樣去切分多模態特徵。所以我們提出了一個多尺度、多層次的內容量化學習方法,去解決這個問題。
排序場景,多模態特徵與模型的融合 MmDict。
主要分兩步,第一步是學離散,第二步是學融合。
Step1:學離散
① 利用稀疏活化將連續訊號用多個離散化訊號表達;也就是透過稀疏活化的方式把稠密特徵進行切分,然後去激活對應多模態codebook裡面的ID,但這裡面其實只有argmax操作,會引來不可導的問題,同時為了去防止特徵空間的坍塌,加入了激活神經元與未激活神經元信息交互。
② 引入 STE 策略,解決網路不可導問題, rebuild原始特徵,確保偏序關係不變。
透過encoder-decoder的方式,把稠密特徵進行序列量化,再透過正確的方式把量化出來的特徵進行還原。還原前後要確保它的偏序關係不變,幾乎可以控制特徵在具體任務上的量化損失小於1%,這樣的ID具備了當下資料分佈個性化的同時,還具有泛化特性。
Step2:學融合
① 與排序模式大規模離散在 Sparse層融合。
那麼剛才提到的隱層複用直接放在上面去,其實效果一般。如果把它ID化,量化之後,到sparse特徵層和其他類別的特徵進行融合,有著比較好的效果。
② 通過中心 -> 殘差2層級,S-M-L 3種尺度,降低損失。
當然我們也採用了一些殘差,以及多尺度的方式。從2020年開始,我們把量化的損失逐步壓低,去年達到了一個點以下,這樣就可以在大模型抽出來特徵之後,我們用這種可學習量化的方式對視覺內容進行刻畫,具備語義關聯ID的特徵其實非常適配我們現在的商業系統,包括推薦系統的ID的這樣一個探索的研究方式。
二、擎舵
1、商業AIGC 深度結合行銷,提升內容生產力,效率效果連動優化
##百度行銷AIGC創意平台從靈感到創作,再到投放形成了一個完美的閉環。從解構、生成、回饋都在推進優化我們的AIGC。
- 靈感:AI理解(內容&使用者理解)。 AI能不能幫助我們去找什麼樣的Prompt是好的。從素材洞察到創意指導。
- 創作:AIGC,如文字生成,圖片生成,還有數位人、影片生成等等。
- 投放:AI優化。從經驗試誤到自動優化。
一個好的商業Prompt,具備以下一些要素:
- 知識圖譜,比如說賣車,車到底需要包含哪些商業元素,只有品牌是不夠的,廣告主更希望有一個完整的知識體系;
- 風格,例如現在『文藝範』的宣傳體,其實是需要把它抽象成一些標籤,去幫助我們判斷主要是什麼樣的行銷標題或行銷的一些描述。
- 賣點,賣點其實就是產品屬性的一個特徵,也就是最強而有力的消費理由。
- 使用者畫像,是根據目標的行為觀點的差異區分為不同類型,迅速組織在一起,然後把新得出的類型提煉出來,形成一個類型的使用者畫像。
影片生成目前已經比較成熟。但它其實依然存在著一些問題:
- 腳本寫作:受限於人的知識和經驗,難以持續高品質寫作,同質化嚴重。
- 素材準備:專業團隊、演員、素材儲備等成本高工具賦能,以「拼裝合成」為主。
- 後製:後製靠人工試錯,操作繁瑣。
前期透過prompt來輸入,想產生一個什麼樣的視頻,希望選擇一個什麼樣的人,讓他去說什麼,都透過prompt來輸入,然後我們根據其訴求,能夠準確控制我們的大模型去產生對應的腳本。
接下來我們可以透過我們的數位人庫去召回對應的數字人,但可能利用AI技術進一步提升數字人的多樣性,例如人臉替換、背景替換、口音語音替換去適配我們的prompt,最後腳本、數字人唇形替換、背景替換、人臉替換,視頻壓制之後,就可以得到一個口播視頻。顧客得以利用數位人的方式去介紹產品對應的一些行銷賣點。這樣3分鐘即可做好一個數字人,大大提升了廣告主當數字人的能力。
4、行銷海報圖生成,結合多模態表徵的行銷圖片生成
大模型還可以幫助商業實現行銷海報的生成與商品背景的替換。我們已有一個百億規模的多模態表徵,中間這一層是我們學的一個擴散,我們基於好的動態表徵去學unet。在經過大數據的訓練之後,客戶也希望有一些特別個人化的東西,所以我們還需要加入一些微調的方式。
我們提供了一個幫助客戶微調的方案,一個大模型動態載入小參數的方案,這也是目前業界的一個通用的解決方案。
首先我們為客戶提供一個生圖能力,客戶可以透過編輯或Prompt去改變這個圖片背後的背景。
以上是百度商業多模態理解及 AIGC 創新實踐的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

5月30日,騰訊宣布旗下混元大模型全面升級,基於混元大模型的App「騰訊元寶」正式上線,蘋果及安卓應用程式商店皆可下載。相較於先前測試階段的混元小程式版本,面向工作效率場景,騰訊元寶提供了AI搜尋、AI總結、AI寫作等核心能力;面向日常生活場景,元寶的玩法也更加豐富,提供了多個特色AI應用,並新增了創建個人智能體等玩法。 「騰訊做大模型不爭一時之先。」騰訊雲副總裁、騰訊混元大模型負責人劉煜宏表示:「過去的一年,我們持續推進騰訊混元大模型的能力爬坡,在豐富、海量的業務場景中打磨技術,同時洞察用戶的真實需求

火山引擎總裁譚待企業要做好大模型落地,面臨模型效果、推理成本、落地難度的三大關鍵挑戰:既要有好的基礎大模型做支撐,解決複雜難題,也要有低成本的推理服務讓大模型廣泛應用,還要更多工具、平台和應用程式幫助企業做好場景落地。 ——譚待火山引擎總裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最關鍵的挑戰。譚待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均處理1,200億tokens文字、生成3,000萬張圖片。為助力企業做好大模型場景落地,位元組跳動自主研發的豆包大模型將透過火山

又雙叒叕是一個新功能的亮相。你是否會遇看過想要給圖片角色換個背景,但AI總是搞出「物非人也非」的效果。即使在Midjourney、DALL・E這樣成熟的生成工具中,保持角色一致性還得有些prompt技巧,不然人物就會變來變去,根本達不到你想要的結果。不過,這次算是讓你遇見了。 AIGC工具PixVerse的「角色-影片」新功能可以幫你實現這一切。不僅如此,它能產生動態視頻,讓你的角色更加生動。輸入一張圖,就能夠得到對應的動態影片結果,在保持角色一致性的基礎上,豐富的背景元素和角色動態讓產生結果

一、TensorRT-LLM的產品定位TensorRT-LLM是NVIDIA為大型語言模型(LLM)所開發的可擴展推理方案。它基於TensorRT深度學習編譯框架建構、編譯和執行計算圖,並藉鑒了FastTransformer中高效的Kernels實作。此外,它還利用NCCL實現設備間的通訊。開發者可以根據技術發展和需求差異,客製化算子以滿足特定需求,例如基於cutlass開發客製化的GEMM。 TensorRT-LLM是NVIDIA官方推理方案,致力於提供高效能並不斷完善其實用性。 TensorRT-LL

4月4日消息,日前,國家網信辦公佈已備案大模型清單,中國移動「九天自然語言交互大模型」名列其中,標誌著中國移動九天AI大模型可正式對外提供生成式人工智慧服務。中國移動表示,這是同時透過國家「生成式人工智慧服務備案」和「境內深度合成服務演算法備案」雙備案的首個央企研發的大模型。據介紹,九天自然語言交互大模型具有產業能力增強、安全可信、支援全端國產化等特點,已形成90億、139億、570億、千億等多種參數量版本,可靈活部署於雲、邊、端不同場

一、背景簡介首先來介紹雲問科技的發展歷程。雲問科技公...2023年,正是大模型盛行的時期,很多企業認為已經大模型之後圖譜的重要性大大降低了,之前研究的預置的資訊化系統也都不重要了。不過隨著RAG的推廣、資料治理的盛行,我們發現更有效率的資料治理和高品質的資料是提升私有化大模型效果的重要前提,因此越來越多的企業開始重視知識建構的相關內容。這也推動了知識的建構和加工開始向更高層次發展,其中有許多技巧和方法可以挖掘。可見一個新技術的出現,並不是將所有的舊技術打敗,也有可能將新技術和舊技術相互融合後

3月14日消息,小米官方今日宣布,小米相簿AIGC編輯功能正式上線小米14Ultra手機,並將在本月內全量上線小米14、小米14Pro和RedmiK70系列手機。 AI大模型為小米相簿帶來兩個新功能:智慧擴圖與魔法消除Pro。 AI智慧擴圖支援對構圖不好的圖片進行擴展和自動構圖,操作方式為:開啟相簿編輯-進入裁切旋轉-點擊智慧擴圖。魔法消除Pro能夠對遊客照中的路人進行無痕消除,使用方式為:打開相簿編輯-進入魔法消除-點擊右上角的Pro。目前,小米14Ultra機器已經上線智慧擴圖與魔法消除Pro功

如果試題太簡單,學霸和學渣都能考90分,拉不開差距……隨著Claude3、Llama3甚至之後GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。 Llama3的兩個指令微調版本實力到底如何,也有了最新參考。與先前大家分數都相近的MTBench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。 Arena-Hard利用競技場即時人類數據構建,與人類偏好一致率也高達89.1%
