大模型加持後,數字人「更像人」了嗎?
北京冬奧運AI虛擬人手語主播、杭州亞運會數位人點火、新華社數位記者、數位太空人小詬......當隨著越來越多數字人出現在人們生活中,整個數位人產業也朝著多元化廣泛的應用方向發展,快速拓展到不同產業、不同場景。
針對C端,數字人幫助使用者生產內容和輔助工作,如:數字人練口語言,和數字人玩遊戲等;面向B端,數字人是企業的“工具人”,應用於金融、影視、電商、直播等產業,提高產業生產和營運效率。
數位人是一門好生意,但其規模化落地依然面臨著人才、成本、場景、技術等層層困難。其中,最關鍵的是技術瓶頸,如何讓數位人擺脫「空有好皮囊」的市場評估是一大難題。
然而,隨著大模型的出現,數位人的發展似乎正在迎來新的機會。
1.大模型賦能數字人
對於產業界而言,數字人本身並不新鮮。在過去很長一段時間內,為了又力求數位人觀視外形上的高保真呈現,製作成本不亞於製作一部專業級電影。
瑞銀發表的數位人研究報告指出,高階虛擬人物的先期投入成本平均為3,000萬元,後期又需要真人團隊完成拍攝、配音、剪輯。以樂華娛樂的虛擬女團A-SOUL為例,其一支單曲製作成本達200萬元,一場線下演唱會成本達2000萬元。
然而,這種高昂的成本問題並沒有解決數位人的互動效果問題。由於智慧程度不足,與其說它是數字人,更像是沒有靈魂的數位皮套。
高成本,再加上互動效果不佳,使得數位人的使用被限制在廠商內部或大企業客戶的試驗專案。
因此,隨著具有學習能力的生成式大模型領先了內容製作範式後,面向更廣泛圍繞的中小型企業用戶、優先規模化落地使用的廉價數字人成為了可行方案。
根據一名人工智慧研究人員介紹,大模型對數位人的重塑與賦能主要體現為降本增效。
從技術角度來說,建構一個數位人主要分為建模、驅動、渲染幾個環節。傳統的數位人主要依托電腦繪圖技術 真人動作捕捉,需要收集大量的真人數據,深度建模,耗時長,效率低,成本高。
如今在大模型的加持下,透過AI演算法,基於深度學習模型、動作模擬、情感模擬等技術,只需要幾分鐘的真人視頻,用大模型訓練若干個小時,就可以生成逼真的數位人,製作成本大大降低。
不僅如此,數位人在成本降低的同時,效能也大大提升。
在大模型出現以前,數字人在外形上差異度較小,而且只能根據輸入的統一腳本,「照本宣科」地回答問題。
在大模型的賦能下,數字人擁有了“靈魂”,不僅外貌特徵可以自訂設計,智慧化、互動性也有了很大提升。例如在一些直播帶貨場景中,數位人已經可以與受眾進行基礎互動。
例如,百度智慧雲端發布的曦靈數字人,大模型的加持下,可以15分鐘快速完成直播間搭建,自動生成匹配產品特色的講品話術,開啟智能互動問答。
在某餐飲品牌的直播間,曦靈數字人主播自動產生直播話術,包含開場破冰、福利放送、暖場話術、催單話術等。在這場真人與曦靈數位人的接力直播中,用戶竟然沒有絲毫察覺。
更令人驚訝的事,在真實6小時的直播比對中,數位人主播只需真人主播15%的成本,就可獲得真人主播85%GMV。
除了直播帶貨,百度智能雲曦靈作為國內首個大模型全面重構的數位人平台,還可為企業提供2D真人、3D寫實、3D超寫實的人像,實現視頻製作、數位員工、數位人代言人等多種應用。
例如,在曦靈平台,只需5分鐘的真人視頻,半小時即可訓練人像,錄製100句話語,24小時生成專屬音色庫,相比真人授課成本只需過去的30 %,錄製效率提升20倍。
不難發現,經過大模型重塑與賦能的數位人,一定程度上擺脫了價格昂貴、互動性差等問題,越來越廣泛地出現在短視頻、直播間中。
同時,數字人開始朝著更多「身分」進軍——銀行理財師、律師、老師、已逝的名人……數字人正在成為任何想成為的人,也為這一天漸擁擠的賽道帶來了新的機會。
2.讓數字人更像“人”
大模型的出現讓數字人“脫胎換骨”,成為如今最火的創業賽道之一。
目前市場上主要的數位人廠商主要有兩類:一類是以百度、騰訊、華為等為代表的科技巨頭,基於自身大模型方面的優勢研發推出數位人產品;另一類是以矽基智能、出門問、相芯科技等為代表的中小型廠商。
多名人工智慧領域投資人表示,目前AIGC(生成式人工智慧)還處於早期階段,能落地產生利潤的不多,數位人是其中比較少有的商業化路徑,且已經能夠盈利的項目。
但隨著大量的創業者湧入,行業競爭趨於激烈和同質化,賽道逐漸變得擁擠和內捲。
內卷的一個表現是價格越降越低。目前2D數字人的價格大多已經降到千元級別,有的甚至只需要幾百元。
360集團的數位人行銷服務也顯示,透過智慧行銷雲端平台的配套SaaS服務推廣給客戶,依照會員用戶每月付費的標準估算,一款數位人的價格最低數十元,最高在一二百元上下。
隨著大量低成本的數位人湧入市場,百元等級的數位分身迅速被炒成一本萬利的「財富經」。
每到深夜,打開主流平台,大量的數位人堅守在直播間。隨之而來的是關於數位人的質疑聲漸起,諸如效果太假、市場混亂等,導致使用者體驗不佳。
有業內人士認為,隨著越來越多的玩家湧入,一些創業者技術能力有限,生產的數位人產品品質良莠不齊,容易導致劣幣驅逐良幣。
一方面,數字人多用於較為簡單的環境、解決較為基礎的問題,在場景切換或面對多輪對話時,可能出現答非所問或陷入死循環的情況,制約用戶體驗。
另一方面,大模型下的數位人互動體驗始終與真人存在明顯差異,例如,在Sora生成內容中,無視物理學原理、人的手指時多時少等問題被廣為詬病,可能進一步引發心理方面的「恐怖谷效應」。
對此,也有專家認為,需要進一步提陞技術創新能力與使用者體驗感,在確保數位人外在擬人效果的同時,優化使用者互動體驗,專注於即時渲染、光學捕捉、三維重建、智慧人機互動等新興科技與自然語言處理、語音辨識、電腦視覺、生成式AI等技術的研究與應用。
“當前行業正在共同突破的技術目標是'如何讓數字人變得更像一個人',像人一樣去思考”,一位業內人士表示,加快企業間的技術協同,解決互動型數字人在情緒感知、語意理解等方面的技術難題是接下來的重點。
這一系列的挑戰都指向技術面。
2024年度《中國虛擬數位人影響力指數報告》指出,截至2024年2月底,國家智慧財產局「專利檢索」數據顯示,2023年全年數位人領域專利申請數高達544個,反映出業界在核心技術研發上的強勁動能與深度創新。
從2023年數位人相關專利申請機構來看,以百度、騰訊為代表的老牌互聯網巨頭,以中國移動、工商銀行為代表的頭部通信、金融機構,以小冰公司、世優科技、黑鏡科技為代表的頭部數位人公司形成了技術端的多強格局。
儘管產業頭大廠在AI技術上擁有了先發優勢,但在產業高速發展的過程中,每個公司在技術本身都沒有絕對的壁壘,本質上技術背後是人。對所有數位人廠商來說,AIGC帶來機會的同時,也成為面對挑戰的起點。
3.結語
數字人正處於風口,吸引了大量想分一杯羹的創業者湧入。但不可否認的是,作為一項年輕的技術,數位人仍處於早期階段,市場仍處於培育之中。
對於同處一片紅海中的數位人公司來說,要思考的或許不是如何“卷低價”,而是透過技術的不斷進步,讓數位人“更像人”,提高行業的整體水位,讓數字人“活下去”,創造更多的價值。
以上是大模型加持後,數字人「更像人」了嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在
