GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色
GTA 新出的遊戲預告看了嗎?據說,這個預告片已經破了三項金氏世界紀錄,觀看次數已經破億。
如果告訴你,三位AI巨頭也能在《俠盜獵車手》遊戲中扮演角色,你還能分辨出他們嗎?
AI 三巨頭:Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio。
這張合照採用了騰訊的 FaceStudio AI 模式合成,呈現了 GTA 風格的效果。這個AI 模型的獨特之處在於其出色的人物辨識度,將廣泛應用的「AI 寫真」技術推向了更高的水平
在人工智慧技術迅速發展的今天,AI 寫真照已經成為AI 技術應用的熱門方向。在 AI 影像應用領域,妙鴨相機等 AI 寫真產品已經展示了巨大的潛力和受歡迎程度。妙鴨相機的推出僅僅幾週就在社群媒體上引起了廣泛關注,其迅猛的成長速度凸顯了這個市場的巨大潛力。儘管如此,眾多 AI 寫真產品在技術上仍存在一定的局限性,例如用戶需要上傳多張差異較大的照片,並且需要等待較長時間才能獲得合成效果,這無疑影響了用戶體驗。
在這個由人工智慧主導的圖像創新浪潮中,騰訊的最新研究成果FaceStudio展現了更進一步的技術突破。這項研究不僅專注於快速合成人像,還更注重於保留人像的身份訊息,以滿足美觀需求的同時保持人物的獨特性和識別度。它不僅繼承了開源演算法StableDiffusion的核心優點,還在多個關鍵功能上進行了創新性改進。其中最引人注目的是其利用混合引導進行圖像生成的能力,特別在處理多人照片和風格化圖像兩個方面體現出來
FaceStudio 的核心技術在於其能夠在不犧牲個人身分特徵的情況下,實現風格化的人物影像合成。傳統的 AI 影像合成技術往往在追求視覺美感的同時,會犧牲人物的獨特性和辨識度。然而,FaceStudio 透過先進的混合引導機制,能夠在生成圖像時同時考慮文字提示、風格圖像和身份圖像,從而在保持個體特徵的基礎上實現多樣化的風格轉換。這不僅是技術上的一大突破,也為使用者提供了更豐富和個人化的影像合成選擇。
此外,FaceStudio 獨特的多重身分交叉注意機制,使其在處理包含多個人物的影像時特別出色。傳統方法在處理此類影像時常常會遇到難以準確區分和維持每個人物特徵的問題。但 FaceStudio 的這個機制可以準確地將不同身分的特徵資訊映射到影像的相應部分,無論是在保持每個人物的獨特性,還是在整體風格的協調性上都表現卓越。
FaceStudio 支援多種人臉相關的有趣應用
- 論文網址:https://arxiv.org/abs/2312.02663
- 首頁網址:https://icoz69.github .io/facestudio/
方法概述
混合式引導設計
##FaceStudio 的核心特性之一是其混合式引導設計。該團隊採用了一種獨特的方法,允許模型同時接收圖像和文字提示,從而產生具有特定身份特徵的圖像。基於影像提示的引導模組包含兩個子模組:
- 影像引導模組:在這個部分,FaceStudio 使用 CLIP 視覺編碼器來處理人類影像。這些圖像通常是風格化的,含有豐富的視覺訊息,如色彩、紋理和構圖等。 CLIP 編碼器能夠從這些影像中提取出複雜的風格特徵。
- 識別模組:並行於影像引導模組,騰訊團隊也設計了一個識別模組,這個模組使用 Arcface 模型來處理單獨的臉部影像。其主要目的是從臉部影像中提取關鍵的身份特徵,如臉部結構、表情和其他獨特的生物辨識資訊。
在提取出風格化影像的視覺特徵和臉部影像的身份特徵之後,這兩組特徵會被融合在一起。這個步驟透過一個線性層來完成,它將兩個特徵結合起來,創造一個綜合的引導特徵。這種方法的優點在於,它不僅能夠保留人物的身份特徵,還能夠在圖像生成過程中融入特定的風格和內容
FaceStudio 不僅僅具備圖像引導功能,還整合了文字引導功能。這項功能是透過使用先行訓練好的 PriorTransformer 模型來實現的。該模型能夠將 CLIP 文字特徵對應到對應的 CLIP 視覺特徵。然後,與圖像提示引導模組類似,這些視覺特徵與識別模組的特徵相結合,形成能夠回應文字提示的綜合引導特徵。最後,這兩個提示特徵被加權融合,實現混合引導
#需要重新編寫的內容是:臉譜工作室的架構示意圖
多人影像合成
#在騰訊團隊開發的FaceStudio框架中,有一個關鍵的創新,即"處理多人圖像"部分。這部分專注於在單一影像中合成多個人物的肖像,以確保每個人物在最終影像中都能保持其獨特的身份。面對一個包含多個人物的圖像,FaceStudio採用了一種特殊的注意力機制。這個機制確保在影像合成過程中,每個人物區域的特徵都只存取與之對應的身份資訊。這意味著模型能夠精確地控制每個人物的身份特徵,確保它們在最終圖像中呈現正確。為了實現這種精確的控制,騰訊團隊使用了人物實例分割模型。該模型能夠識別出影像中的不同人物,並將每個人物的區域與其對應的身份特徵相關聯。這樣,模型就可以確保在合成圖像時,每個人物的身份資訊都得到了正確的引導
#對比FaceStudio和基線演算法在多人影像產生方面的效果
訓練策略
騰訊團隊為FaceStudio設計了一個以人類影像重建為目標的訓練策略。他們透過這種方法,使用遮蓋面部區域的原始圖像作為風格化的人類圖像的輸入,並同時使用相同圖像中裁剪的面部作為身份的輸入。這樣,模型在產生引導影像時能夠更準確地保留人物的身份特徵。與現有的生成模型訓練方式不同,這種方法只依賴人像作為訓練數據,不需要文字標註,大大減輕了對標註數據的依賴。它能夠更好地適應各種風格的人像
結果展示
#FaceStudio 透過評估人臉相似度和人像生成時間來展現其獨特的優勢。實驗結果顯示,FaceStudio 產生單一人像只需不到 4 秒即可完成,而基於優化的熱門演算法 DreamBooth 則需要長達 6 分鐘。同時 FaceStudio 更好地保留了人像特徵,有著更好的臉相似度。實驗結果比較如下:
#研究人員對FaceStudio進行了與目前最佳人像產生模型演算法的比較,使用了相同的圖像作為樣本。比較結果顯示,FaceStudio在幾乎所有的樣本上都取得了更好或同等級的效果。這進一步證明了FaceStudio具有強大的穩健性和泛化性。具體的比較結果如下:
此外,在FaceStudo的實驗中還展示了多種獨特的人臉圖像生成應用,其中包括身份混合和文字圖像混合引導生成
#身份混合影像產生實驗
############################################################################## ####文字影像混合引導影像產生實驗######################FaceStudio 產生的人像範例有多種風格######## ####總結############綜上所述,FaceStudio 的出現標誌著個人化影像生成領域的重大進展。它在保持人物身份的同時,提供了豐富的風格化和文字驅動的圖像生成選項。這種能力不僅對藝術創作和娛樂產業有巨大價值,也可能在廣告、數位媒體製作和個人化內容創作等領域中發揮重要作用。透過精確控製影像中的身份和風格,FaceStudio 為未來影像生成技術的發展開闢了新的道路,預示著這一領域的創新和變革######
以上是GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺
