人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

PHPz

Apr 30, 2024 am 08:13 AM

產業模擬器智子引擎

在4 月27 日舉行的中關村論壇通用人工智慧平行論壇上，人大系新創公司智子引擎隆重發布全新的多模態大模型Awaker 1.0，向AGI 邁出至關重要的一步。

相對於智子引擎前代的ChatImg 序列模型，Awaker 1.0 採用全新的MOE 架構並具備自主更新能力，是業界首個實現「真正」自主更新的多模態大模型。

在視覺生成方面，Awaker 1.0 採用完全自研的視頻生成底座VDT，在寫真視頻生成上取得好於Sora 的效果，打破大模型“最後一公里” 落地難的困境。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

Awaker 1.0 是將視覺理解與視覺生成進行超級融合的多模態大模型。在理解側，Awaker 1.0 與數位世界和現實世界進行交互，在執行任務的過程中將場景行為資料反哺給模型，以實現持續更新與訓練；在生成側，Awaker 1.0 可以產生高品質的多模態內容，對現實世界進行模擬，為理解側模型提供更多的訓練資料。

尤其重要的是，因為具備「真正」的自主更新能力，Awaker 1.0 適用於更廣泛的行業場景，能夠解決更複雜的實際任務，例如AI Agent、具身智能、綜合治理、安防巡檢等。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

Awaker 的MOE 基座模型

在理解側，Awaker 1.0 的基座模型主要解決了多模態多任務預訓練存在嚴重衝突的問題。受惠於精心設計的多工 MOE 架構，Awaker 1.0 的基座模型既能繼承智子引擎前代多模態大模型 ChatImg 的基礎能力，還能學習各個多模態任務所需的獨特能力。相對於前代多模態大模型 ChatImg，Awaker 1.0 的基座模型能力在多個任務上都有了大幅提升。

鑑於主流的多模態評測榜單存在評測資料外洩的問題，我們採取嚴格的標準來建構自有的評測集，其中大部分的測驗圖片來自個人的手機相簿。在這多模態評測集上，我們對 Awaker 1.0 和國內外最先進的三個多模態大模型進行公平的人工評測，詳細的評測結果如下表所示。注意到 GPT-4V 和 Intern-VL 並不直接支援檢測任務，它們的檢測結果是透過要求模型使用語言描述物體方位得到的。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

我們發現，Awaker 1.0 的基座模型在視覺問答和業務應用任務上超過了GPT-4V、Qwen-VL-Max 和Intern-VL，同時它在描述、推理和檢測任務上也達到了次好的效果。整體而言，Awaker 1.0 的平均分數超過國內外最先進的三個模型，驗證了多任務 MOE 架構的有效性。以下是幾個具體的比較分析範例。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

從這些對比例子可以看到，在計數和 OCR 問題上，Awaker 1.0 能正確地給出答案，而其它三個模型都回答錯誤（或部分錯誤）。在詳細描述任務上，Qwen-VL-Max 比較容易出現幻覺，Intern-VL 能夠準確地描述圖片的內容但在某些細節上不夠準確和具體。 GPT-4V 與 Awaker 1.0 不僅能詳細描述圖片的內容，而且能夠準確地辨識出圖片中的細節，如圖中所呈現的可口可樂。

Awaker 具身智能：邁向AGI

多模態大模型與具身智慧的結合是非常自然的，因為多模態大模型所具有的視覺理解能力可以天然與具身智慧的攝影機結合。在人工智慧領域，「多模態大模型具身智能」甚至被認為是實現通用人工智慧（AGI）的可行路徑。

一方面，人們期望具身智能擁有適應性，即智能體能夠透過持續學習來適應不斷變化的應用環境，既能在已知多模態任務上越做越好，也能快速適應未知的多模態任務。

另一方面，人們也期望具身智慧具有真正的創造性，希望它透過對環境的自主探索，能夠發現新的策略和解決方案，並探索人工智慧的能力邊界。透過將多模態大模型用作具身智能的 “大腦”，我們有可能大幅地提升具身智能的適應性和創造性，從而最終接近 AGI 的門檻（甚至實現 AGI）。

但是，現有的多模態大模型都存在兩個明顯的問題：一是模型的迭代更新周期長，需要大量的人力和財力投入；二是模型的訓練數據都源自於現有的數據，模型無法持續獲得大量的新知識。雖然透過 RAG 和長上下文的方式也可以注入持續出現的新知識，但是多模態大模型本身並沒有學習到這些新知識，同時這兩種補救方式還會帶來額外的問題。

總之，目前的多模態大模型在實際應用場景中均不具備很強的適應性，更不具備創造性，導致在產業落地時總是出現各種各樣的困難。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

智子引擎此次發布的Awaker 1.0，是世界上首個具有自主更新機制的多模態大模型，可以用作具身智能的“大腦” 。 Awaker 1.0 的自主更新機制，包含三大關鍵技術：資料主動產生、模型反思評估、模型連續更新。

區別於所有其它多模態大模型，Awaker 1.0 是「活」的，它的參數可以即時持續地更新。

從上方的框架圖中可以看出，Awaker 1.0 能夠與各種智慧型裝置結合，透過智慧型裝置觀察世界，產生動作意圖，並自動建構指令控制智慧型設備完成各種動作。智慧型裝置在完成各種動作後會自動產生各種回饋，Awaker 1.0 能夠從這些動作和回饋中獲得有效的訓練資料進行持續的自我更新，不斷強化模型的各種能力。

以新知識注入為例，Awaker 1.0 能夠不斷地在互聯網上學習最新的新聞信息，並結合新學習到的新聞信息回答各種複雜問題。不同於 RAG 和長上下文的傳統方式，Awaker 1.0 能真正學到新知識並 “記憶” 在模型的參數上。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

從上述例子可以看到，在連續三天的自我更新中，Awaker 1.0 每天都能學習當天的新聞信息，並在回答問題時準確地說出對應信息。同時，Awaker 1.0 在連續學習的過程中並不會遺忘學過的知識，例如智界 S7 的知識在 2 天後仍然被 Awaker 1.0 記住或理解。

Awaker 1.0 也能夠與各種智慧型裝置結合，實現雲端協同。 Awaker 1.0 作為「大腦」部署在雲端，控制各種邊端智慧型裝置執行各項任務。邊端智慧型裝置執行各項任務時獲得的回饋又會源源不絕地傳回給 Awaker 1.0，讓它持續獲得訓練數據，不斷進行自我更新。人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

上述雲邊協同的技術路線已經應用在電網智慧巡檢、智慧城市等應用場景中，取得了遠遠好於傳統小模型的識別效果，並獲得了行業客戶的高度認可。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

現實世界的模擬器：VDT

Awaker 1.0 的生成側，是智子引擎自主研發的類Sora 影片產生底座VDT，可以用作現實世界的模擬器。 VDT 的研究成果於 2023 年 5 月發佈在 arXiv 網站，比 OpenAI 發布 Sora 提早 10 個月。 VDT 的學術論文已經被國際頂尖人工智慧會議 ICLR 2024 接收。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

影片產生底座VDT 的創新之處，主要包含以下幾個面向：

##將Transformer 技術應用於基於擴散的視訊生成，展現了Transformer 在視訊生成領域的巨大潛力。 VDT 的優勢在於其出色的時間依賴性擷取能力，能夠產生時間上連貫的視訊幀，包括模擬三維物件隨時間的物理動態。
提出統一的時空掩碼建模機制，使 VDT 能夠處理多種視訊生成任務，實現了該技術的廣泛應用。 VDT 靈活的條件資訊處理方式，如簡單的 token 空間拼接，有效地統一了不同長度和模態的資訊。同時，透過與時空掩碼建模機制結合，VDT 成為了一個通用的視訊擴散工具，在不修改模型結構的情況下可以應用於無條件生成、視訊後續幀預測、插幀、圖生視訊、視訊畫面補全等多種視訊生成任務。

我們重點探討了 VDT 對簡單物理規律的模擬，在 Physion 資料集上對 VDT 進行訓練。在下面的範例中，我們發現 VDT 成功模擬了物理過程，如小球沿著拋物線軌跡運動和小球在平面上滾動並與其他物體碰撞等。同時也能從第 2 行第 2 個例子中看出 VDT 捕捉到了球的速度和動量規律，因為小球最終由於衝擊力不夠而沒有撞倒柱子。這證明了 Transformer 架構可以學習到一定的物理規律。

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

我們還在寫真影片生成任務上進行了深度探索。這項任務對影片產生品質的要求非常高，因為我們天然對人臉以及人物的動態變化更加敏感。鑑於該任務的特殊性，我們需要結合 VDT（或 Sora）和可控生成來應對寫真影片生成面臨的挑戰。目前智子引擎已經突破寫真影片產生的大部分關鍵技術，取得比 Sora 更好的寫真影片產生品質。智子引擎也將繼續優化人像可控生成演算法，同時也積極進行商業化探索。目前已經找到確定的商業落地場景，預計近期就打破大模型 “最後一公里” 落地難的困境。

未來更通用的 VDT 將成為解決多模態大模型資料來源問題的得力工具。使用影片產生的方式，VDT 將能夠對現實世界進行模擬，進一步提高視覺資料生產的效率，為多模態大模型 Awaker 的自主更新提供助力。

結語

Awaker 1.0 是智子引擎團隊朝向「實現AGI」的終極目標邁進的關鍵一步。團隊認為 AI 的自我探索、自我反思等自主學習能力是智慧水準的重要評估標準，與持續增加參數規模（Scaling Law）相比是同等重要的。 Awaker 1.0 已實現「資料主動生成、模型反思評估、模型連續更新」等關鍵技術框架，在理解側和生成側都實現了效果突破，有望加速多模態大模型行業的發展，最終讓人類實現AGI 。

以上是人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

DeepMind機器人打乒乓球，正手、反手溜到飛起，全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺？巴黎奧運正在如火如荼地進行中，乒乓球項目備受關注。同時，機器人打乒乓球也取得了新突破。剛剛，DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址：https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢？大概和人類業餘選手不相上下：正手反手都會：對手採用多種打法，機器人也能招架得住：接不同旋轉的發球：不過，比賽激烈程度似乎不如公園老大爺對戰。對機器人來說，乒乓球運動

首配機械爪！元蘿蔔亮相2024世界機器人大會，發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相，並最新發布元蘿蔔AI下棋機器人－國際象棋專業版（以下簡稱「元蘿蔔國象機器人」），成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品，全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新，首次在家用機器人上實現了透過機械爪拾取立體棋子，並進行人機對弈、人人對弈、記譜複盤等功能，

Claude也變懶了！網友：學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至，該收心的不只即將開啟新學期的同學，可能還有AI大模型。前段時間，Reddit擠滿了吐槽Claude越來越懶的網友。「它的水平下降了很多，經常停頓，甚至輸出也變得很短。在發布的第一周，它可以一次性翻譯整整4頁文稿，現在連半頁都輸出不了！」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”，滿滿地

世界機器人大會上，這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上，人形機器人的展示成為了現場絕對的焦點，在星塵智能的展台上，由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲，能文能武，吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏，讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道，公司創始人來傑解釋到，絲滑動作的背後，是硬體側追求最好力控和最仿人身體指標（速度、負載等），而是在AI側則採集人的真實動作數據，讓機器人遇強則強，快速學習進化。而敏捷

ACL 2024獎項發表：華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會，投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協會組織，每年舉辦一次。一直以來，ACL在NLP領域的學術影響力都名列第一，它也是CCF-A類推薦會議。今年的ACL大會已是第62屆，接收了400餘篇NLP領域的前沿工作。昨天下午，大會公佈了最佳論文等獎項。此次，最佳論文獎7篇（兩篇未公開）、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎（ResourceAward）3篇、社會影響力獎（

李飛飛團隊提出ReKep，讓機器人具備空間智能，還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時，加上最近老上頭條的1X人形機器人NEO，你可能會產生一種感覺：我們似乎開始進入機器人時代了。事實上，這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道，有用的機器人往往需要與環境進行複雜精妙的交互，而環境則可被表示成空間域和時間域上的限制。舉個例子，如果要讓機器人倒茶，那麼機器人首先需要抓住茶壺手柄並使之保持直立，不潑灑出茶水，然後平穩移動，一直到讓壺口與杯口對齊，之後以一定角度傾斜茶壺。這

分散式人工智慧盛會DAI 2024徵稿：Agent Day，強化學習之父Richard Sutton將出席！顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展，人工智慧成為了推動社會進步的重要力量。在這個時代，我們有幸見證並參與分散式人工智慧（DistributedArtificialIntelligence，DAI）的創新與應用。分散式人工智慧是人工智慧領域的重要分支，這幾年引起了越來越多的關注。基於大型語言模型（LLM）的智能體（Agent）異軍突起，透過結合大模型的強大語言理解和生成能力，展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型，成為目前AI圈的熱門話題。 Au

鴻蒙智行享界S9全場景新品發表會，多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

人大系多模態模型邁向AGI：首次實現自主更新，寫真影片產生力壓Sora

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題