超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題
哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。
訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群數據大胃王。
尤其在多模態任務中,這問題尤其突出。
一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把“模型生成數據自己餵自己”變成了現實。
而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。
模型是啥?
中關村論壇上剛剛露面的多模態大模型Awaker 1.0。
團隊是誰?
智子引擎。 由人大高瓴人工智慧學院博士生高一鑷創立,高瓴人工智慧學院盧志武教授擔任顧問。公司成立時還是2021年,就早早打入多模態這條「無人區」賽道。
MOE架構,解決多模態多任務訓練衝突問題
這不是智子引擎第一次發布模型。
去年3月8日,潛心研發兩年的團隊對外發布了自研的第一個多模態模型,百億級參數的ChatImg序列模型,並基於此推出世界首個公開評測多模態對話應用ChatImg(元乘象)。
後來,ChatImg不斷迭代,新模型Awaker的研發也在並行推進。後者也繼承了前代模型的基礎能力。
相較於前代的ChatImg序列模型,Awaker 1.0採用了MoE模型架構。
要說原因嘛,是想要解決解決多模態多工訓練有嚴重衝突的問題。
採用MoE模型架構,可以更好地學習多模態通用能力以及各個任務所需的獨特能力,從而讓整個Awaker 1.0的能力在多個任務上有進一步提升。
資料勝千言:
鑑於主流多模態評測名單存在評測資料外洩問題,智子團隊從嚴建置了自有評測集,大部分測試圖片來自個人手機相簿。
表格顯示,團隊讓Awaker 1.0和國內外最先進的3個多模態大模型進行了評測。
多提一嘴,由於GPT-4V和Intern-VL並不直接支援偵測任務,它們的偵測結果是透過要求模型使用語言描述物件方位得到的。
可以看到,在視覺問答和業務應用任務上,Awaker 1.0的基座模型超過了GPT-4V、Qwen-VL-Max和Intern-VL。
在描述、推理和偵測任務上,Awaker 1.0的基座模型達到了次好效果。
最後來看平均分,Awaker 1.0處於幾者中的最高值。
因此,上述結果也印證了多任務多模態模型採用MoE架構的有效性。
資料集評測結果有了,真實效果還需進一步上手體驗。
這裡主要問了它和對比大模型一些關於中文OCR(圖片文字辨識)和計數問題、詳細描述任務等問題。
這個主要考計數:
Awaker 1.0能正確地給出答案,而其它三個模型都回答錯誤。
這個主要考中文OCR#:
正確回答的選手是Qwen-VL-Max和Awaker 1.0。
最後這題考圖片內容理解。
GPT-4V和Awaker 1.0不但能夠詳細地描述圖片的內容,而且能夠準確地辨識出圖片中的細節,如圖中所顯示的可口可樂。
不得不提一嘴的是,Awaker 1.0繼承了一些智子團隊先前廣為關注的研究成果。
說的就是你-Awaker 1.0的#產生側邊#。
Awaker 1.0的生成側,是智子引擎自主研發的類Sora視頻生成底座VDT(Video Diffusion Transformer)。
VDT的學術論文早於OpenAI Sora的發布(去年5月),並已被頂會ICLR 2024接收。
ディスプレイの独自の革新性は主に 2 点あります。
1 つ目は、技術アーキテクチャに Diffusion Transformer を採用することです。OpenAI が登場する前に、ビデオ生成の分野における Transformer の大きな可能性が示されました。
その利点は、時間の経過に伴う 3 次元オブジェクトの物理ダイナミクスのシミュレーションなど、時間的に一貫したビデオ フレームを生成できる優れた時間依存キャプチャ機能にあります。
2 つ目は、VDT がさまざまなビデオ生成タスクを処理できるようにするための、統合された時空間マスク モデリング メカニズムを提案することです。 単純なトークン空間スプライシングなどの VDT の柔軟な条件付き情報処理方法は、さまざまな長さや形式の情報を効果的に統合します。
同時に、本研究で提案した時空間マスクモデリング機構と組み合わせることで、VDTは一般的なビデオ拡散ツールとなり、モデル構造を変更することなく無条件生成やビデオの後続フレーム予測に適用できます。 、フレーム挿入、画像生成ビデオ、ビデオ画面完成およびその他のビデオ生成タスク。
Sophon エンジン チームは、VDT による単純な物理法則のシミュレーションを研究しただけでなく、
物理プロセスをシミュレートできることも発見したことがわかりました。:
は、
超リアルなポートレート ビデオ生成タスク # についても詳細な調査を実施しました。 肉眼は顔や人の動的な変化に非常に敏感であるため、このタスクではビデオ生成の品質に対して非常に高い要件が求められます。しかし、Sophon エンジンは、超リアルなポートレート ビデオ生成のための主要なテクノロジーのほとんどを突破しており、Sora に劣らない優れた性能を持っています。
あなたの言うことには根拠がありません。
これは、ポートレートビデオ生成の品質を向上させるために、VDT と制御可能な生成を組み合わせた Sophon エンジンの効果です:
Sophon エンジンは、キャラクター制御可能な生成アルゴリズムの最適化を継続し、積極的に行うと報告されています。商業探査を実施します。
新しいインタラクティブ データの安定したストリームの生成
さらに注目に値するのは、Sophon エンジン チームが次のように強調したことです。
Awaker 1.0 は、
世界初の自己更新型マルチモーダル大規模モデル。 言い換えれば、Awaker 1.0 は「ライブ」であり、そのパラメータはリアルタイムで継続的に更新できます。これが、Awaker 1.0 を他のすべてのマルチモーダル大規模モデルとは異なるものにしています。 1.0 の更新メカニズムには、次の 3 つの主要なテクノロジが含まれています。 #これら 3 つのテクノロジーにより、Awaker 1.0 は独立して学習し、自動的に反映し、独立して更新できるため、世界を自由に探索し、人間と対話することもできます。
これに基づいて、Awaker 1.0 は、理解する側と生成する側の両方で新しいインタラクティブ データの安定したストリームを生成できます。
どうやってやったのですか?
- 理解面では、
- Awaker 1.0 はデジタル世界と現実世界と相互作用します。
- タスクの実行プロセスにおいて、Awaker 1.0 はシーンの動作データをモデルにフィードバックして、継続的な更新とトレーニングを実現します。
生成側では、
Awaker 1.0 は高品質のマルチモーダル コンテンツ生成を実行でき、理解側モデルにより多くのトレーニング データを提供します。
Awaker 1.0 は、理解側と生成側の 2 つのループで、視覚的な理解と視覚的な生成の統合を実際に実現します。 ご存知のように、Sora の登場以降、AGI を達成するには「理解と生成の統一」が達成されなければならないという声がますます増えてきました。
新しい知識の注入を例として、ランスルーの具体的な例を見てみましょう。Awaker 1.0 は、インターネット上のリアルタイムのニュース情報を継続的に学習すると同時に、新しく学習したニュース情報を組み合わせて、さまざまな複雑な質問に答えます。 これは、現在主流の 2 つのメソッド、つまり RAG と従来のロング コンテキスト メソッドとは異なります。Awaker 1.0 は、実際には
独自のモデルのパラメーターに関する新しい知識を「記憶」します#。 ##。
連続 3 日間の自己更新プロセス中に、Awaker 1.0 が毎日その日のニュース情報を学習し、対応する情報を正確に記述できることがわかります。説明。
そして、Awaker 1.0 は学習を続けていますが、学んだ知識をすぐに忘れることはありません。
たとえば、4 月 16 日に学習した Zhijie S7 に関連する知識は、2 日後も Awaker 1.0 によって記憶または理解されていました。
ですから、データが金のようなこの時代に、「データが足りない」と嘆くのはやめてください。 データのボトルネックに直面しているチームにとって、Awaker 1.0 は実現可能で使用可能な新しいオプションではないでしょうか? そうは言っても、視覚理解と視覚生成が統合されているからこそ、「マルチモーダルな大きなモデルが身体化された知性に適応する」のです。 " "Awaker 1.0 のプライドが明確に明らかになりました。 問題は次のとおりです: Awaker 1.0 のような大規模なマルチモーダル モデルの視覚的理解機能は、身体化された知性の「目」と自然に組み合わせることができます。 そして主流派はまた、「マルチモーダル大規模モデルの身体化インテリジェンス」には、身体化インテリジェンスの適応性と創造性を大幅に向上させる可能性があり、AGI を実現する実現可能な道であると信じています。 理由は2点に過ぎません。 第一に、人々は、身体化されたインテリジェンスが適応可能であること、つまり、エージェントが継続的な学習を通じて変化するアプリケーション環境に適応できることを期待しています。 このようにして、身体化された知能は、既知のマルチモーダル タスクでますます優れたパフォーマンスを発揮できるだけでなく、未知のマルチモーダル タスクにも迅速に適応することができます。 第二に、人々はまた、身体化された知性が真に創造的であることを期待しており、環境の自律的な探索を通じて新しい戦略や解決策を発見し、境界を探索できることを期待しています。 AIの能力について。 しかし、この 2 つの適応は、単純に大規模なマルチモーダル モデルを身体にリンクしたり、身体化された知性の中に脳を直接組み込んだりするほど単純ではありません。 マルチモーダルな大規模モデルを例に挙げると、少なくとも 2 つの明らかな問題が直面しています。 第一に、モデルの反復更新サイクルが長くなります。これには多くの人的投資が必要です;第二に、モデルのトレーニング データモデルはすべて既存のデータから派生したものであるため、モデル は大量の新しい知識を継続的に取得することはできません。 RAG とコンテキスト ウィンドウの拡張を通じて継続的に出現する新しい知識を注入することも可能ですが、モデルはそれを記憶することができず、修復方法はさらなる問題を引き起こします。 つまり、現在の大規模なマルチモーダル モデルは、創造性はおろか、実際のアプリケーション シナリオにおける高い適応性もなく、業界で実装する際には常にさまざまな困難を引き起こします。 素晴らしい - 先ほど述べたことを思い出してください。Awaker 1.0 は新しい知識を学習できるだけでなく、新しい知識を記憶することもできます。この種の学習は毎日、継続的かつタイムリーに行われます。 #このフレームワーク図からわかるように、Awaker 1.0 はさまざまなスマート デバイスと組み合わせることができ、スマート デバイスを通じて世界を観察し、行動意図を生成し、コマンド制御を自動的に構築できます。インテリジェンス デバイスはさまざまなアクションを実行します。 (狗头) 特に重要なのは、Awaker 1.0# は独立して更新できることです。 ## は、身体化されたインテリジェンスに適応できるだけでなく、より幅広い業界シナリオにも適用でき、より複雑な実践的なタスクを解決できます。 たとえば、Awaker 1.0 はさまざまなスマート デバイスと統合され、クラウド エッジのコラボレーションを実現します。 現時点では、Awaker 1.0 はクラウドに展開された「頭脳」であり、さまざまなタスクを実行するためにさまざまなエッジ スマート デバイスを監視、命令、制御します。 さまざまなタスクを実行するときにエッジ スマート デバイスによって取得されるフィードバックは、継続的に Awaker 1.0 に送信され、トレーニング データを継続的に取得し、継続的に自身を更新できるようになります。 これは単なる机上の話ではありません。Awaker 1.0 とスマート デバイスとのクラウド エッジ コラボレーションの技術的なルートは、スマート グリッド検査やスマート シティなどのアプリケーション シナリオに適用され、以前よりもはるかに高い評価を獲得しています。伝統的な小型モデル。 マルチモーダル大型模型にとって、内なる力の涵養と武術の向上は重要な課題となっていると言えるでしょう。 Sophon エンジン Awaker 1.0 の出現は、マルチモーダル大規模モデルの自己超越への鍵を提供します。 それは、独立した更新メカニズムを通じて、データ不足のボトルネックを打破し、マルチモーダルな大規模モデルの継続的な学習と自己進化の可能性を提供します。クラウドエッジコラボレーションテクノロジーを使用し、身体化されたインテリジェンスなどのインテリジェントデバイスの特定のアプリケーションシナリオを勇敢に探索します。 これは AGI への小さな一歩かもしれませんが、マルチモーダル大規模モデルの自己超越の旅の始まりでもあります。 長くて困難な旅には、Sophon Engine のようなチームがテクノロジーの頂点に継続的に登る必要があります。 身体化された知性の「生きた」脳
しかし、その問題は明らかです。新しい知識を継続的に吸収し、新しい変化に適応するにはどうすればよいでしょうか。
以上是超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,
