死ぬほど泣いてください、全世界が大きなモデルの作成に夢中になっています、インターネット上のデータは十分ではありません、まったく十分ではありません。
トレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、こうしたビッグデータを食べる人たちにどのように餌を与えるかを心配しています。
この問題は、マルチモーダル タスクで特に顕著です。
が途方に暮れていたとき、人民大学 学部のスタートアップ チーム は独自の新しいモデルを使用して、中国で先駆けて「モデル」の転換を図りました。 -それ自体を現実にフィードするために生成されたデータ。
さらに、理解側と生成側の 2 つのアプローチにより、高品質でマルチモーダルな新しいデータを生成し、データのフィードバックを提供できます。モデル自体に。 モデルは何ですか?
マルチモーダル大型モデル Awaker 1.0
が中関村フォーラムに登場しました。 チームは誰ですか?
ソフォンエンジン。
は、中国人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立され、ヒルハウス人工知能大学院の陸志烏教授がコンサルタントを務めています。同社は 2021 年に設立されたとき、早くからマルチモダリティの「無人地帯」路線に参入しました。 MOE アーキテクチャ、マルチモーダルおよびマルチタスク トレーニングの競合問題を解決するSophon Engine がモデルをリリースするのはこれが初めてではありません。
。
その後、ChatImgは反復を続け、新モデルAwakerの研究開発も並行して進められました。後者も前モデルの基本性能を継承しています。 前世代の ChatImg シーケンス モデルと比較して、Awaker 1.0
は MoE モデル アーキテクチャを採用しています。
その理由は、マルチモーダルおよびマルチタスクのトレーニングにおける深刻な競合の問題を解決したいからです。 MoE モデル アーキテクチャを使用すると、マルチモーダルの一般的な機能と各タスクに必要な固有の機能をより適切に学習できるため、複数のタスクにおける Awaker 1.0 全体の機能がさらに向上します。
データは百聞は一見に如かず:
主流のマルチモーダル評価リストにおける評価データ漏洩の問題を考慮して、ソフォン チームは厳密に構築しました独自の評価セット。ほとんどのテスト画像は個人の携帯電話のフォト アルバムから取得したものです。表は、チームが Awaker 1.0 と国内外の 3 つの最も先進的なマルチモーダル大規模モデルを評価したことを示しています。
もう 1 つ言及しておきたいのは、GPT-4V と Intern-VL は検出タスクを直接サポートしていないため、それらの検出結果は、オブジェクトの方向を記述する言語をモデルに要求することによって取得されます。
ビジュアルな質問応答やビジネス アプリケーション タスクにおいて、Awaker 1.0 のベース モデルは GPT-4V、Qwen-VL-Max、Intern-VL を上回っていることがわかります。
Awaker 1.0 の基本モデルは、記述、推論、検出タスクに関して 2 番目に良い結果を達成しました。
最後に、平均スコアを見ると、Awaker 1.0 が最も高い値を示しています。
したがって、上記の結果は、MoE アーキテクチャを使用したマルチタスク マルチモーダル モデルの有効性も確認します。
データセットの評価結果は入手可能ですが、実際の効果はさらに体験する必要があります。
ここでは主に中国語 OCR
(画像テキスト認識)や、大型モデルと比較したカウントの問題、詳細な記述タスクなどについて質問します。
このメインテスト数
:Awaker 1.0は正しい答えを与えることができますが、他の3つのモデルはすべて不正解です。
#このメインテスト
中国語 OCR
:正解したプレイヤーは Qwen-VL-Max ですそしてAwaker 1.0。
最後の質問では、
画像の内容の理解をテストします。
GPT-4V と Awaker 1.0 は、写真の内容を詳細に記述するだけでなく、写真に写っているコカ・コーラなど、写真内の詳細を正確に識別することもできます。Awaker 1.0 は、Sophon チームが以前に多くの注目を集めた研究結果の一部を継承していることを言及しなければなりません。
私が話しているのは、Awaker 1.0
の
生成された側であるあなたのことです。 Awaker 1.0 の生成側は、Sophon Engine が独自に開発した Sora 風のビデオ生成ベース VDT(Video Diffusion Transformer) です。 VDT の学術論文は、OpenAI Sora (昨年 5 月)
のリリースに先立って発表され、トップカンファレンス ICLR 2024 に採択されました。ディスプレイの独自の革新性は主に 2 点あります。
1 つ目は、技術アーキテクチャに Diffusion Transformer を採用することです。OpenAI が登場する前に、ビデオ生成の分野における Transformer の大きな可能性が示されました。
その利点は、時間の経過に伴う 3 次元オブジェクトの物理ダイナミクスのシミュレーションなど、時間的に一貫したビデオ フレームを生成できる優れた時間依存キャプチャ機能にあります。
2 つ目は、VDT がさまざまなビデオ生成タスクを処理できるようにするための、統合された時空間マスク モデリング メカニズムを提案することです。 単純なトークン空間スプライシングなどの VDT の柔軟な条件付き情報処理方法は、さまざまな長さや形式の情報を効果的に統合します。
同時に、本研究で提案した時空間マスクモデリング機構と組み合わせることで、VDTは一般的なビデオ拡散ツールとなり、モデル構造を変更することなく無条件生成やビデオの後続フレーム予測に適用できます。 、フレーム挿入、画像生成ビデオ、ビデオ画面完成およびその他のビデオ生成タスク。
Sophon エンジン チームは、VDT による単純な物理法則のシミュレーションを研究しただけでなく、
物理プロセスをシミュレートできることも発見したことがわかりました。:
は、
超リアルなポートレート ビデオ生成タスク # についても詳細な調査を実施しました。 肉眼は顔や人の動的な変化に非常に敏感であるため、このタスクではビデオ生成の品質に対して非常に高い要件が求められます。しかし、Sophon エンジンは、超リアルなポートレート ビデオ生成のための主要なテクノロジーのほとんどを突破しており、Sora に劣らない優れた性能を持っています。
あなたの言うことには根拠がありません。
これは、ポートレートビデオ生成の品質を向上させるために、VDT と制御可能な生成を組み合わせた Sophon エンジンの効果です:
Sophon エンジンは、キャラクター制御可能な生成アルゴリズムの最適化を継続し、積極的に行うと報告されています。商業探査を実施します。
新しいインタラクティブ データの安定したストリームの生成
Awaker 1.0 は、
世界初の自己更新型マルチモーダル大規模モデル。 言い換えれば、Awaker 1.0 は「ライブ」であり、そのパラメータはリアルタイムで継続的に更新できます。これが、Awaker 1.0 を他のすべてのマルチモーダル大規模モデルとは異なるものにしています。 1.0 の更新メカニズムには、次の 3 つの主要なテクノロジが含まれています。 #これら 3 つのテクノロジーにより、Awaker 1.0 は独立して学習し、自動的に反映し、独立して更新できるため、世界を自由に探索し、人間と対話することもできます。
これに基づいて、Awaker 1.0 は、理解する側と生成する側の両方で新しいインタラクティブ データの安定したストリームを生成できます。
どうやってやったのですか?
生成側では、
Awaker 1.0 は高品質のマルチモーダル コンテンツ生成を実行でき、理解側モデルにより多くのトレーニング データを提供します。
Awaker 1.0 は、理解側と生成側の 2 つのループで、視覚的な理解と視覚的な生成の統合を実際に実現します。 ご存知のように、Sora の登場以降、AGI を達成するには「理解と生成の統一」が達成されなければならないという声がますます増えてきました。
新しい知識の注入を例として、ランスルーの具体的な例を見てみましょう。Awaker 1.0 は、インターネット上のリアルタイムのニュース情報を継続的に学習すると同時に、新しく学習したニュース情報を組み合わせて、さまざまな複雑な質問に答えます。 これは、現在主流の 2 つのメソッド、つまり RAG と従来のロング コンテキスト メソッドとは異なります。Awaker 1.0 は、実際には
独自のモデルのパラメーターに関する新しい知識を「記憶」します#。 ##。
連続 3 日間の自己更新プロセス中に、Awaker 1.0 が毎日その日のニュース情報を学習し、対応する情報を正確に記述できることがわかります。説明。
そして、Awaker 1.0 は学習を続けていますが、学んだ知識をすぐに忘れることはありません。
たとえば、4 月 16 日に学習した Zhijie S7 に関連する知識は、2 日後も Awaker 1.0 によって記憶または理解されていました。
ですから、データが金のようなこの時代に、「データが足りない」と嘆くのはやめてください。 データのボトルネックに直面しているチームにとって、Awaker 1.0 は実現可能で使用可能な新しいオプションではないでしょうか? そうは言っても、視覚理解と視覚生成が統合されているからこそ、「マルチモーダルな大きなモデルが身体化された知性に適応する」のです。 " "Awaker 1.0 のプライドが明確に明らかになりました。 問題は次のとおりです: Awaker 1.0 のような大規模なマルチモーダル モデルの視覚的理解機能は、身体化された知性の「目」と自然に組み合わせることができます。 そして主流派はまた、「マルチモーダル大規模モデルの身体化インテリジェンス」には、身体化インテリジェンスの適応性と創造性を大幅に向上させる可能性があり、AGI を実現する実現可能な道であると信じています。 理由は2点に過ぎません。 第一に、人々は、身体化されたインテリジェンスが適応可能であること、つまり、エージェントが継続的な学習を通じて変化するアプリケーション環境に適応できることを期待しています。 このようにして、身体化された知能は、既知のマルチモーダル タスクでますます優れたパフォーマンスを発揮できるだけでなく、未知のマルチモーダル タスクにも迅速に適応することができます。 第二に、人々はまた、身体化された知性が真に創造的であることを期待しており、環境の自律的な探索を通じて新しい戦略や解決策を発見し、境界を探索できることを期待しています。 AIの能力について。 しかし、この 2 つの適応は、単純に大規模なマルチモーダル モデルを身体にリンクしたり、身体化された知性の中に脳を直接組み込んだりするほど単純ではありません。 マルチモーダルな大規模モデルを例に挙げると、少なくとも 2 つの明らかな問題が直面しています。 第一に、モデルの反復更新サイクルが長くなります。これには多くの人的投資が必要です;第二に、モデルのトレーニング データモデルはすべて既存のデータから派生したものであるため、モデル は大量の新しい知識を継続的に取得することはできません。 RAG とコンテキスト ウィンドウの拡張を通じて継続的に出現する新しい知識を注入することも可能ですが、モデルはそれを記憶することができず、修復方法はさらなる問題を引き起こします。 つまり、現在の大規模なマルチモーダル モデルは、創造性はおろか、実際のアプリケーション シナリオにおける高い適応性もなく、業界で実装する際には常にさまざまな困難を引き起こします。 素晴らしい - 先ほど述べたことを思い出してください。Awaker 1.0 は新しい知識を学習できるだけでなく、新しい知識を記憶することもできます。この種の学習は毎日、継続的かつタイムリーに行われます。 #このフレームワーク図からわかるように、Awaker 1.0 はさまざまなスマート デバイスと組み合わせることができ、スマート デバイスを通じて世界を観察し、行動意図を生成し、コマンド制御を自動的に構築できます。インテリジェンス デバイスはさまざまなアクションを実行します。 (狗头) 特に重要なのは、Awaker 1.0# は独立して更新できることです。 ## は、身体化されたインテリジェンスに適応できるだけでなく、より幅広い業界シナリオにも適用でき、より複雑な実践的なタスクを解決できます。 たとえば、Awaker 1.0 はさまざまなスマート デバイスと統合され、クラウド エッジのコラボレーションを実現します。 現時点では、Awaker 1.0 はクラウドに展開された「頭脳」であり、さまざまなタスクを実行するためにさまざまなエッジ スマート デバイスを監視、命令、制御します。 さまざまなタスクを実行するときにエッジ スマート デバイスによって取得されるフィードバックは、継続的に Awaker 1.0 に送信され、トレーニング データを継続的に取得し、継続的に自身を更新できるようになります。 これは単なる机上の話ではありません。Awaker 1.0 とスマート デバイスとのクラウド エッジ コラボレーションの技術的なルートは、スマート グリッド検査やスマート シティなどのアプリケーション シナリオに適用され、以前よりもはるかに高い評価を獲得しています。伝統的な小型モデル。 しかし、その問題は明らかです。新しい知識を継続的に吸収し、新しい変化に適応するにはどうすればよいでしょうか。 マルチモーダル大型模型にとって、内なる力の涵養と武術の向上は重要な課題となっていると言えるでしょう。 Sophon エンジン Awaker 1.0 の出現は、マルチモーダル大規模モデルの自己超越への鍵を提供します。 それは、独立した更新メカニズムを通じて、データ不足のボトルネックを打破し、マルチモーダルな大規模モデルの継続的な学習と自己進化の可能性を提供します。クラウドエッジコラボレーションテクノロジーを使用し、身体化されたインテリジェンスなどのインテリジェントデバイスの特定のアプリケーションシナリオを勇敢に探索します。 これは AGI への小さな一歩かもしれませんが、マルチモーダル大規模モデルの自己超越の旅の始まりでもあります。 長くて困難な旅には、Sophon Engine のようなチームがテクノロジーの頂点に継続的に登る必要があります。 身体化された知性の「生きた」脳
以上が超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。