2 月 16 日、OpenAI はビデオ生成分野の大ヒットモデルである Sora をリリースしました。
Sora は、スケーリングの法則とその画期的な技術革新に対する信念により、常に最前線にあり続けています。同時に、「活力は奇跡を生む」という言葉が、ヴィンセントのビデオの分野にもそのまま当てはまることを改めて証明することにもなった。 #Sora が公開した技術的な詳細は、全体像を把握するには不十分です。同時に、Sora はまだ正式に公開されていません。それ以来、ソラについての考えや議論は止まることがありません。 o
Sora は、AI 分野全体に最大の影響をもたらしました。いくつかのビデオ生成のアイデアとフレームワークです。これはソラの再現ブームを引き起こし、現在まで続いています。
Sora を再生産する動機は、一方では技術者の技術的粘り強さと技術的理想から来ており、他方では将来の予測可能なビジネス価値から来ています。
さらに、無視できないのは、CloseAI という愛称で呼ばれ続けるこの人工知能技術研究機関が、ほぼすべての製品で業界のベンチマークになっているということです。リリースされ、破壊的イノベーションを引き起こす可能性があります。しかし、OpenAI はクローズド ソースを主張する道をますます進めているようで、これが Sora の再現に対する大衆の情熱にさらに火をつけています。今後数か月以内に、Sora に似た複数のモデルが次々にリリースされ、オープンソース化されると考えられます。
Sora のリリースから 1 か月以上が経過しましたが、関連する技術革新の議論と再現はどのように進んでいますか?以下を見てみましょう。
# ソラの再現に関して、この記事は次の 3 つの側面から始まります。 Sora がリリースされてから 1 か月以上が経ちましたが、現在の再生産の進捗状況はどうなっていますか?
再発する可能性はどのくらいですか?その国の技術基盤は何ですか? -
#ソラは世界のモデルですか? AGIに行くのを手伝ってくれませんか?再現する必要があるのでしょうか?
Sora のようなモデル
発売され、さらに議論された 3 つのモデルSnap Video、Open-Sora 1.0、Mora です。
-
##Snap Video は、2 月 29 日にリリースされた Sora のようなモデルです。これは、SnapChat 画像共有ソフトウェアを開発した会社である Snap および大学などの機関の拡張可能な時空間トランスフォーマーを使用しています。トレントの。 ポータル:《Sora のようなモデルの最初のバッチが登場し、Sarabu が Snap Video を開始しました。効果は Pika より優れており、Gen-2 に劣りません。
##Open-Sora 1.0 は、完全にオープンになった最初のクラスです。 Colossal-AI チームからの 3 月 18 日の Sora モデルをソースとするこのオープンソース モデルは、データ処理、すべてのトレーニングの詳細、モデルの重みを含むトレーニング プロセス全体をカバーします。
- ポータル:「OpenAI を待つのではなく、Open-Sora が完全にオープンソースになるのを待ちましょう。」
Mora は、リーハイ大学と Microsoft Research の研究者によって数日前に提案されたマルチエージェント フレームワークです。このフレームワークは、Sora が実証したものを再現するために、いくつかの高度なビジュアル AI エージェントを統合しています。一般的なビデオ生成機能です。 現行モデルの再現効果はまだSoraほどではありませんが、わずか1か月強で明らかな技術的進歩があり、これは楽観的な兆候です。不完全な統計によると、国内の 10 チーム近くがソラを再現しているとのことなので、様子を見ましょう。 DiT 以前の技術アーキテクチャの革新
Sora が使用する DiT (Diffusion Transformer) ) 建築は現在最大の技術革新ですが、振り返ってみると、おそらく国内の進歩の方が早かったのかもしれません。
## U-ViT アーキテクチャ 2022 年 9 月、清華大学のチームは「All are Worth Words: A ViT Backbone for Diffusion Models」というタイトルの論文を提出しました。これは DiT より 2 か月前でした。この論文では、Transformer ベースのネットワーク アーキテクチャ U-ViT を使用して CNN ベースの U-Net を置き換えることを提案しています。これは、Transformer と拡散モデルを統合するという Sora のアイデアと一致します。 ポータル:「国内企業がSoraを作ることを期待されていますか?」清華大学の大規模なモデル チームは希望を与えます》
ビデオ拡散トランス (VDT) は、2023 年 5 月に arXiv Web サイトでリリースされ、中国人民大学の研究チームが主導し、カリフォルニア大学バークレー校、香港大学と協力しています。は、Transformer ベースの Video Unification Generate フレームワークです。 Transformer アーキテクチャを採用した理由についても詳しく説明します。 ポータル: 「国内の大学がSoraのようなモデルVDTを構築、ユニバーサルビデオ拡散トランスがICLR 2024に承認」 たぶんコア技術の革新という点では、国内の探査は後れを取らず、むしろリードしています。しかし、資源の制約や技術的な道路計画などの理由により、これまでソラと同様の効果を達成することはできませんでした。 Sora は間違いなく技術的に実現可能なパスを検証しました。技術アーキテクチャにおける私たち自身の先導的な探求は、Sora を再現するのにさらに役立つでしょう。そして私ですらその効果については楽観的です。いくつかの分野ではソラを上回っています。 ソラは世界のモデルですか?
#Sora によって引き起こされたもう 1 つの熱い議論は、世界モデルに関するものです。 Sora が生成したビデオは、古典的な「コーヒー カップに絡まった海賊船」など、物理世界を確実に理解しています。裸眼で、専門的な流体力学、光、物理世界のその他の特性が含まれます。 しかし、ヤン・ルカンに代表される一部の科学者は、ソラの訓練方法が世界モデルとは何の関係もないことを強く証明しています。 ソラは世界モデルなのでしょうか? 彼は物理世界を理解していますか?これに関する議論はさまざまなフォーラムやライブブロードキャストに広がりました。世界モデルとは何かというテーマについては、誰もが異なる意見を持っていることがわかります。 はっきり言えるのは、Sora が世界モデルであるならば、汎用人工知能 (AGI) の理想は私たちが予想するよりも早く実現する可能性があるということです。となるとソラを再現する必要がある。 私たちはソラに引き続き興味を持ち、次の質問に対する考えられる答えを探求し続けます。
- Sora の以前のビデオ生成アーキテクチャ/テクノロジーは引き続き使用できますか?使い方?
- ソラの後に忘れ去られたのは誰ですか?誰が尊敬されていますか?
- Sora 以外の他のスタートアップやチームはどのようにこれを行っているのでしょうか?何をする?
- Sora は主流のテクノロジー アーキテクチャを変えるのでしょうか? DiT に代表されるアーキテクチャは、将来的に主流のアーキテクチャの選択肢となるのでしょうか?
- 国産の技術力でソラを再現すべきか?なぜ?
ソラは 10 チーム近くが再現していることがわかっていますが、今後どのようなパターンが見られるのでしょうか?
なぜ OpenAI なのでしょうか? OpenAI のモデルは複製できますか?
Sora の後の世界のビデオ生成状況はどのようなものですか?それはどのように発展し、変化していくのでしょうか?
一部のスター スタートアップが Sora をやらないことを公に表明したのはなぜだと思いますか?
マルチモーダル大規模企業の将来はどうなるでしょうか?モデル?
ソラの影響をさまざまな観点からどのように見ていますか? (投資家、非技術者、国有企業、AI起業家、実践者などの視点)
OpenAIはどのような社会的役割を果たしているのでしょうか?この会社についてどう思いますか?
……
Sora によってもたらされる影響は破壊的なものであるため、上記の問題の解決は今後も継続されます。最先端の AI テクノロジーの探索と応用実践に焦点を当てたチームとして、AI テクノロジー フォーラムは再びビデオ生成の分野に焦点を当てます。 4 月 13 日、北京の六道口で、Sora リリース後の技術革新、考え方、応用実践に焦点を当てた技術フォーラムを企画しました。このイベントには多くの重要なゲストが集まり、上記の問題についてもさらに深く議論されます。 近い将来、このイベントは、我が国の AI オープンソースの技術開発と普及を促進するという観点から、一定のプラスの効果とインスピレーションをもたらすことができると信じています。コミュニティ。 ゲストのラインナップ
このフォーラムには強力なゲストのラインナップがあり、私たちが招待しました:
- 業界で著名な技術専門家である Zhang Junlin 氏が、Sora のコアテクノロジーを詳しく解説します
- 人気のビデオ生成モデル PixelDance 著者である ByteDance の Zeng Yan 先生が、PixelDance の背後にある技術革新とアプリケーションを共有します。
- Sora 型 VDT のチーム リーダー (スタートアップ企業出身)中国人民大学が支援 — Sophon Engine CEO の Gao Yizhao 博士が、VDT の技術革新と実践を詳しく分析します
- 投資家は切り離すことのできない重要な役割ですFengrui Capital Investment パートナーの責任者である Chen Shi 先生が、投資家/機関の観点からユニークな見解を示します
- 国有企業は、AI 分野での取り組み後、迅速に対応しました。 Sora をリリースし、AI 分野で地位を占めた中国移動信息技術有限公司より、アルゴリズム技術責任者の Tong Tong 氏が新たな考え方を語ります
- Sora のようなモデル Open-Sora 1.0 の技術責任者である Luchen Technology の CTO である Bian Zhengda 氏も、Sora の再現方法やチームのユニークな思考と実践を詳しく解説します
- さらに重要なゲストがおり、次々と招待しています...
Zhang Junlin
中国中国情報学会所長、中国科学院ソフトウェア研究所博士号#現在は新浪微博の新技術研究開発責任者を務めていますが、以前はアリババの上級技術専門家として新技術チームの責任者を務めていました。技術書『これが検索エンジン コア技術徹底解説』『ビッグデータ日報 アーキテクチャとアルゴリズム』の著者。 #Zeng Yan
ByteDance 研究アルゴリズム エンジニア
# ビデオ生成やマルチモーダル事前トレーニングなどの分野における最先端の研究に焦点を当てます。彼が研究開発を主導するモデルは、ByteDance のビデオ生成、短いビデオ レビュー、電子商取引カスタマー サービス、Toutiao、教育問題解決などのビジネスに強力なサービスを提供しており、彼は TPAMI の筆頭著者として 8 本の関連論文を出版しています。 ICML 、 CVPR 、 ACL 、その他の主要な国際会議やジャーナルで活躍し、TPAMI、ICML、NIPS、ICLR などの会議の査読者も務めています。同社が主導するPixelDanceビデオ生成基本モデルは、業界で初めて高いダイナミクスと安定性の両立を実現し、初めて3分間の連続プロットアニメーションを生成した。 陈石Fengrui Capital Investmentパートナー##テクノロジー、ソフトウェア、インターネットへの投資に注力、消費およびその他の分野。 Fengrui Capital に入社する前は、Alibaba で 5 年間の経営経験があり、Alibaba Mobile Business Group の副社長、Alibaba Culture and Entertainment Group の上級幹部、Youku と UC の国際クラス委員を務め、UC に深く関与しました。 、AutoNavi、Youku、Tudou.、Shenma Search、UC International およびその他の製品ラインのビジネス上の意思決定と管理の実行。 コア経営チームのメンバーとして 15 年間起業家精神を継続し、UC (2014 年にアリババに買収された世界最大のサードパーティ製モバイル ブラウザ) に深く関与サードパーティ決済会社 (SZ: 300773) の起業プロセス中に、彼はそれぞれ副社長と CTO を務めました。かつては幸せなプログラマー、ユーザー成長の専門家、そしてテクノロジー愛好家でした。 # 北京航空航天大学で機械電気工学の学士号と修士号を取得しています。 2023年には、EqualOceanの「2023年世界トップ30のグローバル投資家」とJiazi Guangnianの「2022年から2023年の人工知能とビッグデータのベスト投資家トップ20」に選ばれました。 #Gao Yizhao
Sophon Engine CEO
#中国人民大学ヒルハウス人工知能大学院で博士号を取得。マルチモーダル大規模モデルの専門家である彼は、多くのトップジャーナルや会議論文を出版しており、複数人からなるチームを率いて Wenlan 大規模モデルのトレーニングを完了しました。 Sophon エンジン関連モデルおよび製品の開発とプロモーションに全プロセスを通じて参加します。 #Bian ZhengdaLuchen Technology 社 CTO
## シンガポール国立大学を卒業。世界トップのスーパーコンピューティング会議である SC で論文を発表。高性能 AI システムで 7 年の経験があり、巨大AIシステム。 #Tong TongChina Mobile Information Technology Co., Ltd. アルゴリズム技術責任者
中国科学院オートメーション研究所で AI の博士号を取得。現在、中国移動情報技術有限公司でマルチモーダル大型モデル、デジタルヒューマン、インテリジェントエージェントなどの研究開発を担当し、ヴィンセントピクチャー、ヴィンセントなどの主要テクノロジーの実装を実現している。ビデオ、大規模モデルのアクション認識、ターゲット検出。合計 12 件の論文、12 件の企業特許、および 4 件のソフト出版物を出版しました。
さらに多くの専門家が確認される予定ですので、ご期待ください。 ビデオ生成テクノロジーとアプリケーション - Sora の時代
このサイトの AI テクノロジー フォーラムでは、AI における技術的ブレークスルーを常に注意深く追跡しています。フィールドでは、Sora のテクノロジーへの影響と、社会のあらゆる分野への影響を深く調査するために、「ビデオ生成技術と応用 - Sora の時代」AI テクノロジー フォーラムを特別に企画しました。 私たちは、企業や実務家が技術開発のトレンドに追いつき、Sora、ビデオ生成技術とマルチモーダル大型モデル。 AI ビデオ生成の猛攻撃に直面して、学習を積極的に受け入れ、果敢に挑戦することによってのみ、技術トレンドを掴み、突破することができます。 2024 年 4 月 13 日に北京市海淀区でお会いできることを楽しみにしています。 フォーラムの登録チャンネルが正式にオープンしました。ポスターの QR コードをスキャンしてイベント ページに直接アクセスしてください。ゲスト紹介の公開が遅れたため、当フォーラムの早期割引期間を延長させていただきました。 現在から 4 月 7 日 23:55 まで、カンファレンス参加チケットを購入できます。 200 元の直接割引と特別早割をお楽しみください。チケット価格は699元(元の価格は899元)。 5名様までの団体購入にはさらに特別割引がございますので、詳しくはイベント詳細ページをご覧ください。 このサイトの AI テクノロジー フォーラムの過去の参加者は、専用の割引リンクに直接アクセスできるように、Alice の WeChat アカウントを別途追加してください。 アクティビティハイライト
- フォーラムイベント「ビデオジェネレーションフロンティア研究と応用」(前回イベント)のビデオとコースウェアを無料で常設視聴が購入されました。控除についてはアリスに連絡してください。この号を購入した後、前のビデオを引き換えるためにアリスを見つけることを忘れないでください)
- この「ビデオ生成テクノロジーとアプリケーション - 空の時代」フォーラム イベントとコースウェア
- 大学教授や業界の有力な技術専門家が集まり、最新のテクノロジーを習得し、技術の幅を広げます
- 技術専門家と直接コミュニケーションをとり、会議後の緊密なつながりを実現します
##コアテクノロジーの解体、スター製品のベストプラクティス、テクノロジーの将来の議論と展望をカバーします学習を支援する完全なプロセス: カンファレンス前後の学習教材のギフトパック-
##ビデオ生成の高品質テクノロジー交換コミュニティに参加し、フォローアップしてください。業界の最先端のテクノロジーと情報をタイムリーに提供します
-
このサイトで関連する有料アクティビティのチケットを 15% 割引でお楽しみいただけます
-
##技術交流コミュニティ
技術交流を促進するために、Sora、ビデオ生成、マルチモーダル大規模モデルに関心を持つ技術者が特別にビデオ生成技術交流グループを設立しました。 QR コードをスキャンして会話に参加し、技術的な詳細や業界の観察について詳しく交換してください。
本イベントの業務提携、共同購入、請求書、内容、その他関連する問題については、本イベント担当のアリスを追加していただくか、ご相談ください。メールで。 WeChat: 15650753618
電子メール: jiayaning@jiqizhixin.com請求書について:
登録が成功すると、イベント後にアクティビティ バンク アプリで請求書を申請できます。請求書は電子 VAT 請求書です。請求書が正常に発行されると、登録メール アドレスに送信されます。 #フォーラム ボランティアになる:
サインイン、案内、注文管理、イベント会場での特定の事項の実施に参加します。 etc 作業食も含まれております。在校生優先となります。興味のある方はアリスまでご連絡ください。
以上がソラの再来を語ろう 憧れられる者と忘れられる者の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。