WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます
OpenAI の Sora は、今年 2 月に衝撃的なデビューを果たし、テキスト生成ビデオに新たなブレークスルーをもたらしました。テキスト入力に基づいて、ハリウッドから来たような驚くほどリアルで想像力豊かなビデオを作成できます。多くの人がこのイノベーションに驚嘆し、OpenAI のパフォーマンスが頂点に達したと信じています。
Sora のブームが止まらない一方で、AI 動画生成技術の大きな可能性が研究者の間で認識され始めており、この分野はますます注目を集めています。
しかし、現在の AI ビデオ生成分野では、ほとんどのアルゴリズム研究がテキスト プロンプトを介してビデオを生成することに焦点を当てており、マルチモーダル入力、特に画像が表示されるシーンについての詳細な議論や詳細な議論はありません。とテキストを組み合わせたもので、広く使用されています。このバイアスにより、生成されるビデオの多様性と制御性が低下し、静止画像を動的なビデオに変換する機能が制限されます。
一方、既存のほとんどのビデオ生成モデルには、生成されたビデオ コンテンツの編集機能のサポートが不足しており、生成されたビデオを個別に調整するというユーザーのニーズを満たすことができません。
ヒント: パンダをクマに変えて踊らせます。 (パンダをクマに変えて踊らせます。)
この記事では、SEEKING AI、ハーバード大学、スタンフォード大学、北京大学の研究者が共同で、革新的な画像テキストベースのビデオを生成および編集することを提案しました。 WorldGPTと呼ばれる統一フレームワーク。このフレームワークは、SEEKING AIと上記の一流大学が共同開発したVisionGPTフレームワークをベースに構築されており、写真やテキストから直接動画を生成する機能を実現するだけでなく、生成された動画のスタイル転送や背景置換もサポートしています。単純なテキスト プロンプト (プロンプト)、および一連のビデオの外観編集操作。
このフレームワークのもう 1 つの大きな利点は、トレーニングが必要ないことです。これにより、技術的な敷居が大幅に下がり、導入と使用が非常に便利になります。ユーザーは、背後にある退屈なトレーニング プロセスに注意を払うことなく、モデルを直接使用して作成できます。
- 論文アドレス: https://arxiv.org/pdf/2403.07944.pdf
- 論文タイトル: WorldGPT: A Sora-Inspired Videoテキストおよび画像入力からのリッチ ワールド モデルとしての AI エージェント
次に、さまざまな複雑なビデオ生成制御シナリオにおける WorldGPT の例を見てみましょう。
背景を置き換えて生成されたビデオ
プロンプト: 「唸る嵐の中で船団がもがきながら前進し、容赦ない嵐の巨大な波に帆を立てて航行しました。 .(船団はうなる嵐の中を進み、帆を波打たせながら容赦ない嵐のそびえ立つ波を航行しました。)》
背景置換定型化生成ビデオ
プロンプト:「かわいいドラゴンが都市の通りに火を吐いています。」
#オブジェクト置換背景置換生成ビデオ
プロンプト: 「サイバーパンク スタイルのロボットはサイバーパンクです」スタイルのオートマトンは、ネオンに照らされたディストピアの街並みを駆け抜け、そびえ立つホログラムの反射と滑らかな金属製のボディにデジタル ディケイが投影され、滑らかな金属製のボディ全体でデジタル ディケイが再生されました。)》#上記の例からわかるように、WorldGPT は複雑に直面しています。ビデオ生成命令には次の利点があります。
1) 構造と元の入力画像の環境;
2) 画像とテキストの説明に準拠した生成ビデオを生成し、強力なビデオ生成およびカスタマイズ機能を示します;
3) 生成されたビデオをカスタマイズできますプロンプトを通じて。
WorldGPT の原理、実験、使用例について詳しくは、元の論文をご覧ください。
前述したように、WorldGPT フレームワークは VisionGPT フレームワークに基づいて構築されています。次にVisionGPTに関する情報を簡単に紹介します。
VisionGPT は、SeekingAI、スタンフォード大学、ハーバード大学、北京大学およびその他の世界有数の機関によって共同開発された、画期的なオープンワールド視覚認識大規模モデル フレームワークです。このフレームワークは、最先端の SOTA 大規模モデルのインテリジェントな統合と意思決定による選択を通じて、強力な AI マルチモーダル画像処理機能を提供します。
VisionGPT の革新性は主に 3 つの側面に反映されています:
まず、ユーザーのプロンプト要求を分解するコアとして大規模な言語モデル (LLaMA-2 など) を使用します。詳細なステップ要件を分析し、処理に最適な大規模モデルを自動的に呼び出します;- 第二に、VisionGPT は、複数の SOTA 大規模モデルから生成されたマルチモーダル出力を自動的に受け入れて融合し、ユーザーのニーズに合わせた画像処理を生成します。結果;
- 最後に、VisionGPT は非常に柔軟で多用途であり、ユーザーがモデルを微調整することなく、テキスト駆動型の画像の理解、生成、編集を含む幅広いアプリケーション シナリオをサポートできます。
- 論文タイトル: VisionGPT: ビジョン-一般化されたマルチモーダル フレームワークを使用した言語理解エージェント
上記からわかるように、VisionGPT は、1) 微調整なしでオープンワールドでのインスタンスのセグメンテーション、2) プロンプトベースの画像生成および編集機能などを簡単に実現できます。 VisionGPTのワークフローを下図に示します。
詳細については、論文を参照してください。
VisionGPT-3D
さらに、研究者らは VisionGPT-3D も立ち上げました。これは、テキストを視覚要素に変換する際の大きな課題、つまり効率的に変換する方法を解決することを目的としています。 2D 画像を 3D 表現に正確に変換します。このプロセスでは、アルゴリズムと実際のニーズが一致しないという問題に直面することが多く、最終結果の品質に影響を与えます。 VisionGPT-3D は、複数の最先端の SOTA ビジョン大規模モデルを統合することで、この変換プロセスを最適化するマルチモーダル フレームワークを提案します。その核となる革新性は、最適なビジュアル SOTA モデルと 3D 点群作成アルゴリズムを自動的に選択し、テキスト プロンプトなどのマルチモーダル入力に基づいてユーザーのニーズに最適な出力を生成する機能にあります。
- 論文アドレス: https://arxiv.org/pdf/2403.09530v1.pdf
- 論文タイトル: VisionGPT-3D: A Generalized 3D ビジョンの理解を強化するためのマルチモーダル エージェント
詳細については、元の論文を参照してください。
以上がWorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









拡散はより良いものを模倣するだけでなく、「創造」することもできます。拡散モデル(DiffusionModel)は、画像生成モデルである。 AI 分野でよく知られている GAN や VAE などのアルゴリズムと比較すると、拡散モデルは異なるアプローチを採用しており、その主な考え方は、最初に画像にノイズを追加し、その後徐々にノイズを除去するプロセスです。ノイズを除去して元の画像を復元する方法は、アルゴリズムの中核部分です。最後のアルゴリズムは、ランダムなノイズを含む画像から画像を生成できます。近年、生成 AI の驚異的な成長により、テキストから画像への生成、ビデオ生成など、多くのエキサイティングなアプリケーションが可能になりました。これらの生成ツールの背後にある基本原理は、以前の方法の制限を克服する特別なサンプリング メカニズムである拡散の概念です。

キミ: たった 1 文の PPT がわずか 10 秒で完成します。 PPTはとても面倒です!会議を開催するには PPT が必要であり、週次報告書を作成するには PPT が必要であり、投資を勧誘するには PPT を提示する必要があり、不正行為を告発するには PPT を送信する必要があります。大学は、PPT 専攻を勉強するようなものです。授業中に PPT を見て、授業後に PPT を行います。おそらく、デニス オースティンが 37 年前に PPT を発明したとき、PPT がこれほど普及する日が来るとは予想していなかったでしょう。 PPT 作成の大変な経験を話すと涙が出ます。 「20 ページを超える PPT を作成するのに 3 か月かかり、何十回も修正しました。PPT を見ると吐きそうになりました。」 「ピーク時には 1 日に 5 枚の PPT を作成し、息をすることさえありました。」 PPTでした。」 即席の会議をするなら、そうすべきです

Zhipu 大型モデル チームは自社で開発および構築されています。 Kuaishou Keling AIが国内外で人気を集めているため、2023年のラージテキストモデルのように、国内のビデオ生成がますます人気が高まっています。ちょうど今、別の大きなビデオ生成モデル製品が正式にリリースされました。Zhipu AI は「Qingying」を正式にリリースしました。良いアイデア (数語から数百語) と少しの忍耐力 (30 秒) があれば、「Qingying」は解像度 1440x960 の高精度ビデオを生成できます。今後、Qingying は Qingyan アプリ上で公開され、すべてのユーザーが対話、画像、ビデオ、コード、エージェント生成の機能を完全に体験できるようになります。 Zhipu Qingyan の Web とアプリをカバーすることに加えて、「AI ダイナミック フォト ミニ プログラム」を操作して、携帯電話上の写真にダイナミックな効果をすばやく実現することもできます。

北京時間6月20日早朝、シアトルで開催されている最高の国際コンピュータビジョンカンファレンス「CVPR2024」が、最優秀論文やその他の賞を正式に発表した。今年は、最優秀論文 2 件と学生優秀論文 2 件を含む合計 10 件の論文が賞を受賞しました。また、最優秀論文ノミネートも 2 件、学生優秀論文ノミネートも 4 件ありました。コンピュータービジョン (CV) 分野のトップカンファレンスは CVPR で、毎年多数の研究機関や大学が集まります。統計によると、今年は合計 11,532 件の論文が投稿され、2,719 件が採択され、採択率は 23.6% でした。ジョージア工科大学による CVPR2024 データの統計分析によると、研究テーマの観点から最も論文数が多いのは画像とビデオの合成と生成です (Imageandvideosyn

C言語は広く使われているプログラミング言語であり、コンピュータプログラミングを志す人にとって必ず学ばなければならない基本的な言語の一つです。ただし、初心者にとって、特に関連する学習ツールや教材が不足しているため、新しいプログラミング言語を学習するのは難しい場合があります。この記事では、C言語初心者がすぐに始められるプログラミングソフトを5つ紹介します。最初のプログラミング ソフトウェアは Code::Blocks でした。 Code::Blocks は、無料のオープンソース統合開発環境 (IDE) です。

LLM が大量のデータを使用して大規模なコンピューター クラスターでトレーニングされていることはわかっています。このサイトでは、LLM トレーニング プロセスを支援および改善するために使用される多くの方法とテクノロジが紹介されています。今日、私たちが共有したいのは、基礎となるテクノロジーを深く掘り下げ、オペレーティング システムさえ持たない大量の「ベア メタル」を LLM のトレーニング用のコンピューター クラスターに変える方法を紹介する記事です。この記事は、機械がどのように考えるかを理解することで一般的な知能の実現に努めている AI スタートアップ企業 Imbue によるものです。もちろん、オペレーティング システムを持たない大量の「ベア メタル」を LLM をトレーニングするためのコンピューター クラスターに変換することは、探索と試行錯誤に満ちた簡単なプロセスではありませんが、Imbue は最終的に 700 億のパラメータを備えた LLM のトレーニングに成功しました。プロセスが蓄積する

Machine Power Report 編集者: Yang Wen 大型モデルや AIGC に代表される人工知能の波は、私たちの生活や働き方を静かに変えていますが、ほとんどの人はまだその使い方を知りません。そこで、直感的で興味深く、簡潔な人工知能のユースケースを通じてAIの活用方法を詳しく紹介し、皆様の思考を刺激するコラム「AI in Use」を立ち上げました。また、読者が革新的な実践的な使用例を提出することも歓迎します。ビデオリンク: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ 最近、Xiaohongshu で一人暮らしの女の子の生活 vlog が人気になりました。イラスト風のアニメーションといくつかの癒しの言葉を組み合わせれば、数日で簡単に習得できます。

タイトル: 技術初心者必読: 具体的なコード例を必要とする C 言語と Python の難易度分析 今日のデジタル時代において、プログラミング技術はますます重要な能力となっています。ソフトウェア開発、データ分析、人工知能などの分野で働きたい場合でも、単に興味があってプログラミングを学びたい場合でも、適切なプログラミング言語を選択することが最初のステップです。数あるプログラミング言語の中でも、C言語とPythonは広く使われているプログラミング言語であり、それぞれに独自の特徴があります。この記事ではC言語とPythonの難易度を分析します。
