Adakah mungkin era drama pendek janaan AI benar-benar akan datang?
Baru-baru ini, demo yang dikeluarkan oleh pelbagai AI generasi video sangat mempesonakan. Dari bermain meme, teka-teki panjang, hingga memberi perhatian kepada logik fizikal sebenar, terdapat idea kecerdasan buatan yang tidak berkesudahan yang sukar untuk dibezakan, dan semuanya perlu bersaing dengan Sora. Pada masa ini, seseorang tiba-tiba mengorak langkah ke hadapan untuk mempersembahkan persembahan "filem -level":
Dari gaya sebenar kesan cahaya dan bayang:
Sumber: https://x.com/ i/status/1806383419661730197 Dalam imaginasi yang kaya, unsur-unsurnya lengkap, anda boleh mendapatkannya:
Tak sangka di mata AI, Batman boleh buat si badut tak mampu meregang. Sumber: https://x.com/blizaine/status/1806383419661730197
Sesetengah orang sudah cuba menggunakan keupayaan ini untuk menyelesaikan tugasan yang rumit. Dengan AI penjanaan video, AI penjanaan muzik, dan beberapa PS dan AE, kami boleh mencipta MV yang lengkap. ~ Rakan-rakan ingin bertanya, "Apa pendapat anda tentang Hollywood?"
Kesan yang dihasilkan oleh video AI jenis ini adalah lancar dan tepat, menarik jumlah suka yang besar Jika anda melihat dengan teliti, anda akan mendapatinya terdapat banyak video pendek yang dihasilkan olehnya di rangkaian sosial.Menurut ringkasan netizen, kelebihan utama AI baharu ialah ia kurang berkemungkinan terganggu apabila menjana pergerakan berskala besar. Contoh lain ialah mencipta video centaur yang sedang berlari:
AI generatif di sebalik video ini ialah
Model besar Kuaishou "Kling" (Kling)mula meletup di Internet global beberapa minggu lalu. Pada masa itu, ia dikenali sebagai "nombor satu sukar dicari."
Betul, ini bukan demo yang dikeluarkan untuk keluaran PPT dahulu, tetapi aplikasi peringkat produk yang akan dibuka terus dari permulaan.Kini Keling AI telah melancarkan versi web, memfokuskan pada kesederhanaan dan kemudahan penggunaan
. Menurut data terkini, bilangan pengguna yang memohon Keling AI telah menghampiri700,000, menjadikannya model penjanaan video paling hangat di seluruh rangkaian.
Beberapa peningkatan pada bulan Januari, evolusi pesat Keling AITahun ini adalah tahun pertama AI generatif Seawal Februari, Sora OpenAI meningkatkan persaingan ke tahap penjanaan video. Tetapi syarikat teknologi domestik adalah yang pertama melaksanakannya.
Sejak debut rasminya pada 6 Jun, hanya dalam masa sebulan, Kuaishou Keling AI, model domestik berskala besar pertama yang telah membangkitkan perbincangan hangat dalam kalangan AI luar negara, telah melalui tiga kemas kini berulang. Dari awal video Wensheng, hingga menyokong video Tusheng, sambungan video dan pelbagai pilihan saiz dua minggu kemudian, Keling AI telah menjadi semakin cemerlang dan menyeluruh. Pelbagai keperluan untuk penjanaan video nampaknya telah diselesaikan secara tidak sedar.
Hanya hujung minggu lalu di Persidangan Kepintaran Buatan Dunia WAIC 2024, Keling AI memulakan peningkatan ketiga utamanya dan mengeluarkan satu siri fungsi baharu, yang meningkatkan tekstur, keindahan dan kebolehmainan penjanaan video dengan sangat baik, membawa Satu lagi lonjakan dalam pengalaman kreatif . Gai Kun
, naib presiden kanan Kuaishou dan ketua perniagaan tapak web utama Kuaishou dan barisan sains komuniti, memperkenalkan tiga sorotan peningkatan AI Keling ini, termasukversi definisi tinggi, kawalan bingkai pertama dan terakhir serta kawalan lensa kamera .
. Selepas naik taraf, kualiti video yang dihasilkan telah membuat lonjakan kualitatif berbanding model sebelumnya.
同時に、トレーニングのより高い時空間解像度のおかげで、Keling AI は、ディテールの生成、構図、レンズの動きの美しさ、光と影の点で大幅に向上しました。
以下の画質の比較から、Keling AIの以前のモデルと最新のモデルの違いがはっきりとわかります。
第二に、Keling AIは、土生ビデオの分野で実用的で要望の多かった「最初と最後のフレーム制御」機能を追加し、最初と最後のフレームがエコーする土生ビデオを実現します。
開始フレームと終了フレームの画像をカスタマイズすることで、ユーザーは異なるビデオクリップ間のショットのスムーズな移行を正確に制御し、ワンショットから最後までといった効果を実現できます。実際に生成された結果から判断すると、動きが自然でスムーズであるだけでなく、画質も保証されています。この機能の導入により、ユーザーはより直感的で便利な編集体験が可能になり、パーソナライズされたTushengビデオのニーズに応えます。
たとえば、次の 2 つの写真からビデオを生成します:
効果は次のようになります:
最後に、Keling AI は、ミラー移動制御と自動マスターレンズ移動機能を追加します。ビデオの世界では、より多くのレンズを組み合わせることで、より多くの画像を捉えることができ、全体的な表現力を高めることができます。
Keling AI は、ロール、チルト、パン、垂直、水平、ズームを含む 6 セットの古典的なレンズ制御方法をプリセットしており、シーンに応じて豊富な選択肢を提供します。ユーザーは、これらの動きの正と負のパラメータを調整して、動きの強さや優しさ、逆の動きなどを制御することもできます。同時に、見事なカメラの動きが、完全な映画のような雰囲気を持つ目を引く大ヒット作の制作に役立ちます。
これらの新機能の追加により、Keling AI はビデオの鮮明さ、美的パフォーマンス、およびコンテンツのカスタマイズ制御において目に見える改善をもたらしたことがわかります。
それだけでなく、ユーザーが正式に利用できるKeling AI Webバージョンには、Vincent写真、Vincentビデオ、および近い将来サポートされるビデオ編集機能が統合されており、ワンストップのビジュアルコンテンツ作成プラットフォームになります発売後すぐに使えるもの。
新たに追加された「最初と最後のフレーム制御」と「ミラー移動制御」機能は、現在 Web ページで利用可能で、体験したい友達はすぐに申し込むことができます。
Klingai AI Web バージョンのアドレス: klingai.kuaishou.com
もちろん、Klingai AI のアップグレードは、Kuaishou の継続的な革新的なビデオ生成機能と切り離せないものであると表現するのは過言ではありません。画期的な発見。
「映画レベル」の AI 生成はすべてその背後にあるテクノロジーです
すでに非常に成熟した画像生成と比較して、ビデオ生成タスクはより複雑で、実際のアプリケーションでは、信頼性、アクションの一貫性、画像の滑らかさに直面する必要があります。 、細部の精度、シーン、キャラクターと光と影の一貫性、物理的な精度と時間の制約、その他多くの課題があります。
これらの課題にどれだけうまく対処できるかによって、モデルの実用性と使いやすさが直接決まります。明らかに、アップグレードされた Keling AI では、これらの点で根本的な変更が加えられています。要約すると、Keling AI には 7 つの主要な機能のハイライトがあります。
Kuaishou ビジュアル生成およびインタラクション センターの責任者 Wan Pengfei は、ビデオ品質、画像生成、モーション生成、生成時間、物理法則、コマンド応答、ビデオ制御性などにおける Keling AI の機能を構築するこれらの機能を 1 つずつ分析しました。そして、今日の全能な Keling AI を作成しました。同時に、Wan Pengfei 氏は、ビデオ生成効果が非常に急速に向上しており、グラフィック レンダリングとカメラ撮影に徐々に近づいており、パンビデオ業界に新たな機会をもたらすだろうとも述べました。 andムービーレベルの高解像度の画像生成の3つの主要な能力、グラフィックビデオ効果、優れたビデオ生成性のさらなる進化。中でも、
映画レベルの高精細映像生成機能は、雄大な自然の風景、人や動物の動きや表情など、壮大で繊細なシーンを忠実かつ鮮やかに表現することができ、超大作のような臨場感を与えることができます。
最先端のグラフィックビデオ機能 により、静止画像をアニメーション化し、鮮やかな 5 秒の短いビデオに変換できます。同時に、さまざまなテキスト入力と組み合わせて、Tusheng ビデオをより創造的で「何でもできる」ものにします。
たとえば、泳いでいる子犬の画像をビデオに変換します:
その効果は次のとおりです:
優れたビデオ生成制御性により、ユーザーはより洗練されたビデオを作成できます。このカメラ レンズの制御に加えて、Keling AI は将来、音声顔のマッチング、キャラクター ID の保持、シンプルなストローク プロンプトによる画面とレイアウトの進化の制御など、より多くの側面で制御可能な調整も実現する予定です。モデルのトレーニングは完了しており、これらの機能は間もなくオンラインになる予定です。
同時に、Keling AI は、モーション生成、生成期間、物理法則、コマンド応答など、他の 4 つの主要な機能もさらにアップグレードされました。
まず、Keling AI は大規模で合理的なモーション生成機能を備えています。 Keling AI は、複雑な時空間運動をモデル化することで、運動法則に準拠したより大きな振幅の運動を生成できます。
今回はより適切なモデルトレーニングのおかげで、Keling AI によって生成される全体的なモーション効果はより柔軟になり、合理性を弱めることなくより広い範囲のモーションをサポートします。以下に示す子猫の方向転換と歩行の姿勢はすべて非常に自然かつ合理的であり、物理的事実と一致しています。
2つ目は、分レベルの長時間ビデオ生成機能です。現在、分レベルの継続時間は、より効率的なマルチショット処理、より長いストーリーテリング、より一貫したモーション拡張機能を必要とするビデオ生成モデルを評価するための重要な指標となっています。
現在、Keling AI は数分の 1080p、30fps ビデオを生成できます。同時に、ユーザーの指示に従うビデオ継続機能が開き、1 回の継続でビデオの動きが 4 ~ 5 秒遅れます。 最大 3 分のビデオを生成できます。コンティニュー中にその後のストーリー展開の方向性を指定できるので使いやすいです。
このアップグレード後、Keling AI はアルゴリズムとエンジニアリング レベルで徹底的な最適化を実行し、単一生成ビデオの長さが 5 秒から 10 秒に増加し、公開されている製品の中で最長の再生時間を達成しました。 、より完全なストーリーラインを提示し、より広いクリエイティブスペースをユーザーに提供できます。
その Sankeling AI は、複雑な物理世界の特性をシミュレートすることができます。 Sora 以来、さまざまなビデオ生成モデルは、モデルの能力の上限を決定する物理法則に準拠したビデオを生成することに細心の注意を払ってきました。
Keling AI は、リリース以来、現実世界のプロパティを正確にモデル化してシミュレートすることができ、子猫を入浴させるなど、生成されたビデオを現実に近づけることができました。 現在、より完全なモデルトレーニングのサポートにより、インタラクティブな物理法則に対する Keling AI のモデリングおよびシミュレーション機能は新たなレベルに到達しました。 Qixikeling AI のコンセプトの組み合わせとコマンド応答能力は非常に強力です。技術的な実装に関しては、テキストからビデオまでのクロスモーダル セマンティクスを深く理解することで、Keling AI はユーザーの豊かな想像力を特定のビデオ画像に簡単に変換し、コーヒー カップ火山などの想像力を解き放つことができます。
アップグレードされた Keling AI は、より優れたテキスト データとエンコード スキームを採用しており、ユーザー プロンプトの言葉に対する応答性が自然に強化され、より優れた視覚的なレンダリング効果が提供されます。これらすべての機能は、Keling AI のビデオ生成テクノロジー ルート (DiT アーキテクチャを使用)、モデル設計 (潜在空間のエンコードとデコード、時間情報モデリング、テキストの拡張とエンコードなど)、データ保証 (多次元タグ システムなど) から派生しています。 、ビデオ記述モデルなどの側面におけるテクノロジーの蓄積と独自の革新、コンピューティング効率(分散トレーニングクラスター、段階的トレーニング戦略など)、機能拡張(ビデオタイミング拡張、マルチモーダル入力制御可能など)。
今日の Keling AI は技術的に進歩しており、信頼性が高いと言えます。このテクノロジーが発売されるとすぐに人々に求められたのも不思議ではありません。
生成 AI の時代には、Kuaishou が用意されています
ここ 1 年ほどで、大型モデルの分野全体が非常に忙しいと言えます。昨年はベースモデルの開発について話していましたが、今年は全員がアプリケーションについて話しています。ここ数日の WAIC カンファレンスの開催により、私たちは「モデルスクール」と「応用スクール」の間で新たな議論の波が起きているのを目の当たりにしました。
この波の中で、クアイショーは何をしているのですか?
まず、システムで遊びます。基盤となる IDC コンピューティング センターからネットワーク アーキテクチャと AI プラットフォーム、中間層の基本コア大規模モデル、アプリケーション層のさまざまなアプリケーション探索に至るまで、Kuaishou は完全なセットを自己研究および開発して実装しました。 Kuaishou の副社長で大規模モデルチームの責任者であるZhang Di氏は、このシステムについて話すとき、独立した研究開発へのしっかりとした投資が「技術的な雪だるま式」効果と長期的には大きなコストメリットをもたらすと信じています。走る。 Kuaishou の非常に大きな利点は、上位層に多数の AI アプリケーション シナリオがあり、大規模なモデルを実装する多くの機会がもたらされることです。
。基本モデルは AI の能力の上限を決定します。一方、商業応用では、新しい技術を段階的に適用し、継続的にフィードバックを収集することができます。好循環を生み出します。 昨年から、Kuaishou は「KwaiYi」大型モデルを提案しました。このモデルは、初期の 13B パラメータ サイズから 175B まで急速に成長し、マルチモーダル バージョンを発売しました。複数のバージョンの反復を経て、Ruiyi の大規模モデルは、Kuaishou の内部資料作成、AI インタラクション、コンテンツ制作、その他のシナリオで役割を果たし始め、今年 6 月には、Ruiyi ベースの AIGC マーケティング資料の 1 日あたりの消費量が 2,000 万件を超えました。
基本モデルを使用して、Kuaishou はより多くのシナリオで独自の差別化された機能を徐々に開発してきました。
具体的には、Wenshengtu では、Kuaishou の「Ketu」は、強力な意味理解とコマンド追従機能を備え、業界のトップモデルの 1 つになりました。テキスト表現の革新と画像データの調整に関する多くの作業のおかげで、Ketu は強化学習トレーニング後にカメラ レベルの画像テクスチャを描画できるようになり、その美しさも人間の普遍的な標準に合わせられました。
ビデオ生成に関しては、「Keling AI」は世界的なビデオ生成分野で新たな競争を引き起こしました。テキストベースのビデオと画像ベースのビデオを生成でき、豊富な画像編集機能を備えており、ビデオ生成の制御性、質感、美しさ、動きの合理性の点で業界で優れています。 Kuaishou のエンジニアはエンジニアリング アルゴリズムの最適化を続け、ビデオ生成 AI のしきい値を継続的に下げるよう努めています。 基準を設定すると言えば、新しいテクノロジーの最適化は、生成 AI が現在直面している重要な課題の 1 つです。国家レベルのショートビデオアプリケーションとしての Kuaishou の利点は、AI アプリケーションのシナリオが多数あり、実装のシナリオと機会がもたらされることです。 テクノロジーの実装において、Kuaishou は一連のマイルストーンを達成しました。 アプリのコメントエリアにある Kuaishou の対話モデル アプリケーション「AI Xiaokuai
」は、ビデオの内容を理解し、ユーザーと対話することができます。これまでにテストされ、1,000 万人以上のファンが蓄積されています。 電子商取引ライブブロードキャストルームでは、Wenshengtu AI「ビデオ生成モデル「
コンテンツ制作、理解から推奨、その他のレベル、個人から電子商取引に至るまで、Kuaishou の生成 AI 機能は主要なビジネスを完全にカバーしており、Kuaishou エコシステムの継続的な発展を促進し続けています。
ついに新たな試みが始まりました。 WAICでKuaishouは、AIGC初の短編ドラマ「山と海の奇妙な鏡:波を切る」が今月正式にリリースされると発表した。
この劇は Keling AI による綿密な技術サポートを受けて提供され、サイバー スタイルを使用して古典的な山と海の古代神話の世界を再現しています。予告編から判断すると、山から海、森から空までのシーンはすべて驚くべき視覚効果を示しています。以前は、このような効果を実現するにはプロの特殊効果チームが必要だったかも知れませんが、現在では、ビジュアル生成 AI が素晴らしいビジュアル体験をもたらすことができます。
はい、半年前、私たちはまだ未来を想像していましたが、今では AI が本格的に映画を作り始めています。
現在の大規模モデルの波では、大規模な実装ほど技術的能力を証明できるものはありません。
そして、Kuaishou の総合的な実践により、AI の生産性が無意識のうちに私たちの生活を変えていることが改めて確認されました。
Atas ialah kandungan terperinci 700,000 orang bergegas untuk merasainya! Raja generasi video baharu 'Keling AI' telah dinaik taraf semula. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!