今回、私たちは新たな技術革新を目撃しています。AIGC は個人に自分自身を表現するためのツールを提供し、創作をより簡単にし、より人気のあるものにしていますが、その背後にある原動力は「大きな」モデルではありません。
過去 2 年間で、AIGC テクノロジーは誰もが想像していたよりも速く発展し、テキスト、画像、ビデオに至るまであらゆる分野に浸透しました。 AIGCの事業化の道筋については議論が絶えず、その中には合意もあれば路線の分岐もある。
一方で、一般モデルの強力な機能は驚くべきものであり、あらゆる分野での応用の可能性を示しています。特に、DiT や VAR などのアーキテクチャの導入により、Scaling Law はテキスト生成からビジュアル生成へと飛躍することができました。このルールの指針の下、多くの大規模モデル メーカーは、トレーニング データの増加、計算能力への投資、パラメータの蓄積の方向に前進し続けています。
その一方で、普遍的なモデルは「すべてを殺す」ことを意味するものではなく、多くの細分化されたトラックタスクに直面して、「よく訓練された」垂直モデルがより良い結果を達成できることもわかりました。
大型モデル技術が加速実装の時期に入るにつれ、後者の商業化の道が急速に注目を集めています。
この進化の過程で際立っているのが、中国のスタートアップ企業であるFancyTechです。 商用ビジュアルコンテンツ生成用の標準化された製品で市場を急速に拡大し、産業実装レベルで「垂直モデル」の優位性を検証しました仲間よりも早い。
国内の大型モデル起業家界を見回せば、FancyTech の商業化実績は誰の目にも明らかです。しかし、あまり知られていないのは、わずか数年前に誕生したこの会社がトラックの最前線に立っている垂直モデルと技術的優位性です。
このウェブサイトは独占インタビューで、FancyTech が行っている技術探求について語りました。
FancyTech がビデオ垂直モデル DeepVideo をリリース
業界の壁を突破するには?
一般的に言えば、一般モデルのゼロサンプル汎化能力が一定のレベルに達した後、それを微調整して下流のタスクに使用できます。これは、今日多くの大型モデル製品が発売される方法でもあります。しかし、実際の効果としては、各業界のコンテンツ生成タスクには独自の複雑な標準セットがあるため、「微調整」だけでは産業アプリケーションのニーズを満たすことはできません。
一般的なモデルは従来のタスクの 70% を完了できるかもしれませんが、顧客が本当に必要としているのは、ニーズを 100% 満たすことができる「垂直モデル」です。コマーシャルのビジュアルデザインを例に挙げると、これまで関連する作業は専門家によって長期的な蓄積を経て完成されており、ブランドの特定のニーズに合わせてデザインおよび調整する必要があり、多くの手作業の経験が必要でした。 「製品の修復」は、美観や指示遵守などの指標と比較して、ブランドがより重視する点であり、ブランドがお金を払うかどうかの決め手でもある。
コマーシャル画像/ビデオ用の垂直モデルを自社開発する過程で、FancyTech は中心的な課題を分解しました。それは、制御可能で一貫性のない動きを実現するために、特に生成されたビデオにおいて、製品を十分に復元して背景に溶け込ませる方法です。製品の変形。
今日の大規模モデルテクノロジーの発展により、アプリケーション層にとって、オープンソースかクローズドソースの道を選択するかは、もはや中心的な問題ではありません。 FancyTech の垂直モデルは、オープンソースの基盤となるアルゴリズム フレームワークに基づいており、独自のデータ アノテーションと再トレーニングが重ね合わされており、良好な生成結果を達成するために必要な継続的なトレーニング反復には数百の GPU のみが必要です。対照的に、「製品データ」と「トレーニング方法」の 2 つの要素は、最終的な導入効果にとってより重要です。
FancyTech は、大量の 3D トレーニング データを蓄積することを前提として、モデルの 2D コンテンツ生成をガイドするために空間インテリジェンスのアイデアを導入しました。 具体的には、画像コンテンツの生成に関して、チームは製品を確実に復元するために「マルチモーダル機能デバイス」を提案し、特別なデータ収集を使用してビデオに関して製品と背景を自然に統合しました。コンテンツ生成、チームがビデオを再構築 生成された基礎となるリンクは、フレームワークを方向的に設計し、データ エンジニアリングを実行して、製品中心のビデオ生成を実現するように設計されています。
真の次元削減攻撃: 「空間インテリジェンス」は 2D コンテンツ生成をどのように導くのでしょうか?
多くのビジュアル生成製品が満足できない主な理由は、現在の画像およびビデオ生成モデルが 2D トレーニング データに基づいて学習することが多く、実際の物理世界を理解していないことです。
これは、この分野でのコンセンサスに達しており、一部の研究者は、自己回帰学習パラダイムの下では、世界に対するモデルの理解は常に浅いものであるとさえ信じています。
しかし、商用ビジュアル生成の細分化タスクでは、モデルの 3D 物理世界の理解を強化し、2D コンテンツをより適切に生成することが完全に不可能というわけではありません。
FancyTech は、「空間インテリジェンス」分野の研究アイデアを視覚生成モデルの構築に移行しました。一般的な生成モデルとは異なり、空間インテリジェンスの考え方は、多数のセンサーによって取得された元の信号から学習し、センサーによって取得された元の信号を正確に校正して、モデルに空間を認識して理解する能力を与えることです。現実世界。
そのため、FancyTechでは従来のスタジオ撮影の代わりにライダースキャンを使用し、製品統合前後の違いを反映した高品質な3Dデータペアを多数蓄積し、3D点群データと2Dデータをモデルトレーニングデータとして組み合わせています現実世界のモデルの理解を強化します。
ビジュアル コンテンツの生成において、光と影の効果を形作るのは非常に難しい作業であることを私たちは知っています。照明、発光体、バックライト、光点などの要素により、画像の空間的な階層化を強化できますが、これは生成モデルでは理解するのが難しい「知識点」です。
できるだけ多くの自然光と影のデータを収集するために、FancyTech は各環境で明るさと色温度を調整できる数十のライトを確立しました。これは、膨大なデータの各ペアを複数のライトと異なる明るさで重ね合わせることができることを意味します。そして色温度の変化。
この高強度のデータ収集は、実際の撮影シーンの照明をシミュレートし、電子商取引シーンの特性により適合させます。
高品質の 3D データの蓄積と組み合わせて、FancyTech はアルゴリズム フレームワークに一連の革新をもたらし、空間アルゴリズムと画像およびビデオ アルゴリズムを有機的に組み合わせて、モデルがコア オブジェクトと環境の間の相互作用をよりよく理解できるようにしました。 。
トレーニングプロセス中、モデルは物理世界を理解してある程度「出現」し、3次元空間、深さ、光の反射と屈折、光の操作の結果をより深く理解できます。さまざまなメディア、さまざまな認知で、最終的に生成された結果の「強力な縮小」と「超融合」を達成しました。
「強力なリダクション」と「ハイパーフュージョン」の背後にあるアルゴリズムの革新とは何ですか?
一般的な製品シーンの画像生成タスクでは、現在の主流の方法は主にテクスチャを使用して製品部分を確実に復元し、その後、修復技術に基づいて画像シーンの編集を実装します。ユーザーは、変更する必要がある領域を選択し、プロンプトを入力するか、製品シーンの生成をガイドする参照画像を提供します。この方法の融合効果は優れていますが、欠点は、シーン生成結果の制御性が高くないことです。たとえば、シーン生成結果が十分に明確でない、または単純すぎるなど、単一出力の高い可用性を保証できません。
現在の手法では解決できない問題に対して、FancyTechでは製品の特徴を多次元で抽出し、それらの特徴を利用して統合されたシーングラフを生成する独自の「マルチモーダル特徴ジェネレーター」を提案しています。
特徴を抽出する作業は、「グローバル特徴」と「ローカル特徴」に分けられます。グローバル特徴には、VAE エンコーダーを使用して抽出される製品の輪郭、色、およびその他の要素が含まれます。どこでも、グラフ ニューラル ネットワーク抽出を使用して。グラフ ニューラル ネットワークの大きな利点の 1 つは、製品内の各キー ピクセルの情報とキー ピクセル間の関係を抽出し、製品内の詳細の復元を向上できることです。
柔軟な素材の製品のコンテンツ生成では、この方法によって得られる効果が大幅に向上します。
画像と比較して、ビデオ生成には、製品自体のモーション制御と、それがもたらす光と影の変化も含まれます。 。一般的なビデオ生成モデルの場合、ビデオの特定の部分を独立して保護できないことが問題となります。この問題を解決するために、FancyTech はタスクを「製品の動きの生成」と「ビデオ シーンの統合」の 2 つの部門に分割しました。
最初のステップでは、FancyTech は、画面内の製品の動きを制御するためのいくつかのターゲットを絞ったモーション プランニング ソリューションを設計しました。これは、ビデオの各フレームで製品を事前に「固定」することに相当します。 2、制御モジュールを通じて制御可能なビデオ生成を実現します。制御モジュールは柔軟な設計を採用しており、U-netやDiTなどのさまざまなアーキテクチャと互換性があるため、拡張や最適化が容易です。
データ レベルでは、FancyTech の独自の製品データ リソースを使用して制御トレーニングと製品保護を提供することに加えて、シーンの一般化機能を確保するために複数のオープンソース データ セットも追加されています。訓練計画は比較学習とコース学習を組み合わせ、最終的に物品の保護効果を達成します。
AIGC時代の恩恵を
垂直モデルからスタートして、より普通の人々に向けていきましょう
「普遍的」であろうと「垂直的」であろうと、どちらのルートの終着点も商業化です。
FancyTech の垂直モデルの導入で最も直接的に受益するのはブランドです。これまで、広告ビデオの制作サイクルは、企画、撮影、編集から数週間かかることがありました。しかし、AIGCの時代では、このような広告動画の作成にかかる時間はわずか10分で、コストも当初の5分の1で済みます。
ファンシーテックは、膨大な独自のデータと業界のノウハウを活かし、垂直モデルの利点により国内外で広く認知されており、韓国のパートナーとの契約を締結し、Lazadaとの協力を開始しました。東南アジアでは有名な電子商取引プラットフォームであり、米国では Kate Sommerville や Solawave などの地元ブランドに支持されており、ヨーロッパでは LVMH イノベーション賞を受賞しています。顧客。
コアの垂直モデルに加えて、FancyTech は AI ショート ビデオのフルリンク自動公開機能とデータ フィードバック機能も提供し、製品の売上の継続的な成長を推進します。
さらに重要なことは、垂直モデルは、一般の人々が AIGC テクノロジーを使用して生産性を向上させるための道筋を視覚化していることです。 たとえば、従来のストリートフォトスタジオは、FancyTech 製品の助けを借りて、専門的な機器や専門家を追加することなく、単純なポートレート撮影からプロレベルの商用ビジュアル素材の制作までのビジネス変革を完了できます。
今では、携帯電話を手に取るだけで、ほぼ誰もがビデオを撮影したり、音楽を録音したり、自分の作品を世界と共有したりすることができます。 AIGC が再び個人の創造性を解き放つ未来を想像してみてください -
一般の人々が専門的な敷居を超え、アイデアをより簡単に現実化できるようになり、それによって各業界の生産性が飛躍的に向上し、より多くの新興産業を生み出すことができるようになります、AIGC この瞬間から、テクノロジーがもたらした時代の恩恵が、真に一般の人々に届き始めます。
以上がAIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。