ホームページ テクノロジー周辺機器 AI AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

Aug 16, 2024 pm 04:36 PM
aigc 業界

今回、私たちは新たな技術革新を目撃しています。AIGC は個人に自分自身を表現するためのツールを提供し、創作をより簡単にし、より人気のあるものにしていますが、その背後にある原動力は「大きな」モデルではありません。

過去 2 年間で、AIGC テクノロジーは誰もが想像していたよりも速く発展し、テキスト、画像、ビデオに至るまであらゆる分野に浸透しました。 AIGCの事業化の道筋については議論が絶えず、その中には合意もあれば路線の分岐もある。

一方で、一般モデルの強力な機能は驚くべきものであり、あらゆる分野での応用の可能性を示しています。特に、DiT や VAR などのアーキテクチャの導入により、Scaling Law はテキスト生成からビジュアル生成へと飛躍することができました。このルールの指針の下、多くの大規模モデル メーカーは、トレーニング データの増加、計算能力への投資、パラメータの蓄積の方向に前進し続けています。

その一方で、普遍的なモデルは「すべてを殺す」ことを意味するものではなく、多くの細分化されたトラックタスクに直面して、「よく訓練された」垂直モデルがより良い結果を達成できることもわかりました。

大型モデル技術が加速実装の時期に入るにつれ、後者の商業化の道が急速に注目を集めています。

この進化の過程で際立っているのが、中国のスタートアップ企業であるFancyTechです。 商用ビジュアルコンテンツ生成用の標準化された製品で市場を急速に拡大し、産業実装レベルで「垂直モデル」の優位性を検証しました仲間よりも早い。

国内の大型モデル起業家界を見回せば、FancyTech の商業化実績は誰の目にも明らかです。しかし、あまり知られていないのは、わずか数年前に誕生したこの会社がトラックの最前線に立っている垂直モデルと技術的優位性です。

このウェブサイトは独占インタビューで、FancyTech が行っている技術探求について語りました。

FancyTech がビデオ垂直モデル DeepVideo をリリース

業界の壁を突破するには?

一般的に言えば、一般モデルのゼロサンプル汎化能力が一定のレベルに達した後、それを微調整して下流のタスクに使用できます。これは、今日多くの大型モデル製品が発売される方法でもあります。しかし、実際の効果としては、各業界のコンテンツ生成タスクには独自の複雑な標準セットがあるため、「微調整」だけでは産業アプリケーションのニーズを満たすことはできません。

一般的なモデルは従来のタスクの 70% を完了できるかもしれませんが、顧客が本当に必要としているのは、ニーズを 100% 満たすことができる「垂直モデル」です。コマーシャルのビジュアルデザインを例に挙げると、これまで関連する作業は専門家によって長期的な蓄積を経て完成されており、ブランドの特定のニーズに合わせてデザインおよび調整する必要があり、多くの手作業の経験が必要でした。 「製品の修復」は、美観や指示遵守などの指標と比較して、ブランドがより重視する点であり、ブランドがお金を払うかどうかの決め手でもある。

コマーシャル画像/ビデオ用の垂直モデルを自社開発する過程で、FancyTech は中心的な課題を分解しました。それは、制御可能で一貫性のない動きを実現するために、特に生成されたビデオにおいて、製品を十分に復元して背景に溶け込ませる方法です。製品の変形。

AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

今日の大規模モデルテクノロジーの発展により、アプリケーション層にとって、オープンソースかクローズドソースの道を選択するかは、もはや中心的な問題ではありません。 FancyTech の垂直モデルは、オープンソースの基盤となるアルゴリズム フレームワークに基づいており、独自のデータ アノテーションと再トレーニングが重ね合わされており、良好な生成結果を達成するために必要な継続的なトレーニング反復には数百の GPU のみが必要です。対照的に、「製品データ」と「トレーニング方法」の 2 つの要素は、最終的な導入効果にとってより重要です。

FancyTech は、大量の 3D トレーニング データを蓄積することを前提として、モデルの 2D コンテンツ生成をガイドするために空間インテリジェンスのアイデアを導入しました。 具体的には、画像コンテンツの生成に関して、チームは製品を確実に復元するために「マルチモーダル機能デバイス」を提案し、特別なデータ収集を使用してビデオに関して製品と背景を自然に統合しました。コンテンツ生成、チームがビデオを再構築 生成された基礎となるリンクは、フレームワークを方向的に設計し、データ エンジニアリングを実行して、製品中心のビデオ生成を実現するように設計されています。

真の次元削減攻撃: 「空間インテリジェンス」は 2D コンテンツ生成をどのように導くのでしょうか?

多くのビジュアル生成製品が満足できない主な理由は、現在の画像およびビデオ生成モデルが 2D トレーニング データに基づいて学習することが多く、実際の物理世界を理解していないことです。

これは、この分野でのコンセンサスに達しており、一部の研究者は、自己回帰学習パラダイムの下では、世界に対するモデルの理解は常に浅いものであるとさえ信じています。

しかし、商用ビジュアル生成の細分化タスクでは、モデルの 3D 物理世界の理解を強化し、2D コンテンツをより適切に生成することが完全に不可能というわけではありません。

FancyTech は、「空間インテリジェンス」分野の研究アイデアを視覚生成モデルの構築に移行しました。一般的な生成モデルとは異なり、空間インテリジェンスの考え方は、多数のセンサーによって取得された元の信号から学習し、センサーによって取得された元の信号を正確に校正して、モデルに空間を認識して理解する能力を与えることです。現実世界。

そのため、FancyTechでは従来のスタジオ撮影の代わりにライダースキャンを使用し、製品統合前後の違いを反映した高品質な3Dデータペアを多数蓄積し、3D点群データと2Dデータをモデルトレーニングデータとして組み合わせています現実世界のモデルの理解を強化します。

ビジュアル コンテンツの生成において、光と影の効果を形作るのは非常に難しい作業であることを私たちは知っています。照明、発光体、バックライト、光点などの要素により、画像の空間的な階層化を強化できますが、これは生成モデルでは理解するのが難しい「知識点」です。

できるだけ多くの自然光と影のデータを収集するために、FancyTech は各環境で明るさと色温度を調整できる数十のライトを確立しました。これは、膨大なデータの各ペアを複数のライトと異なる明るさで重ね合わせることができることを意味します。そして色温度の変化。

AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

この高強度のデータ収集は、実際の撮影シーンの照明をシミュレートし、電子商取引シーンの特性により適合させます。

AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

高品質の 3D データの蓄積と組み合わせて、FancyTech はアルゴリズム フレームワークに一連の革新をもたらし、空間アルゴリズムと画像およびビデオ アルゴリズムを有機的に組み合わせて、モデルがコア オブジェクトと環境の間の相互作用をよりよく理解できるようにしました。 。

トレーニングプロセス中、モデルは物理世界を理解してある程度「出現」し、3次元空間、深さ、光の反射と屈折、光の操作の結果をより深く理解できます。さまざまなメディア、さまざまな認知で、最終的に生成された結果の「強力な縮小」と「超融合」を達成しました。

「強力なリダクション」と「ハイパーフュージョン」の背後にあるアルゴリズムの革新とは何ですか?

一般的な製品シーンの画像生成タスクでは、現在の主流の方法は主にテクスチャを使用して製品部分を確実に復元し、その後、修復技術に基づいて画像シーンの編集を実装します。ユーザーは、変更する必要がある領域を選択し、プロンプトを入力するか、製品シーンの生成をガイドする参照画像を提供します。この方法の融合効果は優れていますが、欠点は、シーン生成結果の制御性が高くないことです。たとえば、シーン生成結果が十分に明確でない、または単純すぎるなど、単一出力の高い可用性を保証できません。

現在の手法では解決できない問題に対して、FancyTechでは製品の特徴を多次元で抽出し、それらの特徴を利用して統合されたシーングラフを生成する独自の「マルチモーダル特徴ジェネレーター」を提案しています。

AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

特徴を抽出する作業は、「グローバル特徴」と「ローカル特徴」に分けられます。グローバル特徴には、VAE エンコーダーを使用して抽出される製品の輪郭、色、およびその他の要素が含まれます。どこでも、グラフ ニューラル ネットワーク抽出を使用して。グラフ ニューラル ネットワークの大きな利点の 1 つは、製品内の各キー ピクセルの情報とキー ピクセル間の関係を抽出し、製品内の詳細の復元を向上できることです。

柔軟な素材の製品のコンテンツ生成では、この方法によって得られる効果が大幅に向上します。AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

画像と比較して、ビデオ生成には、製品自体のモーション制御と、それがもたらす光と影の変化も含まれます。 。一般的なビデオ生成モデルの場合、ビデオの特定の部分を独立して保護できないことが問題となります。この問題を解決するために、FancyTech はタスクを「製品の動きの生成」と「ビデオ シーンの統合」の 2 つの部門に分割しました。

  • 最初のステップでは、FancyTech は、画面内の製品の動きを制御するためのいくつかのターゲットを絞ったモーション プランニング ソリューションを設計しました。これは、ビデオの各フレームで製品を事前に「固定」することに相当します。 2、制御モジュールを通じて制御可能なビデオ生成を実現します。制御モジュールは柔軟な設計を採用しており、U-netやDiTなどのさまざまなアーキテクチャと互換性があるため、拡張や最適化が容易です。

データ レベルでは、FancyTech の独自の製品データ リソースを使用して制御トレーニングと製品保護を提供することに加えて、シーンの一般化機能を確保するために複数のオープンソース データ セットも追加されています。訓練計画は比較学習とコース学習を組み合わせ、最終的に物品の保護効果を達成します。

AIGC時代の恩恵を

垂直モデルからスタートして、より普通の人々に向けていきましょう

「普遍的」であろうと「垂直的」であろうと、どちらのルートの終着点も商業化です。

FancyTech の垂直モデルの導入で最も直接的に受益するのはブランドです。これまで、広告ビデオの制作サイクルは、企画、撮影、編集から数週間かかることがありました。しかし、AIGCの時代では、このような広告動画の作成にかかる時間はわずか10分で、コストも当初の5分の1で済みます。

ファンシーテックは、膨大な独自のデータと業界のノウハウを活かし、垂直モデルの利点により国内外で広く認知されており、韓国のパートナーとの契約を締結し、Lazadaとの協力を開始しました。東南アジアでは有名な電子商取引プラットフォームであり、米国では Kate Sommerville や Solawave などの地元ブランドに支持されており、ヨーロッパでは LVMH イノベーション賞を受賞しています。顧客。

コアの垂直モデルに加えて、FancyTech は AI ショート ビデオのフルリンク自動公開機能とデータ フィードバック機能も提供し、製品の売上の継続的な成長を推進します。

さらに重要なことは、垂直モデルは、一般の人々が AIGC テクノロジーを使用して生産性を向上させるための道筋を視覚化していることです。 たとえば、従来のストリートフォトスタジオは、FancyTech 製品の助けを借りて、専門的な機器や専門家を追加することなく、単純なポートレート撮影からプロレベルの商用ビジュアル素材の制作までのビジネス変革を完了できます。 AIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?

今では、携帯電話を手に取るだけで、ほぼ誰もがビデオを撮影したり、音楽を録音したり、自分の作品を世界と共有したりすることができます。 AIGC が再び個人の創造性を解き放つ未来を想像してみてください -

一般の人々が専門的な敷居を超え、アイデアをより簡単に現実化できるようになり、それによって各業界の生産性が飛躍的に向上し、より多くの新興産業を生み出すことができるようになります、AIGC この瞬間から、テクノロジーがもたらした時代の恩恵が、真に一般の人々に届き始めます。

以上がAIGCの事業化を「縦型モデル」でリードするFancyTechの技術的軌跡とは?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した 初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました 世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

分散型人工知能カンファレンス DAI 2024 論文募集: エージェント デイ、強化学習の父であるリチャード サットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います 分散型人工知能カンファレンス DAI 2024 論文募集: エージェント デイ、強化学習の父であるリチャード サットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介 科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました 宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

See all articles