更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅-人工智能-PHP中文网

一转眼，2024 年已经过半。我们不难发现，AI 尤其是 AIGC 领域出现一个越来越明显的趋势：文生图赛道进入到了稳步推进、加速商业落地的阶段，但同时仅生成静态图像已经无法满足人们对生成式 AI 能力的期待，对动态视频的创作需求前所未有的高涨。

因此，文生视频赛道持续高热，尤其是自年初 OpenAI 发布 Sora 以来，以 Diffusion Transformer（DiT）为底层架构的视频生成模型迎来了井喷期。在这一赛道，国内外视频生成模型厂商们正默默展开着一场技术竞速。

在国内，一家成立于去年 3 月、专注于构建视觉多模态基础模型及应用的生成式 AI 初创公司不断出现在人们的视野中。它就是智象未来（HiDream.ai），其自主研发的视觉多模态基础模型实现了不同模态之间的生成转换，支持文生图、文生视频、图生视频和文生 3D，并推出了一站式 AI 图像和视频生成平台「Pixeling 千象」供社会大众上手使用。

体验地址：www.hidreamai.com

自智象大模型 2023 年 8 月上线以来，期间历经数次迭代与打磨，通过优化基础模型来深挖、拓展文生图和文生视频等 AIGC 能力。尤其是在视频生成领域，支持的生成时长从最开始的 4 秒增加到了 15 秒，成像效果也肉眼可见地更优。

如今，智象大模型再次迎来升级，基于中文原生的独有 DiT 架构释放出更强大、更稳定、对用户更友好的图像和视频生成能力，包括更具美感和艺术性的图像生成、图像中文字嵌入、分钟级视频生成等。

所有这些图像和视频生成新技能的展示，离不开智象未来在多模态视觉生成领域的技术积累和持续创新。

生成效果持续提升

更强大基模能力是引擎

智象大模型从一开始便瞄准了文本、图像、视频、3D 的联合建模，通过交互式生成技术实现精准可控的多模态内容生成，构筑强大的基模能力，让用户在其文生图、文生视频 AIGC 平台中有更好的创作体验。

此次智象大模型 2.0 的整体升级，相较于 1.0 版本在底层架构、训练数据和训练策略上均有质的变化，由此带来了文本、图像、视频和 3D 多模能力的又一次飞跃和交互体验上的切实提升。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

可以说，升级后的智象大模型在图像、视频生成领域迎来了全方位加强，并为多模态大模型创作一站式 AIGC 生成平台注入了更加强劲的驱动力。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

文生图技能再进化

有了更高层次的「追求」

作为 AIGC 的一站式生成平台，文生图是文生视频的前提和重要的技术壁垒。因此智象未来在文生图方向上寄予了很高的预期，以自己的节奏推进更多样性功能、更逼真视觉效果以及更友好用户体验。

经过了一系列针对性调整和优化，智象大模型 2.0 文生图能力相较以往版本显着改进，并从多个外在呈现效果上很容易看出来。

首先，智象大模型 2.0 生成的图像更有美感、更具艺术性。当前的文生图大模型在语义理解、生成图像结构和画面细节等较为直观的方面可以做得很好，但在质感、美感、艺术性等偏感官方面可能无法让人满意。因此，追求美感成为了此次文生图升级的重点。究竟效果如何呢？我们可以来看下面两个示例。

第一个示例输入的 Prompt 为「一个戴着巨大帽子的小女孩，帽子上有很多城堡，花草树木，鸟类，五颜六色，特写，细节，插画风格」。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

第二个示例输入的 Prompt 为「绿色植物叶子特写照片，深色主题，水滴细节，移动壁纸」。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

生成的两张图像，无论是构图色调，还是细节丰富度，看上去都有一种让人眼前一亮的感觉，这些都极大地拉升了整体画面美感。

除了让生成的图像看上去更美之外，生成图像的相关性也更强。这也是图像生成发展到一定阶段后，大家非常关注的一个方面。

为了提升生成图像的相关性，智象大模型重点强化了对一些复杂逻辑的理解，比如不同的空间布局、位置关系、不同类型的物体、生成物体的数量等，这些都是实现更高相关性的重要因素。一番调教下来，智象大模型可以轻松搞定包含多物体、多位置分布、复杂空间逻辑的图像生成任务，更好地满足现实生活中用户的实际需求。

我们来看下面三个需要对不同物体、空间位置关系进行深刻理解的生成示例。结果表明，对于包含复杂逻辑的长短文本 Prompt，文生图现在都能轻松搞定。

第一个示例输入的Prompt 为「厨房桌子上有三个装满水果的篮子。中间的篮子里装满了青苹果。左边的篮子里装满了草莓。右边的篮子里满是蓝莓。篮子后面是一只白色狗。背景是一面青绿色的墙壁，上面有彩色的文字"Pixeling v2"」。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

第二个示例输入的 Prompt 为「右边是一只猫，左边是一只狗，中间是一个绿色的立方体放在一个蓝色的球上」。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

第三个示例输入的Prompt 为「在月球上，一名宇航员骑着一头牛，穿着粉色芭蕾裙，手拿着蓝色伞。牛的右边是一只戴着高顶帽的企鹅。底部写着文字“HiDream.Al”」。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

同时，图像中嵌入文字的生成更加准确、高效，这一海报或营销文案中使用比较多的功能得到加强。

在技术实现上，生成图像中嵌入文字需要大模型深刻理解输入的 Prompt 中视觉外观描述和精准文字内容，从而在保证图像整体美感和艺术性的同时实现对文字内容的精准刻画。

在接受本站的专访时，智象未来 CTO 姚霆博士提到，对于此类任务，以往版本很多时候无法生成，即便能生成也存在问题，在生成的字符或者准确性上都有欠缺。现在这些问题得到了很好地解决，智象大模型实现了图像中长文本的嵌入生成，最多可以做到几十个单词。

下面从左到右三个生成示例展示出了很好的文字嵌入效果，尤其是图右准确无误地嵌入了二十几个单词及标点符号。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

可以说，此次智象大模型的文生图功能在行业中实现了行业引领的效果，为视频生成打下了关键的牟定基础。

视频生成迈入分钟级

如果说升级后的智象大模型 2.0 在文生图方向做到了稳扎稳打，那么在文生视频方向则迎来了跨越式突破。

去年 12 月，智象大模型的文生视频打破了 4 秒时长限制，做到了支持 15 秒钟以上的生成时长。半年过去了，文生视频在时长、画面自然度、内容和角色一致性上均有显着提升，而这要归功于其自研了一套成熟的 DiT 架构。

相较于 U-Net，DiT 架构灵活度更高，且能增强图像、视频的生成质量。 Sora 的出现更直观地验证了这一点，采用此类架构的扩散模型表现出了天然生成高质量图像和视频的倾向，并在可定制化、生成内容可控性方面具有相对优势。对于智象大模型 2.0 而言，其采用的 DiT 架构又有一些独特的地方。

我们知道，DiT 架构的底层实现都是基于Transformer，智象大模型2.0 在整个Transformer 网络结构、训练数据的构成和训练策略上采用完全自研的模块，尤其在网络训练策略上下足了功夫。

首先，Transformer 网络结构采用了高效的时空联合注意力机制，不仅契合了视频兼具空间域和时间域的特征，而且解决了传统注意力机制在实际训练过程中速度跟不上的难题。

其次，AI 视频任务中的长镜头生成对训练数据的来源、筛选提出了更高要求。因此，智象大模型最多支持几分钟甚至十几分钟视频片段的训练，这样一来，直接输出分钟级时长的视频有了可能。同时，对分钟级视频内容的描述也是比较困难的事情，智象未来自研了视频描述生成的 Captioning Model，实现了详细且精准的描述输出。

最后在训练策略上，由于长镜头视频数据有限，因此智象大模型2.0 使用了不同长度的视频片段，进行视频和图片数据的联合训练，并动态地改变不同长度视频的采样率，进而完成长镜头训练，同时在训练时还会根据用户反馈数据进行强化学习以进一步优化模型性能。

也因此，更强大自研 DiT 架构为此次文生视频效果的进一步提升提供了技术支撑。

现在，智象大模型 2.0 支持生成的视频时长从 15 秒左右提升到了分钟级，达到了业界较高水平。

在视频时长迈入分钟级之外，可变时长和尺寸也是此次文生视频功能升级的一大看点。

当前视频生成模型通常是固定生成时长，用户无法选择。智象未来将生成时长的选择权开放给了用户，既可以让他们指定时长，也能够根据输入的 Prompt 内容进行动态判断。如果比较复杂则生成较长视频，比较简单则生成较短视频，通过这样一个动态过程来自适应地满足用户的创作需求。生成视频的尺寸也可以按需定制，对用户使用非常友好。

此外，整体画面观感变得更好，生成视频中物体的动作或运动更加自然流畅，细节渲染更加到位，并支持了 4K 超清画质。

短短半年时间，与以往版本相比，升级后的文生视频功能用「脱胎换骨」来形容也不为过。不过在姚霆博士看来，当前无论是智象未来还是其他同行，视频生成大部分仍处于单镜头阶段。如果对标自动驾驶领域的 L1 到 L5 阶段，文生视频大致处于 L2 阶段。此次借助基模能力的升级，智象未来想要追求更高质量的多镜头视频生成，也迈出了探索 L3 阶段的关键一步。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

Zhixiang Future は、反復的な Vincent ビデオ機能が 7 月中旬に開始されると述べました。皆さんも楽しみにしていてください！

最後に書きました

基本的なモデル機能の継続的な反復であるか、Vincentian の画像と実際のエクスペリエンスの向上であるかどうかは、1 年半未満で確立されました。 Vincentian ビデオ、Intelligent Image は将来的にはより視覚的なものになるでしょう。モーダル世代はこの方向に着実かつ急速に進歩しており、多くの C サイドと B サイドのユーザーを獲得しています。

Zhixiang FutureのCエンドユーザーの月間訪問者数は100万を超え、生成されたAI画像と動画の総数も1,000万を超えたことが分かりました。敷居が低く、優れたアプリケーションが Intelligent Elephant モデルの特徴を構成し、これに基づいて、一般向けに最適な最初の AIGC アプリケーションプラットフォームが作成されます。

B面では、Zhixiang Futureは、China Mobile、Lenovo Group、iFlytek、Shanghai Film Group、Ciwen Group、Digital China、CCTV、Evernote、Tiangong Yicai、Hangzhou Lingbanなどの企業と積極的に協力しており、戦略的協力に達しています。モデルの適用シナリオを深化し、モデルの機能を通信事業者、スマート端末、映画およびテレビ制作、電子商取引、文化観光促進、ブランドマーケティングなどのより多くの業界に拡張し、最終的には商業化プロセスの可能性でモデルを使用して価値を創造することに合意しました。。

現在、Zhixiang Large Model には約 100 のトップ企業顧客がおり、30,000 以上 の中小企業および零細企業の顧客に AIGC サービスを提供しています。

更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅

Zhixiang Large Model 2.0のリリースに先立ち、Zhixiang FutureはChina Mobile Migu Groupと提携して国家レベルのAIGCアプリケーション「AI One Word to Make a Movie」を開始しました。これは一般ユーザーにゼロを提供するだけでなく、ベースの AI ビデオ着信音作成機能は、企業顧客が豊富なブランドおよびマーケティングビデオコンテンツを生成するのにも役立ち、企業が独自の着信音ブランドを持つことを可能にし、ビデオ生成と業界シナリオとの統合の大きな可能性を確認できます。

さらに、AIエコシステムも大手模型メーカーにとって開発すべき重要なポジションです。この点に関して、Zhixiang は将来的にオープンな姿勢をとっており、Lenovo Group、iFlytek、Digital China などの主要顧客だけでなく、小規模な開発チームや独立系開発者とも協力して、ビデオ生成を含む広範な AI エコシステムを構築していきます。より多様化するユーザーニーズ。

2024 年は大型モデルアプリケーション実装の初年度とみなされ、すべてのメーカーにとって重要な開発ノードとなります。今後、Zhixiang は、より強力なプロトタイプ機能に関する詳細な記事を作成する予定です。

一方では、ビデオ生成分野における基礎となるアーキテクチャ、アルゴリズム、データの最適化を継続するなど、統合フレームワークにおける画像、ビデオ、3D マルチモダリティの理解と生成機能を強化します。期間と品質の向上を達成するための大きな進歩は、将来の一般的な人工知能を促進するために不可欠な部分となっています。その一方で、業界を拡大するために、ユーザーエクスペリエンス、革新的なアプリケーション、産業エコロジーなどの多方向に努力してきました。影響。

ビデオ生成トラックで高い地位を獲得し、Zhixiang は将来に向けて完全に準備を整えています。

以上是更美图像生成、直出分钟级视频，国产自研DiT架构的越级之旅的详细内容。更多信息请关注PHP中文网其他相关文章！