더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정-일체 포함-php.cn

눈 깜짝할 사이에 2024년이 벌써 반이나 지나갔습니다. AI 분야, 특히 AIGC에서 점점 더 분명한 추세를 발견하는 것은 어렵지 않습니다. Wenshengtu 트랙은 꾸준한 발전과 가속화된 상업 구현 단계에 진입했지만 동시에 정적 이미지 생성만으로는 더 이상 불가능합니다. 생성적 AI 기능에 대한 사람들의 요구를 충족시키려면 역동적인 비디오 제작에 대한 수요가 그 어느 때보다 높아질 것입니다.

따라서 Wensheng 비디오 트랙은 계속해서 뜨거운 반응을 얻고 있으며, 특히 OpenAI가 연초 Sora를 출시한 이후 DiT(확산 변환기)를 기본 아키텍처로 하는 비디오 생성 모델이 폭발적인 시기를 맞이했습니다. 이 트랙에는 국내외 영상세대 모델 제조사들이 조용히 기술 경쟁을 펼치고 있다.

중국에서는 시각적 멀티모달 기본 모델 및 애플리케이션 구축에 중점을 두고 지난해 3월 설립된 생성 AI 스타트업 기업이 사람들의 시야에 계속 등장하고 있습니다. 자체 개발한 시각적 다중 모드 기본 모델은 다양한 양식 간의 생성 및 변환을 실현하고 Wensheng 사진, Wensheng 비디오, Wensheng 비디오 및 Wensheng 3D를 지원하며 원스톱 AI 이미지 및 비디오 생성을 출시했습니다. 플랫폼 "Pixeling"을 대중이 시작할 수 있습니다.

체험 주소: www.hidreamai.com

Zhixiang 대형 모델은 2023년 8월 출시 이후 여러 번의 반복과 다듬기를 거쳤으며 기본 모델을 최적화하여 Wensheng 다이어그램, Vincent Video 및 기타 AIGC 기능. 특히 영상 생성 분야에서는 지원되는 생성 시간이 초기 4초에서 15초로 늘어났으며 영상 효과도 눈에 띄게 좋아졌다.

이제 Zhixiang 대형 모델이 다시 업그레이드되었습니다. 중국 기반의 고유한 DiT 아키텍처는

더 심미적이고 예술적인 이미지 생성을 포함하여 더욱 강력하고 안정적이며 사용자 친화적인 이미지 및 비디오 생성 기능을 출시합니다. , 이미지에 텍스트 삽입, 분단위 영상 생성 등.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

이 모든 새로운 이미지 및 비디오 생성 기술의 시연은 Zhixiang Future의 기술 축적 및 다중 모드 영상 생성 분야에서의 지속적인 혁신과 불가분의 관계입니다.

세대 효과가 계속 향상됩니다

더 강력한 기본 모델 기능은 엔진입니다

Zhixiang Large Model은 텍스트, 이미지, 비디오 및 3D의 공동 모델링을 목표로 해왔습니다. 대화형 생성 기술은 정확하고 제어 가능한 다중 모드 콘텐츠 생성을 가능하게 하고 강력한 프로토타입 기능을 구축하여 사용자가 Vincent Picture 및 Vincent Video AIGC 플랫폼에서 더 나은 창의적인 경험을 할 수 있도록 해줍니다.

이

Intelligent Elephant Large Model 2.0 전체 업그레이드는 1.0 버전에 비해 기본 아키텍처, 훈련 데이터 및 훈련 전략에 질적인 변화를 가져왔습니다. 이는 텍스트, 이미지, 비디오 및 3D를 제공합니다. 다중 모드 기능과 대화형 경험의 실질적인 개선.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

업그레이드된 스마트 코끼리 모델은 이미지 및 영상 생성 분야 전반에 걸쳐 향상된 성능을 가져왔으며, 멀티모달 대형을 위한 원스톱 AIGC 생성 플랫폼에 더욱 강력한 추진력을 불어넣었다고 할 수 있습니다. 모델 생성.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

Vincent Picture 실력이 다시 진화했습니다

더 높은 수준의 "추구"로

AIGC의 원스톱 세대 플랫폼인 Vincent Tu는 Vincent Video의 전제이자 중요한 기술적 장벽입니다. 따라서 Zhixiang은 앞으로 Wenshengtu가 나아갈 방향에 큰 기대를 걸고 있으며, 자신만의 속도로 더욱 다양한 기능, 보다 사실적인 시각 효과, 보다 사용자 친화적인 경험을 선보일 것입니다.

일련의 목표 조정 및 최적화를 거친 후 Zhixiang Large Model 2.0의 Vincentian 다이어그램 기능은 이전 버전에 비해 크게 향상되었으며 여러 외부 프레젠테이션 효과에서 쉽게 확인할 수 있습니다.

우선, Zhixiang Large Model 2.0에서 생성된 이미지가 더 아름답고 예술적입니다. 현재 빈첸시안 대형 모델은 의미론적 이해, 이미지 구조 생성, 그림 디테일 등 보다 직관적인 측면에서는 매우 잘 수행되지만, 질감, 아름다움, 예술성과 같은 부분적인 감각적 측면에서는 만족스럽지 못할 수 있습니다. 따라서 아름다움에 대한 추구가 이번 Vincent Picture 업그레이드의 초점이 되었습니다. 효과는 무엇입니까? 다음 두 가지 예를 살펴볼 수 있습니다.

첫 번째 예시에 대한 프롬프트 입력은 모자에 "많은 성, 꽃, 나무, 새, 다채롭고 클로즈업, 디테일, 일러스트레이션 스타일이 있는 거대한 모자를 쓴 어린 소녀"입니다.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

두 번째 예시의 프롬프트 입력은 "녹색 식물 잎 클로즈업 사진, 다크 테마, 물방울 디테일, 모바일 배경화면"입니다.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

생성된 두 이미지는 구도, 톤, 디테일의 풍부함 측면에서 눈길을 사로잡아 사진의 전체적인 아름다움을 크게 향상시킵니다.

생성된 이미지를 더욱 아름답게 만드는 것 외에도 생성된 이미지의 상관관계도 더욱 강해집니다. 이는 이미지 생성이 어느 단계까지 발전한 이후에는 모두가 크게 주목하는 부분이기도 하다.

생성된 이미지의 관련성을 높이기 위해 지능형 이미지의 대형 모델은 다양한 공간 레이아웃, 위치 관계, 다양한 객체 유형, 생성된 객체 수와 같은 일부 복잡한 논리에 대한 이해를 강화하는 데 중점을 둡니다. 등, 이는 더 높은 관련성을 달성하는 데 중요한 요소입니다. 일부 훈련을 거친 후 지능형 코끼리의 대형 모델은 여러 객체, 다중 위치 분포 및 복잡한 공간 논리와 관련된 이미지 생성 작업을 쉽게 처리하고 실제 생활에서 사용자의 실제 요구 사항을 더 잘 충족할 수 있습니다.

다양한 객체와 공간적 위치 관계에 대한 깊은 이해가 필요한 다음 3세대 사례를 살펴보겠습니다. 결과는 이제 Vincent Diagram이 복잡한 논리를 포함하는 길고 짧은 텍스트 프롬프트를 쉽게 처리할 수 있음을 보여줍니다.

첫 번째 예의 프롬프트 입력은 "주방 식탁 위에 과일이 담긴 바구니 세 개가 있습니다. 가운데 바구니에는 녹색 사과가 가득 들어 있습니다. 왼쪽 바구니에는 딸기가 가득 들어 있습니다. 오른쪽 바구니에는 블루베리가 가득 들어 있습니다." 바구니 뒤에는 흰색 개가 있고 배경은 "Pixeling v2"라는 다채로운 텍스트가 있는 청록색 벽입니다.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

두 번째 예의 입력 프롬프트는 "고양이는 오른쪽에, 개는 왼쪽에, 녹색 큐브가 중앙에 있는 파란색 공 위에 놓여 있습니다."입니다.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

세 번째 예에 대한 프롬프트 입력은 "달에서 우주비행사가 핑크색 투투 스커트를 입고 파란 우산을 들고 소를 타고 있습니다. 소 오른쪽에는 모자를 쓴 소가 있습니다. 펭귄 하단에 "HiDream.Al"이라는 문구가 적혀있습니다.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

동시에 이미지에 삽입된 텍스트 생성이 더욱 정확하고 효율적되는데, 이는 포스터나 마케팅 카피라이팅에서 더욱 자주 사용되는 기능입니다.

기술 구현 측면에서 이미지에 포함된 텍스트를 생성하려면 입력 프롬프트의 시각적 모양 설명과 정확한 텍스트 내용을 깊이 이해하는 대규모 모델이 필요합니다. 이를 통해 텍스트 내용을 정확하게 묘사하는 동시에 전체적인 아름다움을 보장할 수 있습니다. 그리고 이미지의 예술성.

이 사이트와의 단독 인터뷰에서 Zhixiang Future의 CTO인 Yao Ting 박사는 이러한 작업을 생성할 수 있더라도 이전 버전에서는 생성할 수 없는 경우가 많다고 언급했습니다. 생성된 문자나 정확성 측면에서 모두 부족합니다. 이제 이러한 문제는 잘 해결되었습니다. Zhixiang의 대형 모델은 최대 수십 단어까지 이미지에 긴 텍스트를 삽입하는 기능을 구현했습니다.

아래 왼쪽에서 오른쪽으로 생성된 세 개의 예는 좋은 텍스트 삽입 효과를 보여줍니다. 특히 그림의 오른쪽에는 20개 이상의 단어와 문장 부호가 정확하게 삽입되어 있습니다.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

지능형 코끼리 모델의 빈첸시안 다이어그램 기능은 업계 최고의 성과를 거두며 영상 생성의 핵심 기반을 마련했다고 할 수 있습니다.

영상 세대가 분 단위에 도달했습니다

업그레이드된 지능형 이미지 모델 2.0이 빈첸시안 그래픽 방향으로 꾸준한 발전을 이뤘다면, 빈첸시안 영상 방향으로 한 단계 더 도약한 것입니다. .

지난해 12월 지샹 대형 모델의 빈센트 영상은 4초 제한을 깨고 15초 이상의 생성시간을 지원했다. 반년이 지난 후 Wensheng Video는 지속 시간, 그림의 자연성, 콘텐츠 및 캐릭터 일관성 측면에서 크게 향상되었으며 이는 자체 개발한 성숙한 DiT 아키텍처 덕분입니다.

U-Net에 비해 DiT 아키텍처는 더 유연하며 이미지 및 비디오 생성 품질을 향상시킬 수 있습니다. Sora의 등장은 이러한 유형의 아키텍처를 사용한 확산 모델이 고품질의 이미지와 비디오를 생성하는 자연스러운 경향을 보여주며 생성된 콘텐츠의 사용자 정의 가능성과 제어 가능성에 상대적인 이점을 가지고 있습니다. Intelligent Elephant Large Model 2.0의 경우 채택한 DiT 아키텍처에는 몇 가지 독특한 기능이 있습니다.

우리는 DiT 아키텍처의 기본 구현이 Transformer를 기반으로 한다는 것을 알고 있습니다. Intelligence Model 2.0은 전체 Transformer 네트워크 구조, 훈련 데이터 구성 및 훈련 전략, 특히 네트워크 훈련에서 완전히 자체 개발된 모듈을 채택합니다. 전략은 잘 짜여졌다.

우선, Transformer 네트워크 구조는 효율적인 시공간 조인트 어텐션 메커니즘을 채택합니다. 이는 공간적, 시간적 영역 모두에서 비디오의 특성에 적합할 뿐만 아니라 기존 어텐션 메커니즘이 따라잡을 수 없는 문제를 해결합니다. 실제 훈련 과정에서의 속도 문제.

둘째, AI 비디오 작업의 롱샷 생성으로 인해 훈련 데이터의 소스 및 선별에 대한 요구 사항이 더 높아졌습니다. 따라서 Zhixiang 대형 모델은 최대 몇 분, 심지어는 10분 분량의 비디오 클립 학습을 지원하여 몇 분 길이의 비디오를 직접 출력하는 것이 가능합니다. 동시에 분 단위의 비디오 콘텐츠를 설명하는 것도 어렵습니다. Zhixiang Future는 비디오 설명을 생성하는 캡션 모델을 독자적으로 개발하여 상세하고 정확한 설명 출력을 달성했습니다.

마지막으로 훈련 전략 측면에서 볼 때, 장렌즈 비디오 데이터의 한계로 인해 지능형 코끼리 모델 2.0은 비디오와 사진 데이터의 공동 훈련을 위해 길이가 다른 비디오 클립을 사용하고, 비디오 샘플링을 동적으로 변경합니다. 길이를 달리한 후 롱샷 훈련을 완료하는 동시에 훈련 중 사용자 피드백 데이터를 기반으로 강화 학습을 수행하여 모델 성능을 더욱 최적화합니다.

따라서 더욱 강력한 자체 개발 DiT 아키텍처는 Wensheng 비디오 효과의 추가 개선을 위한 기술 지원을 제공합니다.

이제 지능형 코끼리 대형 모델 2.0에서 지원하는 동영상 재생 시간이 약 15초에서 분으로 늘어나 업계 최고 수준에 도달했습니다.

분 수준에 도달하는 동영상 재생 시간 외에도 가변 재생 시간과 크기도 이번 Wensheng 동영상 기능 업그레이드의 주요 특징입니다.

현재 비디오 생성 모델은 일반적으로 사용자가 선택할 수 없는 고정된 생성 기간을 가지고 있습니다. 앞으로 Zhixiang은 사용자에게 생성 기간 선택권을 열어 사용자가 입력된 프롬프트 콘텐츠를 기반으로 기간을 지정하거나 동적 판단을 내릴 수 있도록 할 것입니다. 복잡하면 긴 영상이 생성되고, 상대적으로 단순하면 짧은 영상이 생성되는 이러한 역동적인 과정을 통해 사용자의 창의적 요구를 적응적으로 충족할 수 있습니다. 생성된 비디오의 크기도 필요에 따라 맞춤 설정할 수 있어 매우 사용자 친화적입니다.

또한, 전체적인 사진의 느낌이 좋아졌고, 생성된 영상 속 사물의 동작이나 움직임이 더 자연스럽고 부드러워졌으며, 디테일이 더 제자리에 렌더링되었으며, 4K 울트라 클리어를 지원합니다. 화질.

단 반년 만에 이전 버전에 비해 업그레이드된 빈센트 비디오 기능은 '재탄생'했다고 할 수 있습니다. 그러나 Yao Ting 박사의 견해에 따르면 지능형 미래이든 다른 동료이든 대부분의 비디오 세대는 여전히 단일 렌즈 단계에 있습니다. 자율주행 분야의 L1~L5 단계에 비하면 빈센트비디오는 대략 L2 단계에 해당한다. 이러한 기본 모델 기능 업그레이드를 통해 Zhixiang은 향후 고품질 다중 렌즈 비디오 생성을 추구하고 L3 단계를 탐색하는 중요한 단계를 밟았습니다.

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정

智象未来表示，迭代后的文生视频功能将在 7 月中旬上线使用。大家可以狠狠地期待一波了！

写在最后

成立不到一年半的时间，无论是基础模型能力的持续迭代，还是文生图、文生视频实际体验的提升，智象未来在视觉多模态生成这一方向上走得既稳又快，并收获了大量 C 端和 B 端用户。

我们了解到，智象未来 C 端用户单月访问量超过了百万，生成 AI 图像和视频的总数量也超过千万。低门槛、好应用构成了智象大模型的特质，并基于它打造了最适合社会大众使用的首款 AIGC 应用平台。

在 B 端，智象未来积极与中国移动、联想集团、科大讯飞、上影集团、慈文集团、神州数码、央视网、印象笔记、天工异彩、杭州灵伴等企业达成战略合作协议，深化模型应用场景，将模型能力延展到包括运营商、智能终端、影视制作、电子商务、文旅宣传和品牌营销在内的更多行业，最终在商业化落地过程中发挥模型潜能并创造价值。

目前，智象大模型拥有大约 100 家头部企业客户，并为 30000 + 小微企业客户提供了 AIGC 服务。

더욱 아름다운 영상 생성, 분단위 영상 출력, 국내 자체 개발 DiT 아키텍처의 도약 여정