알리바바의 '소라의 궤도 제어 가능 버전'은 '카드 뽑기'에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.-일체 포함-php.cn

你规定路线，Tora 来生成相应轨迹的视频。

目前，扩散模型能够生成多样化且高质量的图像或视频。此前，视频扩散模型采用 U-Net 架构，主要侧重于合成有限时长（通常约为两秒）的视频，并且分辨率和纵横比受到固定限制。

Sora 的出现打破了这一限制，其采用 Diffusion Transformer（DiT）架构，不仅擅长制作 10 到 60 秒的高质量视频，而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。

可以说 Sora 是 DiT 架构最有利的证明，然而，基于 Transformer 的扩散模型在有效生成可控动作视频方面还未被充分探索。

针对这一问题，来自阿里的研究者提出了 Tora，这是第一个面向轨迹的 DiT 架构，它将文本、视觉和轨迹条件同时集成在一起以生成视频。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

Tora 的设计与 DiT 的可扩展性无缝契合，允许精确控制具有不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在实现高运动保真度方面表现出色，同时还能细致模拟物理世界的运动。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

论文地址：https://arxiv.org/pdf/2407.21705
论文主页：https://ali-videoai.github.io/tora_video/
论文标题：Tora: Trajectory-oriented Diffusion Transformer for Video Generation

一艘老式的木制帆船沿着规定好的路线在迷雾笼罩的河流上平稳地滑行，周围是茂密的绿色森林。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

一条鲫鱼优雅地游过火星的红色岩石表面，鱼的轨迹向左，火星的轨迹向右。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

热气球沿着不同的轨迹升入夜空，一个沿着规定的斜线，另一个沿着有弯度的轨迹。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

两只可爱的小猫并排走在宁静的金色沙滩上。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

气泡沿着轨迹轻轻地漂浮在盛开的野花中。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

枫叶在清澈的湖面上颤动，映照着秋天的森林。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

山间的瀑布倾泻而下，主题、背景的运动都可以按照不同的路线运动。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

在 Tora 与其他方法的比较中，可以看出 Tora 生成的视频流畅度更高，更遵循轨迹，且物体不会存在变形的问题，保真度更好。

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

방법 소개

Tora는 OpenSora를 DiT 아키텍처의 기본 모델로 사용하며, 여기에는 Trajectory Extractor(TE, Trajectory Extractor), Spatial-Temporal DiT(Spatial-Temporal DiT) 및 Motion Guidance Fusion( MGF) , 모션 안내 퓨저). TE는 3D 비디오 압축 네트워크를 사용하여 임의의 궤적을 계층적 시공간 모션 패치로 인코딩합니다. MGF는 모션 패치를 DiT 블록에 통합하여 궤적을 따르는 일관된 비디오를 생성합니다. 그림 3은 Tora의 작업 흐름을 간략하게 보여줍니다.

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

Space-Time DiT(ST-DiT)

ST-DiT 아키텍처에는 공간 DiT 블록(S-DiT-B)과 시간 DiT 블록(T-DiT-)이라는 두 가지 블록 유형이 포함되어 있습니다. B) 교대로 배열됩니다. S-DiT-B는 두 개의 Attention 레이어로 구성되며, 각 레이어는 SSA(Spatial Self-Attention)와 교차 Attention을 순차적으로 수행하고, 인접한 T-DiT-B 조각을 연결하는 포인트별 피드포워드 레이어가 뒤따릅니다. T-DiT-B는 SSA를 TSA(Temporal Self-Attention)로 대체하여 아키텍처 일관성을 유지하는 방식으로만 이 아키텍처를 수정합니다. 각 블록에서 입력은 정규화 후 스킵 연결을 통해 블록의 출력에 다시 연결됩니다. 가변 길이 시퀀스를 처리하는 기능을 활용하여 ST-DiT의 노이즈 제거는 가변 길이의 비디오를 처리할 수 있습니다.

Trajectory Extractor

Trajectory는 생성된 비디오에서 모션을 제어하는 데 있어 보다 사용자 친화적인 방법임이 입증되었습니다. 그러나 DiT 모델은 비디오 오토인코더와 패칭 프로세스를 채택하여 비디오를 비디오 패치로 변환합니다. 여기서 각 패치는 여러 프레임에 걸쳐 내보내지므로 프레임 간 오프셋을 직접 취하는 것은 부적절합니다. 이 문제를 해결하기 위해 본 논문에서 제안하는 TE는 궤적을 비디오 패치와 동일한 잠재 공간에 위치한 모션 패치로 변환합니다.

Motion Guided Fusion

DiT 기반 비디오 생성을 궤적과 결합하기 위해 이 문서에서는 각 ST-DiT 블록에 모션 패치를 주입하는 세 가지 융합 아키텍처 변형을 살펴봅니다. 이러한 설계는 그림 4에 나와 있습니다.

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

실험 결과

구현 세부 사항 측면에서 연구원들은 OpenSora v1.2 가중치를 기반으로 Tora를 훈련했습니다. 교육 비디오의 해상도는 144p에서 720p까지입니다. 다양한 해상도와 반복당 프레임 수를 사용하여 FLOP를 훈련하는 데 필요한 메모리의 균형을 맞추기 위해 배치 크기를 1에서 25로 조정했습니다.

훈련 인프라의 경우, 연구원들은 4개의 NVIDIA A100과 Adam 옵티마이저를 학습률 2 × 10^−5로 사용했습니다.

연구원들은 Tora를 인기 있는 운동 지도 영상 생성 방법과 비교했습니다. 평가에는 16, 64, 128 프레임의 세 가지 설정이 사용되었으며 모두 512×512 해상도였습니다.

결과는 아래 표 1과 같습니다. U-Net 방법에서 일반적으로 사용되는 16프레임 설정에서 MotionCtrl 및 DragNUWA는 제공된 궤적에 더 잘 정렬되지만 여전히 Tora보다 약합니다. 프레임 수가 증가함에 따라 U-Net 방법은 일부 프레임에서 크게 편향되고 오정렬 오류 전파로 인해 후속 시퀀스에서 변형, 모션 블러 또는 개체 사라짐이 발생할 수 있습니다.

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.

반면 Tora는 Transformer의 통합 스케일링 기능 덕분에 프레임 속도 변화에 대해 높은 견고성을 보여줍니다. Tora의 움직임은 더 부드럽고 실제 세계와 더 일관됩니다. 128프레임 테스트 설정에서 평가할 때 Tora의 궤적 정확도는 다른 방법보다 3~5배 높아 탁월한 모션 제어 기능을 보여줍니다.

아래 그림 5에서 연구원은 다양한 해상도와 기간에서 궤적 오류를 분석합니다. 결과는 시간이 지남에 따라 명백한 궤적 오류가 발생하는 U-Net과 달리 Tora의 궤적 오류는 시간이 지남에 따라 점차 증가한다는 것을 보여줍니다. 이는 DiT 모델에서 시간이 증가함에 따라 비디오 품질이 저하되는 것과 일치합니다. Tora는 오랜 시간 동안 효과적인 궤도 제어를 유지합니다.

아래 그림 6은 두 사람이 함께 움직이는 장면에서 Tora와 주류 모션 제어 방법 간의 비교 분석을 보여줍니다. 모든 방법은 비교적 정확한 모션 궤적을 생성할 수 있습니다. 하지만 더 긴 시퀀스 프레임을 사용하여 더 부드러운 모션 궤적과 더 사실적인 배경 렌더링을 달성하는 데 도움이 되므로 Tora의 시각적 품질이 더 좋습니다.

Tora가 생성한 자전거 장면에서 인간의 다리는 사실적인 페달링 동작을 보여주는 반면 DragNUWA의 다리는 거의 수평으로 떠서 물리적 현실을 위반하는 것을 볼 수 있습니다. 또한 DragNUWA와 MotionCtrl 모두 비디오 끝 부분에서 심각한 모션 블러 문제를 겪고 있습니다.

랜턴이 생성되는 또 다른 장면에서 DragNUWA는 제공된 궤적이 계속해서 오르락 내리락하면서 심한 변형을 보여줍니다. MotionCtrl의 궤적은 상대적으로 정확했지만 결과 영상은 두 랜턴의 설명과 일치하지 않았습니다. Tora는 궤적을 엄격하게 따를 뿐만 아니라 물체 변형을 최소화하여 더 높은 충실도의 동작 표현을 보장합니다.

알리바바의 소라의 궤도 제어 가능 버전은 카드 뽑기에 작별을 고하고 비디오 생성을 물리적 법칙과 더욱 일치하게 만듭니다.