GAN을 기반으로 부드러운 비디오가 생성되며 그 효과는 매우 인상적입니다. 텍스처 접착 없음, 지터 감소
최근 GAN(Generative Adversarial Network)을 기반으로 한 이미지 생성에 대한 연구가 상당한 진전을 이루었습니다. 고해상도의 사실적인 그림을 생성할 수 있는 것 외에도 개인화된 그림 편집, 그림 애니메이션 등과 같은 많은 혁신적인 응용 프로그램도 등장했습니다. 그러나 비디오 생성에 GAN을 사용하는 방법은 여전히 어려운 문제입니다.
비디오 생성에는 단일 프레임 이미지를 모델링하는 것 외에도 복잡한 시간적 관계를 학습해야 합니다. 최근 홍콩중문대학교, 상하이 인공지능연구소, 앤트기술연구소, 캘리포니아대학교 로스앤젤레스캠퍼스 연구진이 새로운 영상 생성 방식(Towards Smooth Video Composition)을 제안했다. 기사에서 그들은 다양한 범위(단기 범위, 중간 범위, 장거리)의 타이밍 관계에 대한 세부 모델링 및 개선을 수행했으며 이전 작업과 비교하여 여러 데이터 세트에서 상당한 개선을 달성했습니다. 이 작업은 GAN 기반 비디오 생성을 위한 간단하고 효과적인 새로운 벤치마크를 제공합니다.
- 논문 주소: https://arxiv.org/pdf/2212.07413.pdf
- 프로젝트 코드 링크: https://github.com/genforce/StyleSV
모델 아키텍처
GAN 기반 이미지 생성 네트워크는 다음과 같이 표현될 수 있습니다. I=G(Z), 여기서 Z는 랜덤 변수, G는 생성 네트워크, I는 생성된 이미지입니다. 우리는 이 프레임워크를 비디오 생성 범주로 간단하게 확장할 수 있습니다: I_i=G(z_i), i=[1,...,N], 여기서 우리는 N개의 무작위 변수 z_i를 한 번에 샘플링하고 각 무작위 변수 z_i는 다음을 생성합니다. 그림 I_i의 A 프레임에 해당합니다. 생성된 영상은 생성된 이미지를 시간차원으로 쌓아서 얻을 수 있다.
MoCoGAN, StyleGAN-V 및 기타 연구에서는 이를 기반으로 분리된 표현을 제안했습니다: I_i=G(u, v_i), i=[1,...,N], 여기서 u는 제어 내용을 나타냅니다. 변수 v_i는 동작을 제어하는 랜덤 변수를 나타냅니다. 이 표현은 모든 프레임이 동일한 내용을 공유하고 고유한 모션을 갖는다고 주장합니다. 이러한 분리된 표현을 통해 일관된 콘텐츠 스타일과 변화하는 사실성을 갖춘 액션 비디오를 더 잘 생성할 수 있습니다. 신작에서는 StyleGAN-V의 디자인을 채택하여 베이스라인으로 사용하고 있다.
비디오 생성의 어려움: 시간적 관계를 효과적이고 합리적으로 모델링하는 방법은 무엇입니까?
신작에서는 다양한 범위(단거리, 중간 범위, 장거리)의 타이밍 관계에 중점을 두고 각각 세부 모델링 및 개선을 수행합니다.
1. ) 타이밍 관계
먼저 몇 개의 프레임만 있는 비디오를 고려해 보겠습니다. 이러한 짧은 비디오 프레임에는 매우 유사한 콘텐츠가 포함되어 매우 미묘한 움직임만 표시되는 경우가 많습니다. 따라서 프레임 간 미묘한 움직임을 현실적으로 생성하는 것이 중요합니다. 그러나 StyleGAN-V로 생성된 동영상에서는 심각한 텍스처 고착이 발생합니다.
질감 접착이란 생성된 콘텐츠의 일부가 특정 좌표에 의존하여 고정된 영역에 "붙는" 현상을 일으키는 것을 말합니다. 이미지 생성 분야에서 StyleGAN3은 상세한 신호 처리, 확장된 패딩 범위 및 기타 작업을 통해 텍스처 접착 문제를 완화합니다. 이 작업은 동일한 기술이 비디오 생성에도 여전히 효과적이라는 것을 검증합니다.
아래 시각화에서는 비디오의 각 프레임에서 동일한 위치에 있는 픽셀을 추적합니다. StyleGAN-V 영상에서 일부 콘텐츠가 고정된 좌표에 오랫동안 '고착'되어 시간이 지나도 움직이지 않아 시각화에서 '브러시 현상'이 발생하는 것을 쉽게 찾을 수 있습니다. 신작으로 제작된 영상에서는 모든 픽셀이 자연스러운 움직임을 보여준다.
그러나 연구원들은 StyleGAN3의 백본을 참조하면 이미지 생성 품질이 저하된다는 사실을 발견했습니다. 이 문제를 완화하기 위해 이미지 수준 사전 학습을 도입했습니다. 사전 훈련 단계에서 네트워크는 비디오에서 특정 프레임의 생성 품질만 고려하면 되며 시간 범위 모델링을 학습할 필요가 없으므로 이미지 분포에 대한 지식을 더 쉽게 배울 수 있습니다.
2. 중간 길이(~5초) 타이밍 관계
생성된 영상의 프레임 수가 많을수록 더욱 구체적인 동작을 보여줄 수 있습니다. 따라서 생성된 비디오에 사실적인 움직임이 있는지 확인하는 것이 중요합니다. 예를 들어, 1인칭 운전 영상을 생성하려면 점차적으로 멀어지는 지상과 거리 장면을 생성해야 하며, 다가오는 자동차도 자연스러운 주행 궤적을 따라야 합니다.
적대적 훈련에서는 생성 네트워크가 충분한 훈련 감독을 받도록 보장하기 위해 차별적 네트워크가 중요합니다. 따라서 비디오 생성에서 생성 네트워크가 현실적인 동작을 생성할 수 있도록 하기 위해 판별 네트워크는 여러 프레임의 시간적 관계를 모델링하고 생성된 비현실적인 모션을 캡처해야 합니다. 그러나 이전 작업에서 판별 네트워크는 시간 모델링을 수행하기 위해 간단한 연결 작업만 사용했습니다. y = cat(y_i). 여기서 y_i는 단일 프레임 특징을 나타내고 y는 시간 영역 융합 후 특징을 나타냅니다.
판별 네트워크에 대해 새로운 연구에서는 판별 네트워크의 각 계층에 TSM(Temporal Shift Module)을 도입하는 명시적 타이밍 모델링을 제안합니다. TSM은 행동 인식 분야에서 왔으며 간단한 교대 작업을 통해 시간적 정보 교환을 실현합니다.
실험에 따르면 TSM 도입 후 세 가지 데이터 세트의 FVD16 및 FVD128이 크게 감소했습니다.
3. 무제한 비디오 생성
이전에 도입된 개선 사항은 주로 짧고 중간 길이의 비디오 생성에 중점을 두고 있으며, 새로운 작업에서는 고품질을 생성하는 방법을 추가로 탐색합니다. 동영상 모든 길이의 동영상(무제한 포함). 이전 작업(StyleGAN-V)은 무한히 긴 영상을 생성할 수 있지만 영상에는 매우 명백한 주기적인 지터가 포함되어 있습니다. 차량이 앞으로 이동하고, 횡단보도는 원래 정상적으로 뒤로 이동하다가 갑자기 앞으로 이동하도록 변경되었습니다. 이 연구에서는 모션 기능(모션 임베딩)의 불연속성이 이러한 지터 현상을 유발한다는 것을 발견했습니다.
이전 작업에서는 선형 보간을 사용하여 동작 특징을 계산했습니다. 그러나 선형 보간은 다음 그림과 같이 1차 불연속으로 이어집니다(왼쪽은 보간 다이어그램, 오른쪽은 T-SNE 특징 시각화). :
본 연구에서는 B-spline 제어(B-Spline 기반 모션 임베딩)의 모션 특성을 제안합니다. B-스플라인을 통한 보간은 그림과 같이 시간에 대해 보다 부드러운 동작 특징을 얻을 수 있습니다(왼쪽은 보간 다이어그램, 오른쪽은 T-SNE 특징 시각화).
B-spline 제어의 동작 특성을 도입하여 지터 현상을 완화한 신작:
그림과 같이 StyleGAN-V로 생성한 영상에서 가로등과 땅이 갑자기 이동 방향을 바꿀 것입니다. 신작으로 제작된 영상에서는 움직임의 방향이 일관되고 자연스럽다.
동시에 신작에서는 주기적인 반복 콘텐츠의 발생을 더욱 완화하기 위해 액션 기능에 대한 낮은 순위 제약도 제안합니다.
실험
이 작품은 세 가지 데이터 세트(YouTube Driving, Timelapse, Taichi-HD)를 대상으로 완전히 실험되었으며 이전 작품과 완전히 비교된 결과, 화질(FID)에서 새 작품의 성능이 더 나은 것으로 나타났습니다. 비디오 품질(FVD)이 완전히 향상되었습니다.
SkyTimelapse 실험 결과:
Taichi-HD 실험 결과:
YouTube 운전 실험 결과:
요약
신작은 GAN 모델을 기반으로 한 새로운 비디오 세대 벤치마크를 제안하며 다양한 규모의 타이밍 관계에서 시작하여 참신하고 효과적인 개선을 제안합니다. 여러 데이터세트에 대한 실험을 통해 새 작업이 이전 작업을 크게 뛰어넘는 비디오 품질을 성공적으로 달성한 것으로 나타났습니다.
위 내용은 GAN을 기반으로 부드러운 비디오가 생성되며 그 효과는 매우 인상적입니다. 텍스처 접착 없음, 지터 감소의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Tomato Novel은 매우 인기 있는 소설 읽기 소프트웨어입니다. 우리는 종종 Tomato Novel에서 읽을 새로운 소설과 만화를 가지고 있습니다. 많은 친구들도 용돈을 벌고 소설의 내용을 편집하고 싶어합니다. 글로 쓰고 싶은데, 그 안에 소설을 어떻게 쓰는지 친구들도 모르니까, 소설 쓰는 방법에 대한 소개를 함께 살펴보는 시간을 가져보겠습니다. 토마토 소설을 사용하여 소설을 쓰는 방법에 대한 튜토리얼을 공유하세요. 1. 먼저 휴대폰에서 토마토 무료 소설 앱을 열고 개인 센터 - 작가 센터를 클릭하세요. 2. 토마토 작가 도우미 페이지로 이동하여 새로 만들기를 클릭하세요. 소설의 끝 부분에 예약하십시오.

단편 동영상 플랫폼의 등장으로 Douyin은 모든 사람의 일상생활에 없어서는 안 될 부분이 되었습니다. TikTok에서는 전 세계의 흥미로운 동영상을 볼 수 있습니다. 어떤 사람들은 다른 사람의 동영상을 게시하는 것을 좋아하는데, 이는 다음과 같은 질문을 제기합니다. Douyin이 다른 사람의 동영상을 게시하면 저작권을 침해합니까? 이 글에서는 이 문제에 대해 논의하고 침해 없이 동영상을 편집하는 방법과 침해 문제를 방지하는 방법을 알려드립니다. 1. Douyin이 타인의 영상을 게시하는 것에 대한 침해인가요? 우리나라 저작권법 조항에 따르면, 저작권 소유자의 허락 없이 저작권 소유자의 저작물을 무단으로 사용하는 것은 침해입니다. 따라서 원저작자나 저작권 소유자의 허락 없이 Douyin에 다른 사람의 동영상을 게시하는 것은 침해입니다. 2. 침해 없이 동영상을 편집하는 방법은 무엇입니까? 1. 공개 도메인 또는 라이센스 콘텐츠의 사용: 공개

불행하게도 사람들은 어떤 이유로든 실수로 특정 연락처를 삭제하는 경우가 많습니다. WeChat은 널리 사용되는 소셜 소프트웨어입니다. 사용자가 이 문제를 해결할 수 있도록 이 문서에서는 삭제된 연락처를 간단한 방법으로 검색하는 방법을 소개합니다. 1. WeChat 연락처 삭제 메커니즘을 이해하면 삭제된 연락처를 검색할 수 있습니다. WeChat의 연락처 삭제 메커니즘은 연락처를 주소록에서 제거하지만 완전히 삭제하지는 않습니다. 2. WeChat에 내장된 "연락처 복구" 기능을 사용하세요. WeChat은 "연락처 복구"를 제공하여 시간과 에너지를 절약합니다. 사용자는 이 기능을 통해 이전에 삭제한 연락처를 빠르게 검색할 수 있습니다. 3. WeChat 설정 페이지에 들어가서 오른쪽 하단을 클릭하고 WeChat 애플리케이션 "나"를 열고 오른쪽 상단에 있는 설정 아이콘을 클릭하여 설정 페이지로 들어갑니다.

국민 단편 영상 플랫폼인 Douyin은 우리가 여가 시간에 재미있고 참신한 다양한 단편 영상을 즐길 수 있게 해줄 뿐만 아니라, 우리 자신을 보여주고 우리의 가치를 실현할 수 있는 무대를 제공합니다. 그렇다면 Douyin에 동영상을 게시하여 돈을 버는 방법은 무엇입니까? 이 글은 이 질문에 대해 자세히 답변하고 TikTok에서 더 많은 수익을 창출하는 데 도움이 될 것입니다. 1. Douyin에 동영상을 게시하여 수익을 창출하는 방법은 무엇입니까? 동영상을 게시하고 Douyin에서 일정 조회수를 얻은 후 광고 공유 계획에 참여할 수 있는 기회를 얻게 됩니다. 이 수입 방식은 Douyin 사용자들에게 가장 친숙한 방법 중 하나이며, 많은 창작자들의 주요 수입원이기도 합니다. Douyin은 계정 가중치, 영상 콘텐츠, 시청자 피드백 등 다양한 요소를 바탕으로 광고 공유 기회 제공 여부를 결정합니다. TikTok 플랫폼을 통해 시청자는 선물을 보내 좋아하는 크리에이터를 지원할 수 있습니다.

현대 사회에서 휴대폰은 우리 삶에 없어서는 안 될 필수품이 되었습니다. 일상적인 의사소통, 업무, 생활을 위한 중요한 도구로 WeChat이 자주 사용됩니다. 그러나 서로 다른 거래를 처리할 때 두 개의 WeChat 계정을 분리해야 할 수도 있습니다. 이를 위해서는 휴대폰이 동시에 두 개의 WeChat 계정에 로그인하는 기능을 지원해야 합니다. 국내 유명 브랜드인 화웨이 휴대폰은 많은 사람들이 사용하고 있습니다. 그렇다면 화웨이 휴대폰에서 위챗 계정을 2개 개설하는 방법은 무엇일까요? 이 방법의 비밀을 공개해보겠습니다. 우선, Huawei 휴대폰에서 두 개의 WeChat 계정을 동시에 사용해야 합니다.

1. 먼저 휴대폰에서 웨이보를 열고 오른쪽 하단의 [나]를 클릭하세요(그림 참조). 2. 그런 다음 오른쪽 상단에 있는 [기어]를 클릭하여 설정을 엽니다(그림 참조). 3. 그런 다음 [일반 설정]을 찾아 엽니다(그림 참조). 4. 그런 다음 [동영상 팔로우] 옵션을 입력하세요(그림 참조). 5. 그런 다음 [동영상 업로드 해상도] 설정을 엽니다(그림 참조). 6. 마지막으로 [원본 화질]을 선택하여 압축을 방지합니다(그림 참조).

단편 동영상 플랫폼의 등장으로 Xiaohongshu는 많은 사람들이 자신의 삶을 공유하고 자신을 표현하며 트래픽을 얻는 플랫폼이 되었습니다. 이 플랫폼에서는 비디오 작품을 출판하는 것이 매우 인기 있는 상호 작용 방식입니다. 그렇다면 Xiaohongshu 비디오 작품을 출판하는 방법은 무엇입니까? 1. 샤오홍슈 영상 작품은 어떻게 출판하나요? 먼저, 공유할 비디오 콘텐츠가 준비되어 있는지 확인하세요. 휴대폰이나 기타 카메라 장비를 사용해 촬영할 수 있지만 화질과 사운드 선명도에 주의해야 합니다. 2. 영상 편집 : 작품을 더욱 돋보이게 하기 위해 영상을 편집할 수 있습니다. Douyin, Kuaishou 등과 같은 전문 비디오 편집 소프트웨어를 사용하여 필터, 음악, 자막 및 기타 요소를 추가할 수 있습니다. 3. 표지를 선택하세요. 표지는 사용자의 클릭을 유도하는 핵심 요소입니다. 사용자의 클릭을 유도할 수 있는 명확하고 흥미로운 그림을 표지로 선택하세요.

모바일 게임은 기술의 발전과 함께 사람들의 삶에 없어서는 안될 부분이 되었습니다. 귀여운 드래곤 알 이미지와 흥미로운 부화 과정으로 많은 플레이어들의 관심을 끌었으며, 특히 주목을 받은 게임 중 하나가 드래곤 알 모바일 버전이다. 플레이어가 게임에서 자신만의 드래곤을 더 잘 육성하고 성장시킬 수 있도록 이 글에서는 모바일 버전에서 드래곤 알을 부화시키는 방법을 소개합니다. 1. 적절한 유형의 드래곤 알을 선택하십시오. 플레이어는 게임에서 제공되는 다양한 유형의 드래곤 알 속성과 능력을 기반으로 자신이 좋아하고 적합한 드래곤 알 유형을 신중하게 선택해야 합니다. 2. 부화기의 레벨을 업그레이드하세요. 플레이어는 작업을 완료하고 소품을 수집하여 부화기의 레벨을 향상시켜야 합니다. 부화기의 레벨에 따라 부화 속도와 부화 성공률이 결정됩니다. 3. 플레이어가 게임에 참여하는데 필요한 자원을 수집하세요.
