SD 커뮤니티의 I2V 어댑터: 구성이 필요하지 않으며 플러그 앤 플레이, Tusheng 비디오 플러그인과 완벽하게 호환됩니다.
이미지-비디오 생성(I2V) 작업은 정적 이미지를 동적 비디오로 변환하는 것을 목표로 하는 컴퓨터 비전 분야의 과제입니다. 이 작업의 어려움은 이미지 콘텐츠의 신뢰성과 시각적 일관성을 유지하면서 단일 이미지에서 시간 차원의 동적 정보를 추출하고 생성하는 것입니다. 기존 I2V 방법에는 이 목표를 달성하기 위해 복잡한 모델 아키텍처와 많은 양의 교육 데이터가 필요한 경우가 많습니다.
최근 Kuaishou가 주도한 새로운 연구 결과 "I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models"가 발표되었습니다. 본 연구에서는 혁신적인 이미지-비디오 변환 방법을 소개하고 경량 어댑터 모듈인 I2V-Adapter를 제안합니다. 이 어댑터 모듈은 기존 T2V(텍스트-비디오 생성) 모델의 원래 구조와 사전 훈련된 매개변수를 변경하지 않고도 정적 이미지를 동적 비디오로 변환할 수 있습니다. 이 방법은 이미지를 비디오로 변환하는 분야에서 광범위한 응용 가능성을 갖고 있으며 비디오 제작, 미디어 커뮤니케이션 및 기타 분야에 더 많은 가능성을 가져올 수 있습니다. 연구 결과의 공개는 영상 및 영상 기술의 발전을 촉진하는 데 큰 의미가 있으며 관련 분야의 연구자에게 효과적인 도구와 방법을 제공합니다.
- 논문 주소: https://arxiv.org/pdf/2312.16693.pdf
- 프로젝트 홈페이지: https://i2v-adapter.github.io/index .html
- 코드 주소: https://github.com/I2V-Adapter/I2V-Adapter-repo
기존 방법에 비해 I2V-Adapter는 훈련 가능한 매개 변수가 더 많아졌습니다. 매개변수 수는 22M까지 낮아질 수 있으며 이는 주류 솔루션인 Stable Video Diffusion의 1%에 불과합니다. 동시에 어댑터는 Stable Diffusion 커뮤니티에서 개발한 맞춤형 T2I 모델(예: DreamBooth, Lora) 및 제어 도구(예: ControlNet)와도 호환됩니다. 실험을 통해 연구원들은 고품질 비디오 콘텐츠를 생성하는 데 있어 I2V-Adapter의 효율성을 입증하여 I2V 분야에서 창의적인 응용 프로그램의 새로운 가능성을 열었습니다.
방법 소개
Stable Diffusion을 사용한 시간적 모델링
이미지 생성과 비교하여 비디오 생성은 독특한 과제에 직면해 있습니다. 즉, 비디오 프레임 섹스 간의 시간적 일관성을 모델링하는 것입니다. 대부분의 최신 방법은 비디오의 타이밍 정보를 모델링하기 위해 타이밍 모듈을 도입하여 Stable Diffusion 및 SDXL과 같은 사전 훈련된 T2I 모델을 기반으로 합니다. 원래 맞춤형 T2V 작업을 위해 설계된 모델인 AnimateDiff에서 영감을 받아 T2I 모델에서 분리된 타이밍 모듈을 도입하여 타이밍 정보를 모델링하고 원래 T2I 모델의 기능을 유지하여 부드러운 비디오를 생성합니다. 따라서 연구자들은 사전 훈련된 시간 모듈이 보편적인 시간 표현으로 간주될 수 있으며 미세 조정 없이 I2V 생성과 같은 다른 비디오 생성 시나리오에 적용될 수 있다고 믿습니다. 따라서 연구원들은 사전 훈련된 AnimateDiff 타이밍 모듈을 직접 사용하고 해당 매개변수를 고정된 상태로 유지했습니다.
주의 레이어용 어댑터
I2V 작업의 또 다른 과제는 입력 이미지의 ID 정보를 유지하는 것입니다. 현재 두 가지 주요 솔루션이 있습니다. 하나는 사전 훈련된 이미지 인코더를 사용하여 입력 이미지를 인코딩하고 교차 주의 메커니즘을 통해 인코딩된 특징을 모델에 주입하여 노이즈 제거 프로세스를 안내하는 것입니다. 채널 차원에서 잡음이 있는 입력과 연결된 다음 후속 네트워크에 함께 공급됩니다. 그러나 전자의 방법은 이미지 인코더가 기본 정보를 캡처하기 어렵기 때문에 생성된 비디오 ID가 변경될 수 있는 반면, 후자의 방법은 T2I 모델의 구조와 매개변수를 변경해야 하는 경우가 많아 학습 비용이 높고 품질이 좋지 않습니다. 호환성.
위의 문제를 해결하기 위해 연구진은 I2V-Adapter를 제안했습니다. 구체적으로, 연구자는 입력 이미지와 노이즈가 있는 입력을 네트워크에 병렬로 입력합니다. 모델의 공간 블록에서 모든 프레임은 추가로 첫 번째 프레임 정보를 쿼리합니다. 즉, 키와 값 특징은 노이즈 없이 첫 번째 프레임에서 나옵니다. , 그리고 출력 결과는 원래 모델의 self attention에 추가됩니다. 이 모듈의 출력 매핑 행렬은 0으로 초기화되며 출력 매핑 행렬과 쿼리 매핑 행렬만 학습됩니다. 입력 이미지의 의미 정보에 대한 모델의 이해를 더욱 높이기 위해 연구자들은 이미지의 의미 특징을 주입하기 위해 사전 훈련된 콘텐츠 어댑터(이 기사에서는 IP-Adapter [8]를 사용함)를 도입했습니다.
프레임 유사성 우선
생성된 결과의 안정성을 더욱 향상시키기 위해 연구원들은 생성된 비디오의 안정성과 모션 강도 사이의 균형을 맞추기 전에 프레임 간 유사성을 제안했습니다. 핵심 가정은 상대적으로 낮은 가우스 잡음 수준에서 아래 그림과 같이 잡음이 있는 첫 번째 프레임과 잡음이 있는 후속 프레임이 충분히 가깝다는 것입니다.
그래서 연구원들은 모든 프레임 구조가 비슷하다고 가정했습니다. , 일정량의 가우스 노이즈를 추가한 후에는 구별할 수 없게 되므로 노이즈가 있는 입력 이미지는 후속 프레임에 대한 선험적 입력으로 사용될 수 있습니다. 고주파 정보의 오해를 제거하기 위해 연구진은 가우시안 블러 연산자와 무작위 마스크 혼합도 사용했습니다. 구체적으로 연산은 다음 공식으로 주어진다:
Experimental results
Quantitative results
이 기사에서는 DoverVQA(미적 점수), CLIPTemp(첫 번째 프레임)라는 4가지 정량적 지표를 계산합니다. 일관성), FlowScore(모션 진폭) 및 WarppingError(모션 오류)는 생성된 비디오의 품질을 평가하는 데 사용됩니다. 표 1은 I2V-Adapter가 가장 높은 미적 점수를 받았으며 첫 번째 프레임 일관성 측면에서 모든 비교 방식을 능가함을 보여줍니다. 또한 I2V-Adapter에서 생성된 영상은 모션 진폭이 가장 크고 모션 오류가 상대적으로 낮아 시간적 모션의 정확성을 유지하면서 보다 역동적인 영상을 생성할 수 있음을 나타냅니다.
정성적 결과
이미지 애니메이션(왼쪽은 입력, 오른쪽은 출력):
w/ 맞춤형 T2I( 왼쪽은 입력, 오른쪽은 출력):
w/ ControlNet(왼쪽은 입력, 오른쪽은 출력):
요약
본 논문에서는 이미지-비디오 생성 작업을 위한 플러그 앤 플레이 경량 모듈인 I2V-Adapter를 제안합니다. 이 방법은 원래 T2V 모델의 공간 블록 및 모션 블록 구조와 매개변수를 고정된 상태로 유지하고, 노이즈가 없는 첫 번째 프레임과 노이즈가 있는 후속 프레임을 병렬로 입력하고, 어텐션 메커니즘을 통해 모든 프레임이 노이즈 없이 첫 번째 프레임과 상호 작용할 수 있도록 합니다. , 따라서 시간적으로 일관되고 첫 번째 프레임과 일치하는 비디오를 생성합니다. 연구원들은 정량적 및 정성적 실험을 통해 I2V 작업에 대한 이 방법의 효과를 입증했습니다. 또한, 분리된 설계를 통해 솔루션을 DreamBooth, Lora 및 ControlNet과 같은 모듈과 직접 결합할 수 있어 솔루션의 호환성을 입증하고 맞춤형 및 제어 가능한 이미지-비디오 생성에 대한 연구를 촉진합니다.
위 내용은 SD 커뮤니티의 I2V 어댑터: 구성이 필요하지 않으며 플러그 앤 플레이, Tusheng 비디오 플러그인과 완벽하게 호환됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











브라우저는 어떤 폴더에 동영상을 캐시하나요? 우리는 매일 인터넷 브라우저를 사용하다 보면 유튜브에서 뮤직비디오를 보거나 넷플릭스에서 영화를 보는 등 다양한 온라인 동영상을 자주 보게 됩니다. 이러한 비디오는 나중에 다시 재생할 때 빠르게 로드할 수 있도록 로드 프로세스 중에 브라우저에 의해 캐시됩니다. 그렇다면 문제는 캐시된 동영상이 실제로 어느 폴더에 저장되어 있느냐는 것입니다. 브라우저마다 캐시된 비디오 폴더를 다른 위치에 저장합니다. 아래에서는 몇 가지 일반적인 브라우저와 해당 브라우저를 소개합니다.

단편 동영상 플랫폼의 등장으로 Douyin은 모든 사람의 일상생활에 없어서는 안 될 부분이 되었습니다. TikTok에서는 전 세계의 흥미로운 동영상을 볼 수 있습니다. 어떤 사람들은 다른 사람의 동영상을 게시하는 것을 좋아하는데, 이는 다음과 같은 질문을 제기합니다. Douyin이 다른 사람의 동영상을 게시하면 저작권을 침해합니까? 이 글에서는 이 문제에 대해 논의하고 침해 없이 동영상을 편집하는 방법과 침해 문제를 방지하는 방법을 알려드립니다. 1. Douyin이 타인의 영상을 게시하는 것에 대한 침해인가요? 우리나라 저작권법 조항에 따르면, 저작권 소유자의 허락 없이 저작권 소유자의 저작물을 무단으로 사용하는 것은 침해입니다. 따라서 원저작자나 저작권 소유자의 허락 없이 Douyin에 다른 사람의 동영상을 게시하는 것은 침해입니다. 2. 침해 없이 동영상을 편집하는 방법은 무엇입니까? 1. 공개 도메인 또는 라이센스 콘텐츠의 사용: 공개

윙크 동영상 워터마크 제거 방법 winkAPP에 동영상 워터마크 제거 도구가 있는데 대부분의 친구들이 윙크 동영상 워터마크 제거 방법을 모릅니다. 편집자가 가져온 텍스트 튜토리얼입니다. 관심 있는 사용자가 와서 살펴보세요! 윙크에서 비디오 워터마크를 제거하는 방법 1. 먼저 윙크 앱을 열고 홈페이지 영역에서 [워터마크 제거] 기능을 선택합니다. 2. 그런 다음 앨범에서 워터마크를 제거하려는 비디오를 선택합니다. 3. 그런 다음 비디오를 선택하고 클릭합니다. 영상 편집 후 오른쪽 상단 [√] 4. 마지막으로 아래 그림과 같이 [원클릭 인쇄]를 클릭한 후 [처리]를 클릭하세요.

국민 단편 영상 플랫폼인 Douyin은 우리가 여가 시간에 재미있고 참신한 다양한 단편 영상을 즐길 수 있게 해줄 뿐만 아니라, 우리 자신을 보여주고 우리의 가치를 실현할 수 있는 무대를 제공합니다. 그렇다면 Douyin에 동영상을 게시하여 돈을 버는 방법은 무엇입니까? 이 글은 이 질문에 대해 자세히 답변하고 TikTok에서 더 많은 수익을 창출하는 데 도움이 될 것입니다. 1. Douyin에 동영상을 게시하여 수익을 창출하는 방법은 무엇입니까? 동영상을 게시하고 Douyin에서 일정 조회수를 얻은 후 광고 공유 계획에 참여할 수 있는 기회를 얻게 됩니다. 이 수입 방식은 Douyin 사용자들에게 가장 친숙한 방법 중 하나이며, 많은 창작자들의 주요 수입원이기도 합니다. Douyin은 계정 가중치, 영상 콘텐츠, 시청자 피드백 등 다양한 요소를 바탕으로 광고 공유 기회 제공 여부를 결정합니다. TikTok 플랫폼을 통해 시청자는 선물을 보내 좋아하는 크리에이터를 지원할 수 있습니다.

iOS 장치에서 카메라 앱을 사용하면 슬로우 모션 비디오를 촬영할 수 있으며, 최신 iPhone을 사용하는 경우 초당 240프레임까지 촬영할 수 있습니다. 이 기능을 사용하면 고속 동작을 풍부하고 자세하게 캡처할 수 있습니다. 그러나 때로는 비디오의 세부 사항과 동작을 더 잘 감상할 수 있도록 슬로우 모션 비디오를 정상 속도로 재생하고 싶을 수도 있습니다. 이 기사에서는 iPhone의 기존 비디오에서 슬로우 모션을 제거하는 모든 방법을 설명합니다. iPhone의 비디오에서 슬로우 모션을 제거하는 방법 [2가지 방법] 사진 앱 또는 iMovie 앱을 사용하여 장치의 비디오에서 슬로우 모션을 제거할 수 있습니다. 방법 1: iPhone에서 사진 앱을 사용하여 열기

단편 동영상 플랫폼의 등장으로 Xiaohongshu는 많은 사람들이 자신의 삶을 공유하고 자신을 표현하며 트래픽을 얻는 플랫폼이 되었습니다. 이 플랫폼에서는 비디오 작품을 출판하는 것이 매우 인기 있는 상호 작용 방식입니다. 그렇다면 Xiaohongshu 비디오 작품을 출판하는 방법은 무엇입니까? 1. 샤오홍슈 영상 작품은 어떻게 출판하나요? 먼저, 공유할 비디오 콘텐츠가 준비되어 있는지 확인하세요. 휴대폰이나 기타 카메라 장비를 사용해 촬영할 수 있지만 화질과 사운드 선명도에 주의해야 합니다. 2. 영상 편집 : 작품을 더욱 돋보이게 하기 위해 영상을 편집할 수 있습니다. Douyin, Kuaishou 등과 같은 전문 비디오 편집 소프트웨어를 사용하여 필터, 음악, 자막 및 기타 요소를 추가할 수 있습니다. 3. 표지를 선택하세요. 표지는 사용자의 클릭을 유도하는 핵심 요소입니다. 사용자의 클릭을 유도할 수 있는 명확하고 흥미로운 그림을 표지로 선택하세요.

UC 브라우저로 다운로드한 비디오를 로컬 비디오로 변환하는 방법은 무엇입니까? 많은 휴대폰 사용자는 웹 검색뿐만 아니라 온라인으로 다양한 비디오 및 TV 프로그램을 시청하고 좋아하는 비디오를 휴대폰에 다운로드할 수 있는 기능을 즐겨 사용합니다. 실제로 다운로드한 비디오를 로컬 비디오로 변환할 수 있지만 많은 사람들이 이를 수행하는 방법을 모릅니다. 따라서 편집자는 UC 브라우저에 캐시된 비디오를 로컬 비디오로 변환하는 방법을 특별히 제공합니다. uc 브라우저에 캐시된 비디오를 로컬 비디오로 변환하는 방법 1. uc 브라우저를 열고 "메뉴" 옵션을 클릭합니다. 2. "다운로드/동영상"을 클릭하세요. 3. "캐시된 비디오"를 클릭하세요. 4. 비디오를 길게 누르고 옵션이 나타나면 "디렉터리 열기"를 클릭합니다. 5. 다운로드하고 싶은 항목을 확인하세요.

1. 먼저 휴대폰에서 웨이보를 열고 오른쪽 하단의 [나]를 클릭하세요(그림 참조). 2. 그런 다음 오른쪽 상단에 있는 [기어]를 클릭하여 설정을 엽니다(그림 참조). 3. 그런 다음 [일반 설정]을 찾아 엽니다(그림 참조). 4. 그런 다음 [동영상 팔로우] 옵션을 입력하세요(그림 참조). 5. 그런 다음 [동영상 업로드 해상도] 설정을 엽니다(그림 참조). 6. 마지막으로 [원본 화질]을 선택하여 압축을 방지합니다(그림 참조).
