이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.-일체 포함-php.cn

Imagen 비디오: 텍스트 프롬프트가 제공되면 HD 비디오 생성

Phenaki: 스토리를 말하면 내가 그려줄게

집

기술 주변기기

일체 포함

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 06:40 PM

Google 모델

반년 넘게 텍스트를 이미지로 변환한 후 Meta 및 Google과 같은 거대 기술 기업은 텍스트를 비디오로라는 새로운 전장에 시선을 돌렸습니다.

지난 주 Meta는 고품질의 짧은 동영상을 생성할 수 있는 도구인 Make-A-Video를 발표했습니다. 이 도구를 사용하여 생성된 동영상은 매우 상상력이 풍부합니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

물론 Google도 뒤처지지 않습니다. 방금 이 회사의 CEO인 Sundar Pichai는 Imagen Video와 Phenaki라는 두 가지 텍스트-비디오 도구인 이 분야의 최신 성과를 직접 발표했습니다. 전자는 영상 품질에 초점을 맞춘 반면, 후자는 주로 영상 길이에 중점을 두었습니다. 각각의 장점이 있다고 할 수 있습니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

아래 설거지를 하는 테디베어는 Imagen Video를 사용하여 생성되었습니다. 보시다시피 사진의 해상도와 일관성이 어느 정도 보장됩니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

Imagen 비디오: 텍스트 프롬프트가 제공되면 HD 비디오 생성

생성 모델링은 DALL-E 2, Imagen, Parti, CogView 및 Latent Diffusion과 같은 최근 텍스트-이미지 AI 시스템에서 상당한 발전을 이루었습니다. . 특히 확산 모델은 밀도 추정, 텍스트-음성, 이미지-이미지, 텍스트-이미지 및 3D 합성과 같은 다양한 생성 모델링 작업에서 큰 성공을 거두었습니다.

Google이 원하는 것은 텍스트에서 비디오를 생성하는 것입니다. 이전 비디오 생성 작업은 자기회귀 모델, 자기회귀 사전확률을 사용한 잠재변수 모델, 그리고 최근에는 비자기회귀 잠재변수 방법을 사용하는 제한된 데이터세트에 중점을 두었습니다. 확산 모델은 또한 뛰어난 중해상도 비디오 생성 기능을 보여주었습니다.

이를 바탕으로 Google은 계단식 비디오 확산 모델을 기반으로 한 텍스트 조건부 비디오 생성 시스템인 Imagen Video를 출시했습니다. 텍스트 프롬프트가 주어지면 Imagen Video는 고정된 T5 텍스트 인코더, 기본 비디오 생성 모델, 계단식 시공간 비디오 초해상도 모델로 구성된 시스템을 통해 고화질 비디오를 생성할 수 있습니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

논문 주소: https://imagen.research.google/video/paper.pdf

논문에서 구글은 시스템을 고화질 텍스트로 확장하는 방법을 자세히 설명합니다. 특정 해상도에서 완전히 컨벌루션된 시공간 초해상도 모델을 선택하고 확산 모델의 v-매개변수화를 선택하는 등의 설계 결정을 포함한 비디오 모델. Google은 또한 이전의 확산 기반 이미지 생성 연구 결과를 비디오 생성 설정으로 성공적으로 마이그레이션했습니다.

Google은 Imagen Video가 이전 작업에서 생성된 24fps 64프레임 128×128 비디오를 128프레임 1280×768 HD 비디오로 업스케일할 수 있다는 것을 발견했습니다. 또한 Imagen Video는 높은 수준의 제어 가능성과 세계 지식을 갖추고 있으며 다양한 예술적 스타일의 비디오 및 텍스트 애니메이션을 생성할 수 있으며 3D 객체 이해 기능을 갖추고 있습니다.

자동차를 운전하는 팬더 등 Imagen Video에서 생성된 추가 동영상을 감상해 보세요.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

우주를 여행하는 나무 보트:

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

더 많은 동영상을 보려면 다음을 참조하세요. : https:/ /imagen.research.google/video/

방법 및 실험

전체적으로 Google의 비디오 생성 프레임워크는 텍스트 조건부 비디오 생성, 공간 초해상도 및 시간 초해상도를 각각 수행하는 7개의 하위 비디오 확산 모델의 계단식입니다. 전체 캐스케이드를 사용하여 Imagen Video는 초당 24프레임으로 1280×768 HD 비디오(약 1억 2,600만 픽셀) 프레임 128개를 생성할 수 있습니다.

한편 Imagen Video는 점진적 증류의 도움으로 각 하위 모델에서 단 8개의 확산 단계를 사용하여 고품질 비디오를 생성합니다. 이를 통해 비디오 생성 시간이 약 18배 빨라집니다.

아래 그림 6은 고정된 텍스트 인코더 1개, 기본 비디오 확산 모델 1개, SSR(공간 초해상도) 3개, TSR(시간적 초해상도) 모델 3개를 포함한 Imagen Video의 전체 계단식 파이프라인을 보여줍니다. 7개의 비디오 확산 모델에는 총 116억 개의 매개변수가 있습니다.

생성 과정에서 SSR 모델은 모든 입력 프레임의 공간 해상도를 향상시키는 반면, TSR 모델은 입력 프레임 사이의 중간 프레임을 채워 시간 해상도를 향상시킵니다. 모든 모델은 전체 프레임 블록을 동시에 생성하므로 SSR 모델에 눈에 띄는 아티팩트가 발생하지 않습니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

Imagen Video는 아래 그림 7과 같이 비디오 U-Net 아키텍처를 기반으로 구축되었습니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

실험에서 Imagen Video는 공개적으로 사용 가능한 LAION-400M 이미지-텍스트 데이터세트, 1,400만 개의 비디오-텍스트 쌍 및 6,000만 개의 이미지-텍스트 쌍에 대해 훈련되었습니다. 결과적으로 위에서 언급한 것처럼 Imagen Video는 고화질 비디오를 생성할 수 있을 뿐만 아니라 순수하게 데이터로만 학습하는 비정형 생성 모델에는 없는 몇 가지 고유한 기능도 갖추고 있습니다.

아래 그림 8은 반 고흐의 그림 스타일이나 수채화 스타일 비디오와 같이 이미지 정보에서 학습된 예술적 스타일로 비디오를 생성하는 Imagen Video의 기능을 보여줍니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

아래 그림 9는 물체의 일반적인 구조를 유지하면서 회전하는 물체의 비디오를 생성할 수 있는 Imagen Video의 3D 구조를 보여줍니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

아래 그림 10은 Imagen Video가 다양한 애니메이션 스타일의 텍스트를 안정적으로 생성할 수 있는 방법을 보여줍니다. 그 중 일부는 기존 도구를 사용하여 생성하기 어렵습니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

더 자세한 실험 내용은 원본 논문을 참고해주세요.

Phenaki: 스토리를 말하면 내가 그려줄게

동영상은 본질적으로 일련의 이미지이지만 일관성 있는 긴 동영상을 생성하는 것이 그리 쉽지 않다는 것을 알고 있습니다. 데이터가 부족하고 작업 자체가 계산적으로 까다롭습니다.

더 문제가 되는 것은 이전처럼 이미지 생성에 사용되는 짧은 텍스트 프롬프트로는 일반적으로 동영상에 대한 완전한 설명을 제공하기에 충분하지 않다는 것입니다. 비디오에 필요한 것은 일련의 프롬프트나 스토리입니다. 이상적으로 비디오 생성 모델은 임의의 길이의 비디오를 생성할 수 있어야 하며 생성된 비디오 프레임을 특정 시간 t의 즉각적인 변화에 따라 조정할 수 있어야 합니다. 이 능력이 있어야만 모델이 생성한 작품을 "움직이는 이미지"가 아닌 "비디오"라고 부를 수 있으며, 예술, 디자인 및 콘텐츠 제작 분야에서 실제 창의적 응용의 길을 열 수 있습니다.

Google 및 기타 기관의 연구자들은 "우리가 아는 한 스토리 기반 조건부 비디오 생성은 이전에 탐구된 적이 없으며 이 목표를 향해 나아가는 최초의 초기 논문입니다."라고 말했습니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

페이퍼 링크: https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
프로젝트 링크: https://phenaki.github.io/#interactive

학습할 스토리 기반 데이터 세트가 없기 때문에 연구자는 이러한 작업을 완료하기 위해 기존의 딥 러닝 방법(단순히 데이터에서 학습)에만 의존할 방법이 없습니다. 그래서 그들은 이 작업을 수행하기 위해 특별히 모델을 설계했습니다.

이 새로운 텍스트-비디오 모델은 "텍스트-비디오" 및 "텍스트-이미지" 데이터를 사용하여 공동 학습하는 Phenaki라고 합니다. 모델에는 다음과 같은 기능이 있습니다.

1. 프롬프트가 새로운 개념의 조합이더라도 오픈 도메인 프롬프트 조건에서 시간적으로 일관성 있는 다양한 비디오를 생성합니다(아래 그림 3 참조). 모델 훈련에 사용된 비디오가 1.4초(8프레임/초)에 불과하더라도 생성된 비디오의 길이는 몇 분일 수 있습니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

2. 스토리를 기반으로 비디오를 생성합니다(예: 일련의 프롬프트). ), 그림 1 및 아래 그림 5에 표시됨:

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

다음 애니메이션에서 Phenaki 생성 비디오의 일관성과 다양성을 볼 수 있습니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

이러한 기능을 구현하려면 연구하세요. 기존 비디오 인코더는 고정된 크기의 비디오만 디코딩하거나 프레임을 독립적으로 인코딩할 수 있기 때문에 이에 의존할 수 없습니다. 이 문제를 해결하기 위해 그들은 새로운 인코더-디코더 아키텍처인 C-ViViT를 도입했습니다.

C-ViViT는 다음을 수행할 수 있습니다.

비디오의 시간적 중복성을 활용하여 각 프레임 모델의 재구성 품질을 향상시키는 동시에 비디오 토큰 수를 40% 이상 압축합니다.
인코딩을 허용합니다. 주어진 인과 구조에 따라 가변 길이 비디오를 디코딩하는 것입니다.

PHENAKI 모델 아키텍처

자동 회귀 텍스트-이미지 및 텍스트-비디오에 대한 이전 연구에서 영감을 받은 Phenaki의 디자인은 주로 두 부분으로 구성됩니다(아래 그림 2 참조). Discrete 임베딩(즉, 토큰)을 위한 인코더-디코더 모델과 텍스트 임베딩을 비디오 토큰으로 변환하는 변환기 모델입니다.

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

비디오의 압축된 표현을 얻는 것은 텍스트에서 비디오를 생성하는 데 있어 주요 과제 중 하나입니다. 이전 작업에서는 VQ-GAN과 같은 프레임별 이미지 인코더나 VideoVQVAE와 같은 고정 길이 비디오 인코더를 사용했습니다. 전자는 임의 길이의 비디오 생성을 허용하지만 실제로 사용 시에는 인코더가 비디오를 시간 내에 압축할 수 없고 토큰이 연속 프레임에서 매우 중복되기 때문에 비디오가 짧아야 합니다. 후자가 토큰 수 측면에서 더 효율적이지만 임의 길이의 비디오 생성을 허용하지 않습니다.

Phenaki에서 연구원의 목표는 비디오 토큰 수를 최대한 압축하면서 가변 길이 비디오를 생성하여 현재 컴퓨팅 리소스 제약 내에서 Transformer 모델을 사용할 수 있도록 하는 것입니다. 이를 위해 그들은 비디오 생성을 위한 추가 아키텍처 변경을 포함하는 ViViT의 원인 변형인 C-ViViT를 도입합니다. 이는 시간적 자동 회귀를 유지하면서 시간적 및 공간적 차원 모두에서 비디오를 압축할 수 있습니다. 이 기능을 사용하면 임의 길이의 자동 회귀 비디오를 생성할 수 있습니다.

텍스트 임베딩을 얻기 위해 Phenaki는 사전 훈련된 언어 모델인 T5X도 사용합니다.

구체적인 내용은 원문을 참고해주세요.

위 내용은 이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7563

Cakephp 튜토리얼

1385

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

DeepSeek에 의견을 말하는 방법 Feb 19, 2025 pm 05:42 PM

DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:39 PM

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Mar 18, 2025 pm 12:15 PM

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 Mar 04, 2025 pm 11:48 PM

로그인 단계 및 암호 복구 프로세스를 포함하여 참깨 오픈 exchange 웹 버전의 로그인 작업에 대한 자세한 소개는 로그인 실패, 페이지를 열 수 없으며 플랫폼에 부드럽게 로그인 할 수없는 일반적인 문제에 대한 솔루션을 제공합니다.

Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Feb 21, 2025 pm 05:42 PM

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

See all articles

이미지 생성에 지친 Google은 해상도와 길이를 동시에 도전하는 두 가지 강력한 도구인 텍스트 → 비디오 생성으로 전환했습니다.

Imagen 비디오: 텍스트 프롬프트가 제공되면 HD 비디오 생성

Phenaki: 스토리를 말하면 내가 그려줄게

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제