목차
배경 교체 + 비디오 생성
배경 교체 + 스타일화 + 비디오 생성
객체 교체 + 배경 교체 + 비디오 생성
VisonGPT
VisionGPT 사용 사례
VisionGPT-3D
기술 주변기기 일체 포함 WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 '부활'

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 '부활'

Mar 22, 2024 am 08:30 AM
시작하기 비디오 생성

OpenAI의 Sora는 올해 2월 놀라운 데뷔를 하여 텍스트 생성 비디오에 새로운 혁신을 가져왔습니다. 헐리우드에서 온 것처럼 보이는 텍스트 입력을 기반으로 놀랍도록 현실적이고 상상력이 풍부한 비디오를 만들 수 있습니다. 많은 사람들은 이러한 혁신에 감탄했고 OpenAI의 성능이 정점에 도달했다고 믿습니다.

소라에 의한 열풍은 수그러들지 않고 있습니다. 동시에 연구자들은 AI 영상 생성 기술의 엄청난 잠재력을 깨닫기 시작했으며 이 분야는 점점 더 주목을 받고 있습니다.

그러나 현재 AI 비디오 생성 분야에서 대부분의 알고리즘 연구는 텍스트 프롬프트를 통한 비디오 생성에 중점을 두고 있으며, 특히 이미지와 텍스트가 결합된 시나리오는 깊이 논의되거나 널리 적용되지 않았습니다. 이러한 편향은 생성된 비디오의 다양성과 제어 가능성을 감소시키고 정적 이미지를 동적 비디오로 변환하는 기능을 제한합니다.

반면, 대부분의 기존 비디오 생성 모델은 생성된 비디오 콘텐츠에 대한 편집 가능성 지원이 부족하며 생성된 비디오에 대한 개인화된 조정에 대한 사용자 요구를 충족할 수 없습니다.

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

팁: 팬더를 곰으로 변신시켜 춤추게 만드세요. (팬더를 곰으로 바꾸고 춤추게 만드세요.)

이 기사에서는 SEEKING AI, 하버드 대학교, 스탠포드 대학교 및 북경 대학교의 연구원들이 공동으로 이미지-텍스트 기반 비디오 생성 및 편집을 위한 혁신적인 통합 프레임워크를 제안했습니다. WorldGPT로 명명되었습니다. 이 프레임워크는 SEEKING AI와 위에서 언급한 상위 대학이 공동으로 개발한 VisionGPT 프레임워크를 기반으로 구축되었습니다. 사진과 텍스트에서 직접 비디오를 생성하는 기능을 실현할 수 있을 뿐만 아니라 생성된 비디오의 스타일 전송 및 배경 교체도 지원합니다. 간단한 텍스트 프롬프트(프롬프트) 및 일련의 비디오 모양 편집 작업.

이 프레임워크의 또 다른 중요한 장점은 교육이 필요하지 않다는 것입니다. 이는 기술 임계값을 크게 낮추고 배포 및 사용을 매우 편리하게 만듭니다. 사용자는 지루한 학습 과정에 신경 쓰지 않고 모델을 직접 사용하여 생성할 수 있습니다.

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

  • 논문 주소: https://arxiv.org/pdf/2403.07944.pdf
  • 논문 제목: WorldGPT: 텍스트 및 이미지 입력의 풍부한 세계 모델로서 Sora에서 영감을 받은 비디오 AI 에이전트

Next Let's 다양하고 복잡한 비디오 생성 제어 시나리오에서 WorldGPT의 예제 데모를 살펴보세요.

배경 교체 + 비디오 생성

프롬프트: "배들의 함대가 울부짖는 폭풍을 뚫고 나아갔고, 그들의 돛은 무자비한 폭풍의 거대한 파도를 타고 항해했습니다. 폭풍우, 그들의 돛은 바다의 우뚝 솟은 파도를 항해하면서 부풀어 올랐습니다. 끊임없는 폭풍.)》

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

배경 교체 + 스타일화 + 비디오 생성

프롬프트: "도시 거리의 귀여운 용이 불을 뿜고 있습니다. (귀여운 용이 도시 거리에 불을 뿜고 있습니다.) "

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

객체 교체 + 배경 교체 + 비디오 생성

프롬프트: "네온 조명으로 빛나는 사이버펑크 스타일 로봇 사이버펑크 스타일 자동인형이 네온 불빛이 비치는 디스토피아적인 도시 풍경과 반사된 풍경을 질주했습니다. 매끄러운 금속 본체에 투사된 우뚝 솟은 홀로그램과 디지털 디케이. 매끄러운 금속 본체 전체에 디케이가 재생됩니다.)》

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

위의 예에서 볼 수 있듯이 WorldGPT는 복잡한 비디오에 직면할 때 다음과 같은 이점을 갖습니다. 생성 지침:

1) 원본을 더 잘 유지합니다. 이미지의 구조와 환경을 입력합니다.

2) 강력한 비디오 생성 사용자 정의 기능을 보여주는 이미지-텍스트 설명을 준수하는 생성된 비디오를 생성합니다. 생성된 비디오는 프롬프트를 통해 사용자 정의하고 편집할 수 있습니다.

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

WorldGPT의 원리, 실험 및 사용 사례에 대해 자세히 알아보려면 원본 논문을 확인하세요.

VisonGPT

앞서 언급했듯이 WorldGPT 프레임워크는 VisionGPT 프레임워크를 기반으로 구축되었습니다. 다음으로 VisionGPT에 대한 정보를 간략히 소개하겠습니다.

VisionGPT는 SeekingAI, 스탠포드 대학교, 하버드 대학교, 북경 대학교 및 기타 세계 최고의 기관이 공동으로 개발한 획기적인 오픈 월드 시각적 인식 대형 모델 프레임워크입니다. 이 프레임워크는 최첨단 SOTA 대형 모델의 지능형 통합 및 의사 결정 선택을 통해 강력한 AI 다중 모드 이미지 처리 기능을 제공합니다.

VisionGPT의 혁신은 주로 세 가지 측면에 반영됩니다.

  1. 첫째, LLaMA-2와 같은 대규모 언어 모델을 핵심으로 사용자의 신속한 요청을 세부 단계 요구 사항으로 분해하고 가장 많은 것을 자동으로 호출합니다.
  2. 두 번째로 VisionGPT는 여러 SOTA 대형 모델에서 생성된 다중 모드 출력을 자동으로 수용하고 융합하여 사용자 요구에 맞는 이미지 처리 결과를 생성합니다.
  3. 마지막으로 VisionGPT는 별도의 작업 없이 매우 높은 유연성과 다양성을 제공합니다. 사용자가 모델을 미세 조정할 수 있도록 텍스트 기반 이미지 이해, 생성 및 편집을 포함한 광범위한 애플리케이션 시나리오를 지원할 수 있습니다.

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

  • 논문 주소: https://arxiv.org/pdf/2403.09027.pdf
  • 논문 제목: VisionGPT: 일반화된 다중 모드 프레임워크를 사용하는 비전-언어 이해 에이전트

VisionGPT 사용 사례

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

위에서 볼 수 있듯이 VisionGPT는 1) 미세 조정 없이 오픈 월드에서 인스턴스 분할 2) 프롬프트 기반 이미지 생성 및 편집 기능 등을 쉽게 달성할 수 있습니다. VisionGPT의 작업흐름은 아래 그림과 같습니다.

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

자세한 내용은 논문을 참고해주세요.

VisionGPT-3D

또한 연구원들은 텍스트를 시각적 요소로 변환하는 데 있어 주요 과제인 2D 이미지를 3D 표현으로 효율적이고 정확하게 변환하는 방법을 해결하는 것을 목표로 하는 VisionGPT-3D도 출시했습니다. 이 과정에서 우리는 종종 알고리즘과 실제 요구 사항 간의 불일치 문제에 직면하여 최종 결과의 품질에 영향을 미칩니다. VisionGPT-3D는 여러 최첨단 SOTA 비전 대형 모델을 통합하여 이러한 변환 프로세스를 최적화하는 다중 모드 프레임워크를 제안합니다. 핵심 혁신은 가장 적합한 시각적 SOTA 모델과 3D 포인트 클라우드 생성 알고리즘을 자동으로 선택하고 텍스트 프롬프트와 같은 다중 모드 입력을 기반으로 사용자 요구를 가장 잘 충족하는 출력을 생성하는 기능에 있습니다.

WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 부활

  • 논문 주소: https://arxiv.org/pdf/2403.09530v1.pdf
  • 논문 제목: VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

자세한 내용은 다음을 참조하세요. 원본 종이에.

위 내용은 WorldGPT 출시: Sora와 유사한 비디오 AI 에이전트 생성, 그래픽 및 텍스트 '부활'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

시간을 투자할 가치가 있는 확산 모델 튜토리얼(Purdue University 제공) 시간을 투자할 가치가 있는 확산 모델 튜토리얼(Purdue University 제공) Apr 07, 2024 am 09:01 AM

확산은 더 잘 모방할 수 있을 뿐만 아니라 "창조"할 수도 있습니다. 확산 모델(DiffusionModel)은 이미지 생성 모델입니다. AI 분야에서 잘 알려진 GAN, VAE 알고리즘과 비교할 때 확산 모델은 먼저 이미지에 노이즈를 추가한 다음 점차적으로 노이즈를 제거하는 프로세스를 취합니다. 원본 이미지의 노이즈를 제거하고 복원하는 방법이 알고리즘의 핵심 부분입니다. 최종 알고리즘은 임의의 잡음이 있는 이미지에서 이미지를 생성할 수 있습니다. 최근 몇 년 동안 생성 AI의 경이적인 성장으로 인해 텍스트-이미지 생성, 비디오 생성 등에서 많은 흥미로운 애플리케이션이 가능해졌습니다. 이러한 생성 도구의 기본 원리는 이전 방법의 한계를 극복하는 특수 샘플링 메커니즘인 확산의 개념입니다.

클릭 한 번으로 PPT를 생성해보세요! 키미: 'PPT 이주노동자'가 먼저 대중화되게 해주세요 클릭 한 번으로 PPT를 생성해보세요! 키미: 'PPT 이주노동자'가 먼저 대중화되게 해주세요 Aug 01, 2024 pm 03:28 PM

키미: 단 한 문장이면 단 10초만에 PPT가 완성됩니다. PPT가 너무 짜증나네요! 회의를 하려면 PPT가 있어야 하고, 주간 보고서를 작성하려면 PPT가 있어야 하며, 누군가를 부정행위를 했다고 비난하려면 PPT를 보내야 합니다. 대학은 PPT 전공을 공부하는 것과 비슷합니다. 수업 시간에 PPT를 보고 수업 후에 PPT를 하는 거죠. 아마도 데니스 오스틴이 37년 전 PPT를 발명했을 때, 언젠가 PPT가 이렇게 널리 보급될 것이라고는 예상하지 못했을 것입니다. 우리가 PPT를 만들면서 힘들었던 경험을 이야기하면 눈물이 납니다. "20페이지가 넘는 PPT를 만드는 데 3개월이 걸렸고, 수십 번 수정했어요. PPT를 보면 토할 것 같았어요. 한창 때는 하루에 다섯 장씩 했는데, 숨소리까지 냈어요." PPT였어요." 즉석 회의가 있으면 해야죠.

Zhipu AI가 비디오 생성에 들어갑니다. 'Qingying'은 온라인, 6초 길이, 무료 및 무제한입니다. Zhipu AI가 비디오 생성에 들어갑니다. 'Qingying'은 온라인, 6초 길이, 무료 및 무제한입니다. Jul 26, 2024 pm 03:35 PM

Zhipu 대형 모델 팀은 자체 개발 및 구축되었습니다. Kuaishou Keling AI가 국내외에서 인기를 끌면서 2023년 대형 텍스트 모델과 마찬가지로 국내 비디오 세대도 점점 더 대중화되고 있습니다. 방금 또 다른 대형 비디오 세대 모델 제품이 공식 출시되었습니다. Zhipu AI가 공식적으로 "Qingying"을 출시했습니다. 좋은 아이디어(몇 단어에서 수백 단어)와 약간의 인내심(30초)만 있으면 "Qingying"은 1440x960 해상도의 고정밀 동영상을 생성할 수 있습니다. 이제부터 Qingying은 Qingyan 앱에서 출시되며 모든 사용자는 대화, 사진, 비디오, 코드 및 에이전트 생성 기능을 완벽하게 경험할 수 있습니다. Zhipu Qingyan의 웹 및 앱을 다루는 것 외에도 "AI Dynamic Photo Mini 프로그램"을 작동하여 휴대폰에 있는 사진에 역동적인 효과를 빠르게 얻을 수도 있습니다.

CVPR 2024 시상식 전체가 발표되었습니다! 약 10,000명이 오프라인으로 컨퍼런스에 참석했으며 Google의 중국인 연구원이 최우수 논문상을 수상했습니다. CVPR 2024 시상식 전체가 발표되었습니다! 약 10,000명이 오프라인으로 컨퍼런스에 참석했으며 Google의 중국인 연구원이 최우수 논문상을 수상했습니다. Jun 20, 2024 pm 05:43 PM

베이징 시간으로 6월 20일 이른 아침, 시애틀에서 열린 최고의 국제 컴퓨터 비전 컨퍼런스인 CVPR2024가 최우수 논문 및 기타 수상작을 공식 발표했습니다. 올해는 우수논문 2편, 최우수 학생논문 2편 등 총 10편의 논문이 수상하였습니다. 컴퓨터 비전(CV) 분야 최고 학회는 매년 수많은 연구기관과 대학이 모여드는 CVPR이다. 통계에 따르면 올해 총 1만1532편의 논문이 제출돼 2719편이 채택돼 합격률 23.6%를 기록했다. Georgia Institute of Technology의 CVPR2024 데이터 통계 분석에 따르면 연구 주제 관점에서 가장 많은 논문이 이미지 및 비디오 합성 및 생성입니다(Imageandvideosyn

C 언어 학습을 시작하기 위한 5가지 프로그래밍 소프트웨어 C 언어 학습을 시작하기 위한 5가지 프로그래밍 소프트웨어 Feb 19, 2024 pm 04:51 PM

널리 사용되는 프로그래밍 언어인 C언어는 컴퓨터 프로그래밍에 종사하려는 사람들이 꼭 배워야 할 기본 언어 중 하나이다. 그러나 초보자의 경우 새로운 프로그래밍 언어를 배우는 것이 다소 어려울 수 있습니다. 특히 관련 학습 도구와 교육 자료가 부족하기 때문입니다. 이번 글에서는 초보자가 C 언어를 시작하고 빠르게 시작할 수 있도록 도와주는 프로그래밍 소프트웨어 5가지를 소개하겠습니다. 최초의 프로그래밍 소프트웨어는 Code::Blocks였습니다. Code::Blocks는 무료 오픈 소스 통합 개발 환경(IDE)입니다.

기술 초보자의 필독서: C언어와 Python의 난이도 분석 기술 초보자의 필독서: C언어와 Python의 난이도 분석 Mar 22, 2024 am 10:21 AM

제목: 기술 초보자가 꼭 읽어야 할 책: C언어와 Python의 난이도 분석, 구체적인 코드 예제가 필요한 오늘날의 디지털 시대에 프로그래밍 기술은 점점 더 중요한 능력이 되었습니다. 소프트웨어 개발, 데이터 분석, 인공 지능과 같은 분야에서 일하고 싶거나 관심 있는 프로그래밍을 배우고 싶다면 적합한 프로그래밍 언어를 선택하는 것이 첫 번째 단계입니다. 많은 프로그래밍 언어 중에서 C 언어와 Python은 널리 사용되는 두 가지 프로그래밍 언어이며 각각 고유한 특성을 가지고 있습니다. 이번 글에서는 C언어와 Python의 난이도를 분석해보겠습니다.

베어메탈부터 700억 개의 매개변수가 있는 대형 모델까지 튜토리얼과 바로 사용할 수 있는 스크립트가 있습니다. 베어메탈부터 700억 개의 매개변수가 있는 대형 모델까지 튜토리얼과 바로 사용할 수 있는 스크립트가 있습니다. Jul 24, 2024 pm 08:13 PM

우리는 LLM이 대규모 데이터를 사용하여 대규모 컴퓨터 클러스터에서 훈련된다는 것을 알고 있습니다. 이 사이트는 LLM 훈련 프로세스를 지원하고 개선하는 데 사용되는 다양한 방법과 기술을 소개합니다. 오늘 우리가 공유하고 싶은 것은 기본 기술에 대해 심층적으로 살펴보고 운영 체제 없이도 수많은 "베어 메탈"을 LLM 교육을 위한 컴퓨터 클러스터로 전환하는 방법을 소개하는 기사입니다. 이 기사는 기계가 생각하는 방식을 이해하여 일반 지능을 달성하기 위해 노력하는 AI 스타트업 Imbue에서 가져온 것입니다. 물론 운영 체제가 없는 "베어 메탈"을 LLM 교육을 위한 컴퓨터 클러스터로 전환하는 것은 탐색과 시행착오로 가득 찬 쉬운 과정이 아니지만 Imbue는 마침내 700억 개의 매개변수를 사용하여 LLM을 성공적으로 교육했습니다. 과정이 쌓이다

RAG의 12가지 문제점을 카운트다운하는 NVIDIA 수석 아키텍트가 솔루션을 가르칩니다. RAG의 12가지 문제점을 카운트다운하는 NVIDIA 수석 아키텍트가 솔루션을 가르칩니다. Jul 11, 2024 pm 01:53 PM

검색 증강 생성(RAG)은 검색을 사용하여 언어 모델을 향상시키는 기술입니다. 특히, 언어 모델은 답변을 생성하기 전에 광범위한 문서 데이터베이스에서 관련 정보를 검색한 다음 이 정보를 사용하여 생성 프로세스를 안내합니다. 이 기술은 콘텐츠의 정확성과 관련성을 크게 향상시키고 환각 문제를 효과적으로 완화하며 지식 업데이트 속도를 높이고 콘텐츠 생성 추적성을 향상시킬 수 있습니다. RAG는 ​​의심할 여지 없이 인공 지능 연구에서 가장 흥미로운 분야 중 하나입니다. RAG에 대한 자세한 내용은 본 사이트의 칼럼 기사 "대형 모델의 단점을 보완하는 데 특화된 RAG의 새로운 발전은 무엇인가?"를 참조하시기 바랍니다. 이 리뷰는 이를 명확하게 설명합니다." 그러나 RAG는 완벽하지 않으며 사용자는 이를 사용할 때 몇 가지 "고통"에 직면하는 경우가 많습니다. 최근 NVIDIA의 고급 생성 AI 솔루션

See all articles