소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.
최근 AI 영상 기술 분야가 많은 주목을 받고 있으며, 특히 OpenAI가 출시한 소라 영상 세대 대형 모델이 폭넓은 논의를 불러일으키고 있습니다. 동시에 영상 편집 분야에서도 Agent 등 대규모 AI 모델이 강세를 보이고 있다.
영상 편집 작업은 자연어를 사용하지만, 사용자는 수동 조작 없이 직접 의도를 표현할 수 있습니다. 그러나 대부분의 최신 비디오 편집 도구에는 여전히 많은 수동 작업이 필요하며 개인화된 상황별 지원이 부족합니다. 이로 인해 사용자는 복잡한 비디오 편집 문제를 스스로 해결해야 합니다.
핵심은 편집 과정에서 공동작업자 역할을 하고 지속적으로 사용자를 지원할 수 있는 비디오 편집 도구를 디자인하는 방법입니다. 이 기사에서는 토론토대학교 Meta(Reality Labs Research)와 캘리포니아대학교 샌디에고 캠퍼스의 연구원들이 비디오 편집에 LLM(대형 언어 모델)의 다기능 언어 기능을 활용하고 미래를 탐구할 것을 제안합니다. 비디오 편집 패러다임을 통해 수동 비디오 편집 프로세스에 대한 불만을 줄입니다.
- 논문 제목: LAVE: 비디오 편집을 위한 LLM 기반 에이전트 지원 및 언어 보강
- 논문 주소: https://arxiv.org/pdf/2402.10294.pdf
Research 저자는 LLM에서 제공하는 다양한 언어 향상 기능을 통합한 LAVE라는 비디오 편집 도구를 개발했습니다. LAVE는 사용자의 자유 형식 언어 지침을 해석하고 관련 작업을 계획 및 실행하여 사용자의 비디오 편집 목표를 달성할 수 있는 LLM 기반 지능형 계획 및 실행 시스템을 도입합니다. 이 지능형 시스템은 창의적인 브레인스토밍, 영상 개요 등의 개념적 지원은 물론 의미 기반 영상 검색, 스토리보드 작성, 클립 트리밍 등의 운영 지원도 제공합니다.
이러한 에이전트를 원활하게 운영하기 위해 LAVE는 VLM(Visual Language Model)을 사용하여 비디오 시각 효과에 대한 언어 설명을 자동으로 생성합니다. 이러한 시각적 설명을 통해 LLM은 비디오 콘텐츠를 이해하고 언어 기능을 사용하여 사용자의 편집을 지원합니다. 또한 LAVE는 상담원 지원과 직접 작업이라는 두 가지 대화형 비디오 편집 모드를 제공합니다. 이 이중 모드는 사용자에게 필요에 따라 에이전트 작동을 개선할 수 있는 더 큰 유연성을 제공합니다.
LAVE의 편집효과는? 연구진은 초보자와 숙련된 편집자를 포함한 8명의 참가자를 대상으로 사용자 연구를 실시한 결과 참가자들이 LAVE를 사용하여 만족스러운 AI 협업 영상을 제작할 수 있는 것으로 나타났습니다.
이 연구의 6명의 저자 중 5명이 중국인이라는 점은 주목할 가치가 있습니다. 여기에는 Yi Zuo, 토론토 대학교 컴퓨터 과학 박사 과정 학생 Bryan Wang, 메타 연구 과학자 Yuliang Li, Zhaoyang Lv 및 Yan Xu가 포함됩니다. , 캘리포니아 대학교 샌디에고 캠퍼스 조교수 Haijun Xia.
LAVE 사용자 인터페이스(UI)
먼저 아래 그림 1과 같이 LAVE의 시스템 설계를 살펴보겠습니다.
LAVE의 사용자 인터페이스는 다음과 같은 세 가지 주요 구성 요소로 구성됩니다.
- 자동으로 생성된 언어 설명이 포함된 비디오 클립을 표시하는 언어 강화 비디오 라이브러리
- 비디오 클립 에이전트를 사용하면 사용자가 대화 에이전트와 상호 작용하고 도움을 받을 수 있습니다.
- 설계 논리는 다음과 같습니다. 사용자가 에이전트와 상호 작용할 때 메시지 교환이 채팅 UI에 표시됩니다. 이를 통해 에이전트는 비디오 라이브러리와 클립 타임라인을 변경합니다. 또한 사용자는 기존 편집 인터페이스와 유사하게 커서를 사용하여 비디오 라이브러리와 타임라인을 직접 조작할 수 있습니다.
언어 향상 비디오 라이브러리
언어 향상 비디오 라이브러리의 기능은 아래 그림 3에 나와 있습니다.
기존 도구와 마찬가지로 이 기능을 사용하면 클립을 재생할 수 있지만 의미 있는 제목과 요약을 포함하여 각 비디오에 대해 자동으로 생성된 텍스트 설명과 같은 시각적 내레이션도 제공됩니다. 제목은 클립을 이해하고 색인화하는 데 도움이 되며, 요약은 각 클립의 시각적 콘텐츠에 대한 개요를 제공하여 사용자가 편집 프로젝트의 스토리라인을 형성하는 데 도움을 줍니다. 각 동영상 아래에 제목과 재생 시간이 표시됩니다.
또한 LAVE를 사용하면 사용자는 의미론적 언어 쿼리를 사용하여 비디오를 검색할 수 있으며, 검색된 비디오는 비디오 라이브러리에 표시되고 관련성에 따라 정렬됩니다. 이 기능은 Clip Agent에서 수행해야 합니다.
비디오 클립 타임라인
비디오 라이브러리에서 비디오를 선택하고 클립 타임라인에 추가하면 아래 그림 2와 같이 인터페이스 하단의 비디오 클립 타임라인에 표시됩니다. . 타임라인의 각 클립은 상자로 표시되며 세 개의 축소판 프레임(시작 프레임, 중간 프레임, 끝 프레임)을 표시합니다.
LAVE 시스템에서 각 썸네일 프레임은 클립 내용의 1초를 나타냅니다. 비디오 갤러리와 마찬가지로 각 클립에 대한 제목과 설명이 제공됩니다. LAVE의 클립 타임라인에는 클립 정렬과 트리밍이라는 두 가지 주요 기능이 있습니다.
타임라인에서 클립 순서를 지정하는 것은 비디오 편집의 일반적인 작업이며 일관된 내러티브를 만드는 데 중요합니다. LAVE는 두 가지 정렬 방법을 지원하는데, 하나는 비디오 클립 에이전트의 스토리보드 기능을 사용하는 LLM 기반 정렬이고, 다른 하나는 각 비디오 상자를 드래그 앤 드롭하여 순서를 설정하는 것입니다. 클립이 나타납니다.
트리밍은 비디오 편집에서 핵심 부분을 강조하고 불필요한 콘텐츠를 제거하는 데에도 중요합니다. 다듬는 동안 사용자가 타임라인에서 클립을 두 번 클릭하면 아래 그림 4와 같이 1초 프레임을 표시하는 팝업 창이 열립니다.
Video Clip Agent
LAVE의 Video Clip Agent는 사용자와 LLM 기반 에이전트 간의 상호 작용을 촉진하는 채팅 기반 구성 요소입니다. 명령줄 도구와 달리 사용자는 자유 형식 언어를 사용하여 에이전트와 상호 작용할 수 있습니다. 에이전트는 LLM의 언어 지능을 활용하여 비디오 편집 지원을 제공하고 편집 프로세스 전반에 걸쳐 사용자를 안내하고 지원하기 위한 구체적인 응답을 제공합니다. LAVE의 에이전트 지원 기능은 에이전트 작업을 통해 제공되며 각 작업에는 시스템 지원 편집 기능 수행이 포함됩니다.
일반적으로 LAVE는 아이디어 구상과 사전 기획부터 실제 편집 작업까지 전체 워크플로우를 포괄하는 기능을 제공하지만 시스템이 엄격한 워크플로우를 요구하지는 않습니다. 사용자는 자신의 편집 목표에 맞는 기능의 하위 집합을 유연하게 활용할 수 있습니다. 예를 들어 명확한 편집 비전과 명확한 스토리라인을 가진 사용자는 아이디어 단계를 건너뛰고 바로 편집에 들어갈 수 있습니다.
백엔드 시스템
이 연구에서는 OpenAI의 GPT-4를 사용하여 LAVE 백엔드 시스템의 설계를 설명합니다. 여기에는 주로 두 가지 측면, 즉 에이전트 설계와 LLM이 구동하는 편집 기능 구현이 포함됩니다.
에이전트 설계
이 연구는 LAVE 에이전트를 구축하기 위해 추론, 계획 및 스토리텔링을 포함한 LLM(예: GPT-4)의 다중 언어 기능을 활용합니다.
LAVE 에이전트에는 계획과 실행이라는 두 가지 상태가 있습니다. 이 설정에는 두 가지 주요 이점이 있습니다.
- 사용자는 여러 작업이 포함된 높은 수준의 목표를 설정할 수 있으므로 기존 명령줄 도구처럼 각 개별 작업을 자세히 설명할 필요가 없습니다.
- 실행 전에 에이전트는 사용자에게 계획을 제시하여 수정 기회를 제공하고 사용자가 에이전트 작동을 완전히 제어할 수 있도록 보장합니다. 연구팀은 계획 및 실행 프로세스를 완료하기 위해 백엔드 파이프라인을 설계했습니다.
아래 그림 6에 표시된 것처럼 파이프라인은 먼저 사용자 입력을 기반으로 작업 계획을 생성합니다. 그런 다음 계획은 텍스트 설명에서 함수 호출로 변환되고 해당 함수가 실행됩니다.
LLM 기반 편집 기능 구현
사용자가 비디오 편집 작업을 완료할 수 있도록 LAVE는 주로 다음을 포함한 5가지 LLM 기반 기능을 지원합니다.
- 자료 개요
- 창의적 브레인스토밍
- 동영상 검색
- 스토리보드
- 클립 트리밍
첫 번째 네 가지는 에이전트를 통해 액세스할 수 있습니다(그림 5). 클립 트리밍 기능을 사용하면 타임라인에서 클립을 두 번 클릭하여 1초 프레임을 보여주는 팝업 창을 열 수 있습니다(그림 4).
그 중 언어 기반 비디오 검색은 벡터 저장 데이터베이스를 통해 구현되고 나머지는 LLM 프롬프트 엔지니어링을 통해 구현됩니다. 모든 기능은 비디오 라이브러리의 각 클립에 대한 제목과 요약을 포함하여 원본 영상에 대해 자동으로 생성된 구두 설명을 기반으로 구축되었습니다(그림 3). 연구팀은 이러한 비디오의 텍스트 설명을 시각적 내레이션이라고 부릅니다.
관심 있는 독자는 논문의 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.
위 내용은 소라가 영상 세대를 폭발시켰을 때, 메타는 중국 작가들을 중심으로 Agent를 이용해 영상 자동 자르기를 시작했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Sonyinteractiveent intustionment (SIE, Sony Interactive Entertainment)의 최고 건축가 인 Mark Cerny는 성능 업그레이드 된 AMDRDNA2.X 아키텍처 GPU 및 AMD와 함께 기계 학습/인공 지능 프로그램 코드 "Amethylst"를 포함하여 차세대 호스트 PlayStation5Pro (PS5PRO)에 대한 더 많은 하드웨어 세부 정보를 발표했습니다. PS5PRO 성능 향상의 초점은 여전히 강력한 GPU, Advanced Ray Tracing 및 AI 구동 PSSR Super-Resolution 기능을 포함하여 세 가지 기둥에 있습니다. GPU는 Sony가 RDNA2.x라는 맞춤형 AMDRDNA2 아키텍처를 채택하며 RDNA3 아키텍처가 있습니다.

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

CentOS에 대한 Zookeeper Performance Tuning은 하드웨어 구성, 운영 체제 최적화, 구성 매개 변수 조정, 모니터링 및 유지 관리 등 여러 측면에서 시작할 수 있습니다. 특정 튜닝 방법은 다음과 같습니다. SSD는 하드웨어 구성에 권장됩니다. Zookeeper의 데이터는 디스크에 작성되므로 SSD를 사용하여 I/O 성능을 향상시키는 것이 좋습니다. 충분한 메모리 : 자주 디스크 읽기 및 쓰기를 피하기 위해 충분한 메모리 리소스를 동물원에 충분한 메모리 자원을 할당하십시오. 멀티 코어 CPU : 멀티 코어 CPU를 사용하여 Zookeeper가이를 병렬로 처리 할 수 있도록하십시오.

CentOS 시스템에서 Pytorch 모델을 효율적으로 교육하려면 단계가 필요 하며이 기사는 자세한 가이드를 제공합니다. 1. 환경 준비 : 파이썬 및 종속성 설치 : CentOS 시스템은 일반적으로 파이썬을 사전 설치하지만 버전은 더 오래 될 수 있습니다. YUM 또는 DNF를 사용하여 Python 3 및 Upgrade Pip : Sudoyumupdatepython3 (또는 SudodnfupdatePython3), PIP3INSTALL-UPGRADEPIP를 설치하는 것이 좋습니다. CUDA 및 CUDNN (GPU 가속도) : NVIDIAGPU를 사용하는 경우 Cudatool을 설치해야합니다.

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용
