Any Scene in Any Scene: 사실적인 객체 삽입(다양한 주행 데이터의 합성 지원)
원제: 모든 장면의 모든 것: 사실적인 비디오 개체 삽입
논문 링크: https://arxiv.org/pdf/2401.17509.pdf
코드 링크: https://github.com/AnythingInAnyScene/anything_in_anyscene
저자 소속: Xpeng Motors
논문 아이디어
실감나는 영상 시뮬레이션은 가상 현실부터 영화 제작까지 다양한 응용 분야에서 큰 잠재력을 보여주었습니다. 특히 현실 세계에서 비디오를 캡처하는 것은 비실용적이거나 비용이 많이 듭니다. 비디오 시뮬레이션의 기존 방법은 조명 환경을 정확하게 모델링하거나 객체 형상을 표현하거나 높은 수준의 사실적 수준을 달성하지 못하는 경우가 많습니다. 본 논문에서는 기존의 역동적인 영상에 어떤 객체든 원활하게 삽입하고 물리적 사실성을 강조할 수 있는 새롭고 다재다능한 실제 영상 시뮬레이션 프레임워크인 Anything in Any Scene을 제안합니다. 본 논문에서 제안된 전체 프레임워크에는 세 가지 주요 프로세스가 포함되어 있습니다. 1) 실제 객체를 주어진 장면 비디오에 통합하고 기하학적 사실성을 보장하기 위해 적절한 위치에 배치합니다. 2) 하늘 및 주변 조명 분포를 추정하고 실제 그림자를 시뮬레이션하고 빛의 현실성을 향상합니다. 3) 스타일 전송 네트워크를 사용하여 최종 비디오 출력을 개선하여 사진 현실감을 극대화합니다. 이 기사에서는 Anything in Any Scene 프레임워크가 탁월한 기하학적 현실성, 조명 현실성 및 사진 현실성을 갖춘 시뮬레이션 비디오를 생성할 수 있음을 실험적으로 증명합니다. 비디오 데이터 생성과 관련된 문제를 크게 완화함으로써 당사의 프레임워크는 고품질 비디오를 얻기 위한 효율적이고 비용 효과적인 솔루션을 제공합니다. 또한 해당 응용 프로그램은 비디오 데이터 향상을 훨씬 뛰어 넘어 가상 현실, 비디오 편집 및 기타 다양한 비디오 중심 응용 프로그램에서 유망한 잠재력을 보여줍니다.
주요 기여
이 문서에서는 모든 개체를 동적 장면 비디오에 통합할 수 있는 새롭고 확장 가능한 Anything in Any Scene 비디오 시뮬레이션 프레임워크를 소개합니다.
이 기사는 고유하게 구성되어 있으며 출력 결과의 높은 품질과 신뢰성을 보장하기 위해 비디오 시뮬레이션에서 기하학, 조명 및 사실감을 유지하는 데 중점을 둡니다.
광범위한 검증 후 결과는 프레임워크가 매우 사실적인 비디오 시뮬레이션을 생성할 수 있는 능력을 가지고 있음을 보여줌으로써 이 분야의 응용 범위와 개발 잠재력을 크게 확장합니다.
논문 디자인
이미지 및 비디오 시뮬레이션은 가상 현실부터 영화 제작까지 다양한 응용 분야에서 성공적으로 사용됩니다. 사실적인 이미지 및 비디오 시뮬레이션을 통해 다양하고 고품질의 시각적 콘텐츠를 생성하는 능력은 이러한 분야를 발전시켜 새로운 가능성과 응용 프로그램을 도입할 수 있는 잠재력을 가지고 있습니다. 실제 세계에서 캡처한 이미지와 비디오의 신뢰성은 매우 중요하지만 롱테일 배포로 인해 제한되는 경우가 많습니다. 이로 인해 일반적인 시나리오는 과도하게 표현되고 드물지만 중요한 상황은 과소 표현되어 배포 부족 문제로 알려진 문제가 발생합니다. 비디오 캡처 및 편집을 통해 이러한 제한 사항을 해결하는 기존 방법은 가능한 모든 시나리오를 다루기가 어려웠기 때문에 비실용적이거나 비용이 많이 드는 것으로 나타났습니다. 특히 기존 비디오를 새로 삽입된 개체와 통합하는 비디오 시뮬레이션의 중요성은 이러한 과제를 극복하는 데 매우 중요합니다. 비디오 시뮬레이션은 대규모의 다양하고 사실적인 시각적 콘텐츠를 생성함으로써 가상 현실, 비디오 편집 및 비디오 데이터 증대 분야의 애플리케이션을 강화하는 데 도움이 됩니다.
그러나 물리적 사실성을 고려한 사실적인 시뮬레이션 영상을 생성하는 것은 여전히 어려운 과제입니다. 기존 방법은 특정 설정, 특히 실내 환경에 중점을 두어 한계를 나타내는 경우가 많습니다[9, 26, 45, 46, 57]. 이러한 방법은 다양한 조명 조건과 빠르게 움직이는 물체를 포함하여 야외 장면의 복잡성을 적절하게 해결하지 못할 수 있습니다. 3D 모델 등록에 의존하는 방법은 제한된 클래스의 객체를 통합하는 것으로 제한됩니다[12, 32, 40, 42]. 많은 방법에서는 조명 환경 모델링, 올바른 객체 배치 및 사실성 달성과 같은 중요한 요소를 무시합니다[12, 36]. 실패한 사례는 그림 1에 나와 있습니다. 따라서 이러한 제한으로 인해 자율 주행 및 로봇 공학과 같이 확장성이 뛰어나고 기하학적으로 일관되며 사실적인 장면 비디오 시뮬레이션이 필요한 영역에서의 적용이 크게 제한됩니다.
이 문서에서는 이러한 문제를 해결하는 사실적인 비디오 개체 삽입을 위한 포괄적인 프레임워크인 Anything in Any Scene을 제안합니다. 프레임워크는 실내 및 실외 장면에 적합하고 다용도로 설계되어 기하학적 사실성, 조명 사실성 및 포토리얼리즘 측면에서 물리적 정확성을 보장합니다. 이 기사의 목표는 기계 학습의 시각적 데이터 증대에 유용할 뿐만 아니라 가상 현실 및 비디오 편집과 같은 다양한 비디오 애플리케이션에도 적합한 비디오 시뮬레이션을 만드는 것입니다.
이 글의 Anything in Any Scene 프레임워크 개요는 그림 2에 나와 있습니다. 이 문서에서는 섹션 3의 장면 비디오 및 개체 메시의 다양한 자산 라이브러리를 구축하기 위한 새롭고 확장 가능한 파이프라인에 대해 자세히 설명합니다. 본 논문에서는 설명 키워드를 이용하여 시각적 질의로부터 관련 영상을 효율적으로 검색하도록 설계된 시각적 데이터 질의 엔진을 소개한다. 다음으로, 본 논문에서는 기존 3D 자산과 다시점 이미지 재구성을 활용하여 3D 메시를 생성하는 두 가지 방법을 제안합니다. 이를 통해 매우 불규칙하거나 의미가 약한 경우에도 원하는 개체를 제한 없이 삽입할 수 있습니다. 섹션 4에서는 물리적 사실성을 유지하는 데 중점을 두고 개체를 동적 장면 비디오에 통합하는 방법을 자세히 설명합니다. 본 논문에서는 삽입된 객체가 연속적인 비디오 프레임에 안정적으로 고정되도록 4.1절에 설명된 객체 배치 및 안정화 방법을 설계합니다. 사실적인 조명 및 그림자 효과를 생성하는 문제를 해결하기 위해 이 문서에서는 섹션 4.2에 설명된 대로 하늘과 환경 조명을 추정하고 렌더링 중에 사실적인 그림자를 생성합니다. 생성된 시뮬레이션된 비디오 프레임에는 노이즈 수준, 색상 충실도, 선명도의 이미징 품질 차이와 같이 실제 캡처된 비디오와 다른 비현실적인 아티팩트가 필연적으로 포함됩니다. 이 논문에서는 4.3절에서 사진 사실성을 향상시키기 위해 스타일 전달 네트워크를 사용합니다.
본 논문에서 제안한 프레임워크에서 생성된 시뮬레이션 비디오는 섹션 5.3에서 볼 수 있듯이 높은 수준의 조명 사실성, 기하학적 사실성 및 사진 사실성을 달성하여 품질과 양 모두에서 다른 비디오를 능가합니다. 이 기사에서는 실용적인 가치를 검증하기 위해 섹션 5.4의 인식 알고리즘 훈련에 이 기사의 시뮬레이션 비디오를 적용하는 방법을 추가로 보여줍니다. Anything in Any Scene 프레임워크를 사용하면 시간 효율성과 사실적인 시각적 품질로 데이터 확장을 위한 대규모 저비용 비디오 데이터 세트를 생성할 수 있으므로 비디오 데이터 생성 부담을 완화하고 잠재적으로 롱테일 및 아웃 오브 아웃을 개선할 수 있습니다. 유통 문제 . 일반 프레임워크 설계를 통해 Anything in Any Scene 프레임워크는 개선된 모델과 향상된 3D 메시 재구성 방법과 같은 새로운 모듈을 쉽게 통합하여 비디오 시뮬레이션 성능을 더욱 향상시킬 수 있습니다.
그림 1. 조명 환경 추정 오류, 객체 배치 오류, 비현실적인 텍스처 스타일이 있는 시뮬레이션된 비디오 프레임의 예 이러한 문제로 인해 이미지의 물리적 사실성이 부족합니다.
그림 2. 사실적인 비디오 개체 삽입을 위한 Anything in Any Scene 프레임워크 개요
그림 3. 개체 배치를 위한 운전 장면 비디오의 예. 각 이미지의 빨간색 점은 개체가 삽입된 위치입니다.
실험 결과
그림 4. 원본 하늘 이미지, 재구성된 HDR 이미지 및 관련 태양광 일조 분포 맵의 예
그림 5. 원본 및 재구성된 HDR 환경 파노라마 이미지의 예
그림 6. 삽입된 객체에 대한 그림자 생성의 예
그림 7. 다양한 스타일 전송 네트워크를 사용하여 PandaSet 데이터세트에서 시뮬레이션된 비디오 프레임의 질적 비교.
그림 8. 다양한 렌더링 조건에서 PandaSet 데이터세트의 시뮬레이션된 비디오 프레임을 정성적으로 비교합니다.
요약:
본 논문은 사실적인 비디오 시뮬레이션을 위해 설계된 혁신적이고 확장 가능한 프레임워크인 "Anything in Any Scene"을 제안합니다. 본 논문에서 제안된 프레임워크는 다양한 개체를 서로 다른 동적 비디오로 원활하게 통합하여 기하학적 사실성, 조명 사실성 및 사진 사실성을 보장합니다. 광범위한 시연을 통해 이 문서는 비디오 데이터 수집 및 생성과 관련된 문제를 완화하고 다양한 시나리오에 대한 비용 효율적이고 시간을 절약해 주는 솔루션을 제공하는 효율성을 입증합니다. 우리 프레임워크를 적용하면 다운스트림 인식 작업, 특히 객체 감지의 롱테일 분포 문제를 해결하는 데 상당한 개선이 나타납니다. 우리 프레임워크의 유연성을 통해 각 모듈에 대한 개선된 모델을 직접 통합할 수 있으며, 우리 프레임워크는 사실적인 비디오 시뮬레이션 분야에서 미래 탐구와 혁신을 위한 견고한 기반을 마련합니다.
인용:
Bai C, Shao Z, Zhang G, et al. 모든 장면의 모든 것: 사실적인 비디오 개체 삽입[J] arXiv 사전 인쇄 arXiv:2401.17509, 2024.
위 내용은 Any Scene in Any Scene: 사실적인 객체 삽입(다양한 주행 데이터의 합성 지원)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











게임 기술이나 교육 시연 등 일상 생활에서 일부 작동 단계를 보여주기 위해 휴대폰을 사용하여 화면 비디오를 녹화해야 하는 경우가 많습니다. 화면 비디오 녹화 기능도 매우 좋으며 OPPO 휴대폰은 강력한 스마트폰입니다. 녹화 작업을 쉽고 빠르게 완료할 수 있도록 이 기사에서는 OPPO 휴대폰을 사용하여 화면 비디오를 녹화하는 방법을 자세히 소개합니다. 준비 - 녹음 목표 결정 시작하기 전에 녹음 목표를 명확히 해야 합니다. 단계별 시연 영상을 녹화하고 싶으신가요? 아니면 게임의 멋진 순간을 기록하고 싶으신가요? 아니면 교육 비디오를 녹화하고 싶나요? 녹음 과정과 명확한 목표를 더 잘 정리해야만 가능합니다. OPPO 휴대폰의 화면 녹화 기능을 열고 바로가기 패널에서 찾으세요. 화면 녹화 기능은 바로가기 패널에 있습니다.

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

1. 먼저 AMTLanguages 폴더를 찾으세요. AMTLanguages 폴더에서 일부 문서를 찾았습니다. 중국어 간체를 설치하면 zh_CN.txt 텍스트 문서가 생성됩니다(텍스트 내용: zh_CN). 영어로 설치했다면 텍스트 문서 en_US.txt가 있을 것입니다(텍스트 내용은 en_US). 3. 따라서 중국어로 전환하려면 AdobeAfterEffectsCCSupportFilesAMTLanguages 경로 아래에 zh_CN.txt(텍스트 내용: zh_CN)의 새 텍스트 문서를 만들어야 합니다. 4. 반대로 영어로 전환하고 싶다면,

오늘날 가장 인기 있는 단편 비디오 플랫폼 중 하나인 Douyin 비디오의 품질과 효과는 사용자의 시청 경험에 직접적인 영향을 미칩니다. 그렇다면 TikTok에서 고품질 동영상을 촬영하는 방법은 무엇입니까? 1. Douyin에서 동영상을 촬영하는 방법은 무엇인가요? 1. Douyin 앱을 열고 하단 중앙의 "+" 버튼을 클릭하여 영상 촬영 페이지로 들어갑니다. 2. Douyin은 일반 촬영, 슬로우 모션, 짧은 비디오 등 다양한 촬영 모드를 제공합니다. 필요에 따라 적절한 촬영 모드를 선택하십시오. 3. 촬영 페이지에서 화면 하단의 "필터" 버튼을 클릭하여 다양한 필터 효과를 선택하여 동영상을 더욱 개인화하세요. 4. 노출, 대비 등의 매개변수를 조정해야 하는 경우 화면 왼쪽 하단에 있는 "매개변수" 버튼을 클릭하여 설정할 수 있습니다. 5. 촬영 중 화면 왼쪽의 를 클릭하시면 됩니다.

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

위에 작성됨 및 저자의 개인적 이해: 이 문서는 자율 주행 애플리케이션에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념하고 있습니다. 이는 MLLM을 2D 이해에서 3D 공간으로 확장하는 문제입니다. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다. 현재 다중 모드 대형 언어 모델(예: LLaVA-1.5)은 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 저해상도 이미지 입력(예:)만 처리할 수 있는 경우가 많습니다. 하지만 자율주행 애플리케이션에는
