목차
최초의 멀티뷰 예측 및 기획 자율주행 세계 모델
다시점 영상 생성 모델 구축 방법
고품질 비디오 생성 및 제어 가능성
결론
기술 주변기기 일체 포함 미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

Dec 04, 2023 am 08:37 AM
자율주행 비전

최근 월드 모델 콘셉트로 열풍이 불고 있지만 자율주행 분야는 '불'을 멀리서 지켜볼 수 없다. 중국과학원 자동화 연구소 팀은 엔드투엔드 자율주행 계획의 안전성을 향상시키는 것을 목표로 Drive-WM이라는 새로운 다중 뷰 세계 모델을 처음으로 제안했습니다.

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

웹사이트: https://drive-wm.github.io

논문 URL: https://arxiv.org/abs/2311.17918

최초의 멀티뷰 예측 및 기획 자율주행 세계 모델

CVPR2023 자율주행 세미나에서 양대 기술 대기업인 Tesla와 Wayve가 블랙 기술을 선보였으며, 자율주행 분야에서는 "Generative World Model"이라는 새로운 개념이 인기를 끌었습니다. Wayve는 GAIA-1 생성 AI 모델을 출시하여 놀라운 비디오 장면 생성 기능을 시연했습니다. 최근 중국과학원 자동화 연구소의 연구원들은 최초로 다중 시점 예측 세계 모델을 실현하고 현재 주류 엔드와 원활하게 통합되는 새로운 자율 주행 세계 모델인 Drive-WM을 제안했습니다. 철저한 자율주행 플래너 .

Drive-WM은 확산 모델의 강력한 생성 기능을 활용하여 사실적인 비디오 장면을 생성합니다.

당신이 운전하고 있고 온보드 시스템이 운전 습관과 도로 상황을 기반으로 미래의 발전을 예측하고 그에 따른 시각적 피드백을 생성하여 궤적 경로 선택을 안내한다고 상상해 보세요. 미래를 예측하는 능력과 플래너의 결합으로 자율주행의 안전성이 크게 향상될 것입니다!

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

다시점 세계 모델을 기반으로 예측하고 계획합니다. 월드 모델과 엔드투엔드 자율주행의 결합으로 운전 안전성 향상

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장Drive-WM 모델이 세계를 가져옵니다. 모델과 엔드투엔드 계획의 결합으로 엔드투엔드 발전의 새로운 장을 엽니다. -자율주행을 종료합니다. 각 시간 단계에서 플래너는 세계 모델을 사용하여 가능한 미래 시나리오를 예측한 다음 이미지 보상 기능을 사용하여 이를 완전히 평가할 수 있습니다.


월드 모델을 기반으로 한 엔드 투 엔드 궤적 계획 트리를 다시 작성할 수 있습니다.미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

최상의 추정 방법과 확장된 계획 트리 기술을 사용하면 보다 효과적이고 안전한 계획이 가능합니다


미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

Drive-WM은 혁신적인 연구를 통해 엔드 투 엔드 계획에서 세계 모델의 두 가지 적용을 탐구합니다

1. OOD 시나리오에 직면하여 세계 모델의 견고성을 보여줍니다. 비교 실험을 통해 저자는 현재의 엔드 투 엔드 기획자의 성능이 OOD 상황에 직면했을 때 이상적이지 않다는 것을 발견했습니다.

작가는 다음 그림을 제공합니다. 초기 위치에 약간의 측면 오프셋이 교란되면 현재 엔드 투 엔드 플래너는 합리적인 계획 경로를 출력하는 데 어려움을 겪습니다.

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

엔드 투 엔드 기획자는 OOD 상황에 직면했을 때 합리적인 계획 경로를 출력하는 데 어려움을 겪습니다.

Drive-WM의 강력한 발전 능력은 OOD 문제 해결을 위한 새로운 아이디어를 제공합니다. 작성자는 생성된 비디오를 사용하여 플래너를 미세 조정하고 OOD 데이터로부터 학습하여 플래너가 이러한 시나리오에 직면할 때 더 나은 성능을 발휘할 수 있도록 합니다

2 이는 향후 시나리오 평가의 도입이 매우 중요하다는 것을 보여줍니다. end-to-end 기획의 강화 효과

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

다시점 영상 생성 모델 구축 방법

다시점 영상 생성의 시공간적 일관성은 항상 어려운 문제였습니다. Drive-WM은 순차 레이어 코딩을 도입하여 비디오 생성 기능을 확장하고 뷰 분해 모델링을 통해 다시점 비디오 생성을 달성합니다. 이러한 뷰 분해 생성 방법은 뷰 간의 일관성을 크게 향상시킬 수 있습니다

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

Drive-WM 전체 모델 설계

고품질 비디오 생성 및 제어 가능성

Drive -WM은 고품질 비디오 생성을 가능하게 합니다. 뛰어난 제어성을 갖춘 멀티뷰 비디오 생성. 텍스트, 장면 레이아웃, 모션 정보를 통해 멀티뷰 비디오 생성을 제어할 수 있는 다양한 제어 옵션을 제공합니다. 또한 텍스트를 사용하여 날씨와 모션을 변경하는 등 미래의 신경 시뮬레이터에 새로운 가능성을 제공합니다. 조명: ​​

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장


예를 들어 보행자 생성 및 전경 편집: 미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

속도 및 방향 제어 방법 사용: 미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

교차로에서 회전하거나 옆 잔디로 운전하는 등 희귀한 이벤트를 생성합니다.

미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장

결론

Drive-WM은 강력한 다시점 비디오 생성 기능을 보여줄 뿐만 아니라 월드 모델과 엔드 투 엔드 주행 모델을 결합할 수 있는 큰 잠재력을 보여줍니다. 우리는 미래에 월드 모델이 더욱 안전하고 안정적이며 신뢰할 수 있는 엔드 투 엔드 자율 주행 시스템을 달성하는 데 도움이 될 수 있다고 믿습니다.

위 내용은 미래로 여행을 떠나다, 최초의 멀티뷰 예측+계획 자율주행 세계 모델 등장의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? 자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? Jan 17, 2024 pm 02:57 PM

위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? 자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 Jan 26, 2024 am 11:18 AM

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 ​​포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. May 30, 2024 am 09:35 AM

이전에 작성했던 오늘은 딥 러닝 기술이 복잡한 환경에서 비전 기반 SLAM(동시 위치 파악 및 매핑)의 성능을 향상할 수 있는 방법에 대해 논의합니다. 심층 특징 추출과 깊이 일치 방법을 결합하여 저조도 조건, 동적 조명, 질감이 약한 영역 및 심한 지터와 같은 까다로운 시나리오에서 적응을 향상하도록 설계된 다목적 하이브리드 시각적 SLAM 시스템을 소개합니다. 우리 시스템은 확장 단안, 스테레오, 단안 관성 및 스테레오 관성 구성을 포함한 여러 모드를 지원합니다. 또한 시각적 SLAM을 딥러닝 방법과 결합하여 다른 연구에 영감을 주는 방법도 분석합니다. 공개 데이터 세트 및 자체 샘플링 데이터에 대한 광범위한 실험을 통해 위치 정확도 및 추적 견고성 측면에서 SL-SLAM의 우수성을 입증합니다.

좌표계 변환을 실제로 마스터하셨나요? 자율주행에 필수불가결한 멀티센서 이슈 좌표계 변환을 실제로 마스터하셨나요? 자율주행에 필수불가결한 멀티센서 이슈 Oct 12, 2023 am 11:21 AM

첫 번째 파일럿 및 주요 기사에서는 주로 자율 주행 기술에서 일반적으로 사용되는 여러 좌표계를 소개하고 이들 간의 상관 관계 및 변환을 완료하고 최종적으로 통합 환경 모델을 구축하는 방법을 소개합니다. 여기서 초점은 차량에서 카메라 강체로의 변환(외부 매개변수), 카메라에서 이미지로의 변환(내부 매개변수), 이미지에서 픽셀 단위로의 변환을 이해하는 것입니다. 3D에서 2D로의 변환에는 해당 왜곡, 변환 등이 포함됩니다. 요점: 차량 좌표계와 카메라 본체 좌표계를 다시 작성해야 합니다. 평면 좌표계와 픽셀 좌표계 난이도: 이미지 평면에서 왜곡 제거와 왜곡 추가를 모두 고려해야 합니다. 2. 소개 좌표계에는 픽셀 평면 좌표계(u, v), 이미지 좌표계(x, y), 카메라 좌표계(), 월드 좌표계() 등 총 4가지 비전 시스템이 있습니다. 각 좌표계 사이에는 관계가 있으며,

자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! 자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! Feb 28, 2024 pm 07:20 PM

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 Feb 20, 2024 am 11:48 AM

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다! nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다! Apr 17, 2024 pm 06:22 PM

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 ​​단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

See all articles