OmniDrive: 대형 모델을 3D 운전 작업에 맞추기 위한 프레임워크

PHPz
풀어 주다: 2024-05-06 15:16:35
앞으로
1052명이 탐색했습니다.

희소 쿼리를 사용하여 시각적 표현을 3D로 리프트 및 압축한 다음 LLM에 공급하는 새로운 3D MLLM 아키텍처로 시작하세요.

제목: OmniDrive: 3D 인식 추론 및 계획을 통한 자율 주행을 위한 전체적인 LLM 에이전트 프레임워크

저자 소속: Beijing Institute of Technology, NVIDIA, Huazhong University of Science and Technology

오픈 소스 주소: GitHub - NVlabs/OmniDrive

다양성 MLLM(대형 언어 모델)의 개발로 인해 강력한 추론 기능을 활용하는 LLM 기반 자율 주행에 대한 관심이 높아졌습니다. MLLM의 강력한 추론 기능을 활용하여 계획 행동을 개선하는 것은 2D 추론을 넘어 완전한 3D 상황 인식이 필요하기 때문에 어렵습니다. 이러한 과제를 해결하기 위해 이 연구에서는 에이전트 모델과 3D 운전 작업 간의 강력한 정렬을 위한 포괄적인 프레임워크인 OmniDrive를 제안합니다. 프레임워크는 희소 쿼리를 사용하여 관측 표현을 3D로 리프트 및 압축한 다음 LLM에 공급하는 새로운 3D+MLLM 아키텍처로 시작됩니다. 이 쿼리 기반 표현을 사용하면 동적 개체와 정적 지도 요소(예: 교통 도로)를 공동으로 인코딩하여 3D의 인식-동작 정렬을 위한 간결한 세계 모델을 제공할 수 있습니다. 또한 장면 설명, 교통 규칙, 3D 접지, 반사실적 추론, 의사 결정 및 계획을 포함한 포괄적인 시각적 질문 응답(VQA) 작업을 포함하는 새로운 벤치마크를 제안합니다. 광범위한 연구를 통해 복잡한 3D 장면에서 OmniDrive의 뛰어난 추론 및 계획 기능이 입증되었습니다.

네트워크 구조

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

실험 결과

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

위 내용은 OmniDrive: 대형 모델을 3D 운전 작업에 맞추기 위한 프레임워크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿