희소 쿼리를 사용하여 시각적 표현을 3D로 리프트 및 압축한 다음 LLM에 공급하는 새로운 3D MLLM 아키텍처로 시작하세요.
제목: OmniDrive: 3D 인식 추론 및 계획을 통한 자율 주행을 위한 전체적인 LLM 에이전트 프레임워크
저자 소속: Beijing Institute of Technology, NVIDIA, Huazhong University of Science and Technology
오픈 소스 주소: GitHub - NVlabs/OmniDrive
다양성 MLLM(대형 언어 모델)의 개발로 인해 강력한 추론 기능을 활용하는 LLM 기반 자율 주행에 대한 관심이 높아졌습니다. MLLM의 강력한 추론 기능을 활용하여 계획 행동을 개선하는 것은 2D 추론을 넘어 완전한 3D 상황 인식이 필요하기 때문에 어렵습니다. 이러한 과제를 해결하기 위해 이 연구에서는 에이전트 모델과 3D 운전 작업 간의 강력한 정렬을 위한 포괄적인 프레임워크인 OmniDrive를 제안합니다. 프레임워크는 희소 쿼리를 사용하여 관측 표현을 3D로 리프트 및 압축한 다음 LLM에 공급하는 새로운 3D+MLLM 아키텍처로 시작됩니다. 이 쿼리 기반 표현을 사용하면 동적 개체와 정적 지도 요소(예: 교통 도로)를 공동으로 인코딩하여 3D의 인식-동작 정렬을 위한 간결한 세계 모델을 제공할 수 있습니다. 또한 장면 설명, 교통 규칙, 3D 접지, 반사실적 추론, 의사 결정 및 계획을 포함한 포괄적인 시각적 질문 응답(VQA) 작업을 포함하는 새로운 벤치마크를 제안합니다. 광범위한 연구를 통해 복잡한 3D 장면에서 OmniDrive의 뛰어난 추론 및 계획 기능이 입증되었습니다.
위 내용은 OmniDrive: 대형 모델을 3D 운전 작업에 맞추기 위한 프레임워크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!