LLM이 모두 완료되었습니다! OmniDrive: 3D 인식 및 추론 계획 통합(NVIDIA 최신)
앞서 작성 및 저자의 개인적인 이해
이 문서는 자율 주행 응용 분야에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념합니다. 즉, MLLM을 2D 이해에서 3D 공간으로 확장합니다. 질문. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다.
현재 다중 모달 대형 언어 모델(예: LLaVA-1.5)은 일반적으로 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 낮은 해상도의 이미지 입력(예:)만 처리할 수 있습니다. 그러나 자율 주행 애플리케이션에는 차량이 환경을 인식하고 장거리에서 안전한 결정을 내릴 수 있도록 고해상도 다중 뷰 비디오 입력이 필요합니다. 게다가 기존의 많은 2D 모델 아키텍처는 광범위한 컴퓨팅 및 스토리지 리소스가 필요하기 때문에 이러한 입력을 효율적으로 처리하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 연구자들은 새로운 모델 아키텍처와 스토리지 리소스를 개발하기 위해 노력하고 있습니다.
이러한 맥락에서 본 논문에서는 Q-Former 스타일 디자인을 활용한 새로운 3D MLLM 아키텍처를 제안합니다. 이 아키텍처는 교차 주의 디코더를 사용하여 고해상도 시각적 정보를 희소 쿼리로 압축하므로 고해상도 입력으로 더 쉽게 확장할 수 있습니다. 이 아키텍처는 모두 희소 3D 쿼리 메커니즘을 활용하므로 DETR3D, PETR(v2), StreamPETR 및 Far3D와 같은 뷰 모델 제품군과 유사합니다. 이러한 쿼리에 3D 위치 인코딩을 추가하고 다중 뷰 입력과 상호 작용함으로써 우리의 아키텍처는 3D 공간 이해를 달성하고 이를 통해 2D 이미지에서 사전 훈련된 지식을 더 잘 활용합니다.
모델 아키텍처의 혁신 외에도 이 기사에서는 더욱 까다로운 벤치마크인 OmniDrive-nuScenes도 제안합니다. 벤치마크는 3D 공간 이해와 장거리 추론이 필요한 다양한 복잡한 작업을 다루며, 솔루션과 궤적을 시뮬레이션하여 결과를 평가하는 반사실적 추론 벤치마크를 도입합니다. 이 벤치마크는 현재 개방형 평가에서 단일 전문가 궤적으로 편향되는 문제를 효과적으로 보완하여 전문가 궤적에 대한 과적합을 방지합니다.
이 문서에서는 LLM 에이전트를 기반으로 효과적인 3D 추론 및 계획 모델을 제공하고 자율 주행 분야의 추가 발전을 촉진하는 더욱 까다로운 벤치마크를 구축하는 포괄적인 엔드투엔드 자율 주행 프레임워크인 OmniDrive를 소개합니다. 구체적인 기여는 다음과 같습니다.
- 목표 감지, 차선 감지, 3D 시각적 위치 확인, 의사 결정 및 계획을 포함한 다양한 운전 관련 작업에 적합한 3D Q-Former 아키텍처 를 제안했습니다.
- 정확한 3D 공간 정보를 다루며 계획 관련 문제를 해결하도록 설계된 최초의 QA 벤치마크인 OmniDrive-nuScenes 벤치마크를 소개합니다.
- 기획 작업에서 최고의 성과를 달성하세요.
OmniDrive 상세 설명
전체 구조
본 글에서 제안하는 OmniDrive-Agent는 Q-Former와 쿼리 기반 3차원 인식 모델의 장점을 결합하여 3차원 공간정보를 멀티에서 효율적으로 획득하는 방법이다. -이미지 기능 보기, 자율 주행 시 3D 인식 및 계획 작업 해결. 전체적인 아키텍처는 그림에 나와 있습니다.
- Visual Encoder: 먼저 공유된 시각적 인코더를 사용하여 다시점 이미지 특징을 추출합니다.
- 위치 인코딩: 추출된 이미지 특징은 위치 인코딩과 함께 Q-Former3D에 입력됩니다.
- Q-Former3D 모듈: 그중 은 접합 작업을 나타냅니다. 간결성을 위해 위치 인코딩은 공식에서 생략되었습니다. 이 단계 후에 쿼리 컬렉션은 상호 작용하는 이 됩니다. 그 중 는 3D 위치 인코딩을 나타내고, 는 멀티뷰 이미지 기능을 나타냅니다.
- 멀티뷰 이미지 특징 모음: 다음으로 이러한 쿼리는 멀티뷰 이미지에서 정보를 수집합니다.
- 쿼리 초기화 및 self-attention: Q-Former3D에서는 탐지 쿼리와 벡터 쿼리가 초기화됩니다. Self-attention 연산은 그들 사이에서 정보를 교환하기 위해 수행됩니다:
- 출력 처리:
- 지각 작업 예측: 지각 쿼리를 사용하여 전경 요소의 범주와 좌표를 예측합니다.
- 캐리어 쿼리 정렬 및 텍스트 생성: 캐리어 쿼리는 단일 레이어 MLP를 통해 LLM 토큰의 차원(예: LLaMA의 4096 차원)에 정렬되고 추가로 텍스트 생성에 사용됩니다.
- 캐리어 쿼리의 역할
이 아키텍처 설계를 통해 OmniDrive-Agent는 다시점 이미지에서 풍부한 3차원 공간 정보를 효율적으로 얻고 이를 LLM과 결합하여 텍스트 생성을 통해 3차원 공간 인식을 제공할 수 있습니다. 자율주행은 새로운 솔루션을 제시합니다.
다중 작업 및 시간 모델링
저자의 방법은 다중 작업 학습 및 시간 모델링의 이점을 활용합니다. 다중 작업 학습에서 저자는 각 인식 작업에 대해 특정 Q-Former3D 모듈을 통합하고 통합된 초기화 전략을 채택할 수 있습니다(cref{Training Strategy} 참조). 다양한 작업에서 운송업체 쿼리는 다양한 교통 요소에 대한 정보를 수집할 수 있습니다. 저자의 구현에서는 중심선 구성 및 3D 개체 감지와 같은 작업을 다룹니다. 훈련 및 추론 단계에서 이러한 모듈은 동일한 3D 위치 인코딩을 공유합니다. 우리의 방법은 중심선 구성 및 3D 객체 감지와 같은 작업을 강화합니다. 훈련 및 추론 단계에서 이러한 모듈은 동일한 3D 위치 인코딩을 공유합니다. 우리의 방법은 중심선 구성 및 3D 객체 감지와 같은 작업을 강화합니다. 훈련 및 추론 단계에서 이러한 모듈은 동일한 3D 위치 인코딩을 공유합니다.
시간 모델링과 관련하여 저자는 상위 k 분류 점수와 함께 인지 쿼리를 메모리 뱅크에 저장하고 프레임별로 전파합니다. 전파된 쿼리는 교차 주의를 통해 현재 프레임의 지각 쿼리 및 반송파 쿼리와 상호 작용하여 비디오 입력에 대한 모델의 처리 기능을 확장합니다.
Training Strategy
OmniDrive-Agent의 훈련 전략은 2D 사전 훈련과 3D 미세 조정의 두 단계로 나뉩니다. 초기 단계에서 저자는 Q-Former 및 벡터 쿼리를 초기화하기 위해 먼저 2D 이미지 작업에 대해 다중 모드 대형 모델(MLLM)을 사전 훈련했습니다. 감지 쿼리를 제거한 OmniDrive 모델은 이미지를 기반으로 텍스트를 생성할 수 있는 표준 시각적 언어 모델로 간주할 수 있습니다. 따라서 저자는 LLaVA v1.5의 훈련 전략과 데이터를 사용하여 558K 이미지 및 텍스트 쌍에 대한 OmniDrive를 사전 훈련했습니다. 사전 훈련 중에는 Q-Former를 제외한 모든 매개변수가 고정된 상태로 유지됩니다. 그 후, LLaVA v1.5의 명령어 튜닝 데이터 세트를 사용하여 MLLM을 미세 조정했습니다. 미세 조정 중에 이미지 인코더는 고정된 상태로 유지되며 다른 매개변수를 훈련할 수 있습니다.
3D 미세 조정 단계에서는 모델의 2D 의미 이해 기능을 최대한 유지하면서 모델의 3D 위치 지정 기능을 향상시키는 것이 목표입니다. 이를 위해 저자는 원본 Q-Former에 3D 위치 인코딩 및 타이밍 모듈을 추가했습니다. 이 단계에서 저자는 LoRA 기술을 사용하여 작은 학습률로 시각적 인코더와 대규모 언어 모델을 미세 조정하고 상대적으로 큰 학습률로 Q-Former3D를 훈련시킵니다. 이 두 단계에서 OmniDrive-Agent의 손실 계산에는 BLIP-2의 대조 학습 및 매칭 손실을 고려하지 않고 텍스트 생성 손실만 포함됩니다.
OmniDrive-nuScenes
다중 모달 대형 모델 에이전트 운전을 벤치마킹하기 위해 저자는 고품질 시각적 질문 답변(QA)이 포함된 nuScenes 데이터 세트를 기반으로 하는 새로운 벤치마크인 OmniDrive-nuScenes를 제안합니다. 3D 영역의 인식, 추론 및 계획 작업.
OmniDrive-nuScenes의 하이라이트는 GPT-4를 사용하여 질문과 답변을 생성하는 완전 자동화된 QA 생성 프로세스입니다. LLaVA와 유사하게 우리의 파이프라인은 3D 인식 주석을 GPT-4에 대한 상황별 정보로 제공합니다. 이를 바탕으로 저자는 GPT-4가 3D 환경을 더 잘 이해할 수 있도록 교통 규칙 및 계획 시뮬레이션을 추가 입력으로 사용합니다. 저자의 벤치마크는 모델의 인식 및 추론 능력을 테스트할 뿐만 아니라 주의력, 반사실적 추론 및 개방 루프 계획과 관련된 장기 문제를 통해 모델의 실제 공간 이해 및 3D 공간에서의 계획 능력에 도전합니다. 이러한 문제에는 운전 계획이 필요하기 때문입니다. 다음 몇 초 안에 정답에 도달하도록 시뮬레이션됩니다.
오프라인 질의응답 생성 과정과 더불어 저자는 다양한 포지셔닝 질문의 온라인 생성 과정도 제안한다. 이 프로세스는 모델의 3D 공간 이해 및 추론 능력을 향상시키기 위한 암시적 데이터 향상 방법으로 볼 수 있습니다.
오프라인 질문 답변
오프라인 QA 생성 프로세스에서 저자는 상황에 맞는 정보를 사용하여 nuScenes에서 QA 쌍을 생성합니다. 먼저, 저자는 GPT-4를 사용하여 장면 설명을 생성하고, 3개 관점의 전면 뷰와 3개 관점의 후면 뷰를 두 개의 독립적인 이미지로 접합하여 GPT-4에 입력합니다. GPT-4는 프롬프트 입력을 통해 날씨, 시간, 장면 유형 등의 정보를 설명하고 각 시야각의 방향을 식별하는 동시에 시야각에 따른 설명을 피하고 내용을 상대적으로 설명합니다. 자기 차량의 위치.
다음으로, GPT-4V가 교통 요소 간의 상대적 공간 관계를 더 잘 이해할 수 있도록 저자는 객체와 차선 간의 관계를 파일 트리 형태의 구조로 표현하고, 객체의 3D 경계 상자를 기반으로, 해당 정보를 자연어 설명으로 변환합니다.
그런 다음 저자는 차선 유지, 왼쪽 차선 변경, 오른쪽 차선 변경 등 다양한 운전 의도를 시뮬레이션하여 궤적을 생성하고 깊이 우선 검색 알고리즘을 사용하여 차선 중앙선을 연결하여 가능한 모든 주행 경로를 생성했습니다. 또한 저자는 nuScenes 데이터 세트에서 자율주행차 궤적을 클러스터링하고 대표적인 주행 경로를 선택하여 시뮬레이션 궤적의 일부로 사용했습니다.
마지막으로 오프라인 QA 생성 프로세스에서 다양한 상황별 정보를 결합하여 작성자는 장면 설명, 주의 대상 인식, 반사실적 추론 및 의사결정 계획을 포함한 여러 유형의 QA 쌍을 생성할 수 있습니다. GPT-4는 시뮬레이션과 전문가의 궤적을 기반으로 위협 개체를 식별하고, 주행 경로의 안전성을 추론하여 합리적인 운전 제안을 제공할 수 있습니다.
온라인 질문 답변
자율 운전 데이터 세트의 3D 인식 주석을 최대한 활용하기 위해 저자는 훈련 과정에서 온라인으로 수많은 위치 지정 작업을 생성했습니다. 이러한 작업은 다음을 포함하여 모델의 3D 공간 이해 및 추론 기능을 향상시키기 위해 설계되었습니다.
- 2D에서 3D 현지화: 특정 카메라에 2D 경계 상자가 주어지면 모델은 해당 객체의 3D 속성을 제공해야 합니다. 카테고리, 위치, 크기, 방향 및 속도를 포함합니다.
- 3D 거리: 무작위로 생성된 3D 좌표를 기반으로 대상 위치 근처의 교통 요소를 식별하고 3D 속성을 제공합니다.
- 차선에서 객체로: 무작위로 선택된 차선 중심선을 기준으로 해당 차선의 모든 객체와 해당 3D 속성을 나열합니다.
Metrics
OmniDrive-nuScenes 데이터 세트에는 장면 설명, 개방 루프 계획 및 반사실 추론 작업이 포함됩니다. 각 작업은 다양한 측면에 중점을 두므로 단일 지표를 사용하여 평가하기가 어렵습니다. 따라서 저자는 다양한 작업에 대해 서로 다른 평가 기준을 설계했습니다.
장면 설명 관련 작업(예: 장면 설명, 주의 객체 선택)에서 저자는 METEOR, ROUGE, CIDEr 등 일반적으로 사용되는 언어 평가 지표를 사용하여 문장 유사성을 평가합니다. 개루프 계획 작업에서 저자는 충돌률과 도로 경계 교차율을 사용하여 모델 성능을 평가했습니다. 반사실적 추론 작업을 위해 저자는 GPT-3.5를 사용하여 예측에서 키워드를 추출하고 이러한 키워드를 지상 진실과 비교하여 다양한 사고 범주에 대한 정밀도와 재현율을 계산합니다.
실험 결과
위 표는 반사실 추론 성능 평가, 개방 루프 계획 등 계획 관련 작업에 대한 절제 연구 결과를 보여줍니다.
전체 모델인 Q-Former3D는 반사실적 추론과 개방 루프 계획 작업 모두에서 뛰어난 성능을 발휘합니다. 반사실적 추론 작업에서 모델은 "빨간 신호등 위반" 및 "접근 가능 영역 위반" 범주 모두에서 각각 57.6%/58.3% 및 48.5%/58.6%의 높은 정밀도와 재현율을 보여주었습니다. 동시에 이 모델은 '충돌' 카테고리에서 가장 높은 재현율(72.6%)을 달성했습니다. 개루프 계획 작업에서 Q-Former3D는 평균 충돌률과 도로 경계 교차율 모두에서 각각 3.79%와 4.59%에 도달하여 좋은 성능을 보였습니다.
온라인 훈련 데이터(No Online)를 제거한 후, 반사실 추론 작업에서 "빨간불 위반" 범주의 회상률은 증가했지만(65.6%) 전반적인 성능은 약간 감소했습니다. 충돌 및 통과 가능 영역 위반의 정밀도 및 재현율은 전체 모델보다 약간 낮은 반면, 개루프 계획 작업의 평균 충돌률은 4.93%로 증가했으며, 평균 도로 경계 횡단률은 4.02%로 떨어졌습니다. , 이는 온라인 훈련 데이터의 중요성을 모델의 전반적인 계획 성능 향상의 중요성에 반영합니다.
건축 절제 실험에서 Q-Former2D 버전은 "Red Light Violation" 카테고리에서 가장 높은 정밀도(58.3%)와 높은 재현율(61.1%)을 달성했지만, 다른 카테고리에서는 성능이 전체만큼 좋지 않았습니다. 특히 "충돌" 및 "접근 가능한 지역 위반" 카테고리에 대한 리콜이 크게 감소했습니다. 개루프 계획 작업에서 평균 충돌률과 도로 경계 교차율은 각각 3.98%와 6.03%로 전체 모델보다 높았습니다.
Dense BEV 아키텍처를 사용하는 모델은 모든 범주의 반사실적 추론 작업에서 더 나은 성능을 발휘하지만 전체 재현율은 낮습니다. 개방형 계획 작업에서 평균 충돌률과 도로 경계 교차율은 각각 4.43%와 8.56%에 달했습니다.
시간적 모듈이 제거되면(No Temporal) 반사실적 추론 작업에서 모델의 성능이 크게 떨어지며, 특히 평균 충돌률은 6.07%로 증가하고 도로 경계 통과율은 5.83%에 도달합니다.
지각 감독 측면에서 차선 선 감독(차선 없음)을 제거한 후 "충돌" 범주의 모델 재현율이 크게 감소한 반면, 다른 범주의 반사실 추론 작업 및 개방 루프 계획 작업의 성능은 비교적 안정적인. 객체 및 차선에 대한 3D 인식 감독(No Object & Lane)을 완전히 제거한 후, 반사실적 추론 작업의 각 범주에 대한 정확도와 재현율이 감소했으며, 특히 "충돌" 범주의 재현율이 53.2%로 떨어졌습니다. 개루프 계획 작업에서 평균 충돌률과 도로 경계 교차율은 각각 6.77%와 8.43%로 증가하여 전체 모델보다 상당히 높았습니다.
위의 실험 결과에서 볼 수 있듯이 완전한 모델은 반사실 추론 및 개방 루프 계획 작업에서 잘 수행됩니다. 온라인 훈련 데이터, 시간 모듈, 차선 및 객체에 대한 3D 인식 감독은 모델 성능을 향상시키는 데 중요한 역할을 합니다. 전체 모델은 효율적인 계획 및 의사 결정을 위해 다중 모드 정보를 효과적으로 활용할 수 있으며, 절제 실험 결과는 자율 주행 작업에서 이러한 구성 요소의 핵심 역할을 추가로 검증합니다.
동시에 NuScenes-QA의 성능을 살펴보겠습니다. 이는 개방 루프 계획 작업에서 OmniDrive의 성능을 보여주고 이를 기존의 다른 방법과 비교합니다. 결과에 따르면 OmniDrive++(풀 버전)는 모든 지표, 특히 개루프 계획의 평균 오류, 충돌률 및 도로 경계 교차율에서 다른 방법보다 우수한 성능을 달성하는 것으로 나타났습니다.
OmniDrive++ 성능: OmniDrive++ 모델은 예측 시간 1초, 2초, 3초에서 각각 0.14, 0.29, 0.55미터의 L2 평균 오차를 가지며, 최종 평균 오차는 0.33미터에 불과합니다. 또한 본 모델의 평균 충돌률과 평균 도로경계 교차율도 각각 0.30%, 3.00%에 달해 다른 방법에 비해 훨씬 낮은 수치를 보였다. 특히 충돌률 측면에서 OmniDrive++는 1초와 2초 예측 기간 모두에서 충돌률 0을 달성하여 뛰어난 계획 및 장애물 회피 기능을 완벽하게 입증했습니다.
다른 방법과의 비교: UniAD, BEV-Planner++ 및 Ego-MLP와 같은 다른 고급 벤치마크 모델과 비교하여 OmniDrive++는 모든 주요 지표에서 더 나은 성능을 발휘합니다. UniAD가 고급 명령과 차량 상태 정보를 사용할 때 L2 평균 오류는 0.46m인 반면, OmniDrive++는 동일한 설정에서 0.33m의 훨씬 낮은 오류를 나타냅니다. 동시에 OmniDrive++의 충돌률과 도로 경계 교차율도 UniAD보다 현저히 낮으며, 특히 충돌률이 거의 절반으로 감소합니다.
BEV-Planner++와 비교하여 OmniDrive++의 L2 오류는 모든 예측 기간에서 크게 감소하며, 특히 3초 예측 기간에서는 오류가 0.57미터에서 0.55미터로 감소합니다. 동시에 충돌률과 도로 경계 교차율 측면에서도 OmniDrive++가 BEV-Planner++보다 우수합니다. 충돌률은 0.34%에서 0.30%로, 도로 경계 교차율은 3.16%에서 3.00%로 감소했습니다.
절제 실험: OmniDrive 아키텍처의 주요 모듈이 성능에 미치는 영향을 추가로 평가하기 위해 저자는 OmniDrive 모델의 다양한 버전의 성능도 비교했습니다. OmniDrive(고급 명령 및 자차 상태 정보를 사용하지 않음)는 예측 오류, 충돌률, 도로 경계 교차율 측면에서 완전 모델에 비해 현저히 열등하며, 특히 3초 예측 기간에 L2 오류가 도달함 2.84미터, 평균 충돌률은 3.79%에 달합니다.
OmniDrive 모델만 사용했을 때(고급 명령 및 차량 상태 정보 제외) 예측 오류, 충돌률, 도로 경계 교차율이 개선되었으나, 완성 모델과 비교하면 여전히 격차가 있습니다. 이는 상위 명령과 자가 차량 상태 정보의 통합이 모델의 전반적인 계획 성능 향상에 중요한 영향을 미친다는 것을 보여준다.
전체적으로 실험 결과는 개방 루프 계획 작업에서 OmniDrive++의 탁월한 성능을 명확하게 보여줍니다. OmniDrive++는 다중 모드 정보, 상위 수준 명령 및 자가 차량 상태 정보를 통합하여 복잡한 계획 작업에서 보다 정확한 경로 예측과 낮은 충돌률 및 도로 경계 교차율을 달성하여 강력한 자율 주행 계획 및 의사 결정을 위한 정보를 제공합니다. 지원하다.
Discussion
저자가 제안한 OmniDrive 에이전트와 OmniDrive-nuScenes 데이터세트는 다중 모드 대형 모델 분야에 새로운 패러다임을 제시하며, 3D 환경에서 주행 문제를 해결하고 이러한 모델 평가는 포괄적인 벤치마크를 제공합니다. 그러나 각각의 새로운 방법과 데이터 세트에는 장점과 단점이 있습니다.
OmniDrive 에이전트는 2D 사전 훈련과 3D 미세 조정이라는 2단계 훈련 전략을 제안합니다. 2D 사전 학습 단계에서는 LLaVA v1.5의 이미지-텍스트 쌍 데이터 세트를 사용하여 Q-Former 및 캐리어 쿼리를 사전 학습함으로써 이미지 특징과 대규모 언어 모델 간의 더 나은 정렬이 달성됩니다. 3차원 미세 조정 단계에서는 모델의 3차원 위치 파악 능력을 향상시키기 위해 3차원 위치 정보 인코딩과 시간 모듈을 도입합니다. LoRA를 활용하여 시각적 인코더와 언어 모델을 미세 조정함으로써 OmniDrive는 2D 의미론에 대한 이해를 유지하는 동시에 3D 위치 파악 능력을 향상시킵니다. 이 단계적 훈련 전략은 다중 모드 대형 모델의 잠재력을 완전히 활용하여 3D 주행 시나리오에서 더 강력한 인식, 추론 및 계획 기능을 제공합니다. 반면, OmniDrive-nuScenes는 대형 모델 구동 능력을 평가하기 위해 특별히 설계된 새로운 벤치마크입니다. 완전히 자동화된 QA 생성 프로세스는 인식부터 계획까지 다양한 작업을 다루는 GPT-4를 통해 고품질 질문-답변 쌍을 생성합니다. 또한 온라인으로 생성된 포지셔닝 작업은 모델에 대한 암시적 데이터 향상을 제공하여 3D 환경을 더 잘 이해하는 데 도움이 됩니다. 이 데이터 세트의 장점은 모델의 인식 및 추론 능력을 테스트할 뿐만 아니라 장기적인 문제를 통해 모델의 공간 이해 및 계획 능력을 평가한다는 것입니다. 이 포괄적인 벤치마크는 미래의 다중 모드 대형 모델 개발을 위한 강력한 지원을 제공합니다.
그러나 OmniDrive 에이전트와 OmniDrive-nuScenes 데이터세트에도 몇 가지 단점이 있습니다. 첫째, OmniDrive 에이전트는 3D 미세 조정 단계에서 전체 모델을 미세 조정해야 하므로 훈련 리소스 요구 사항이 높아 훈련 시간과 하드웨어 비용이 크게 늘어납니다. 또한 OmniDrive-nuScenes의 데이터 생성은 질문의 품질과 다양성을 보장하지만 생성된 질문이 강력한 자연어 기능을 갖춘 모델에 더 기울어지게 만들어 GPT-4에 전적으로 의존합니다. 실제 운전 능력보다는 언어 특성에 따라 벤치마크 테스트에 더 의존합니다. OmniDrive-nuScenes는 포괄적인 QA 벤치마크를 제공하지만 운전 시나리오에 대한 적용 범위는 여전히 제한적입니다. 데이터세트에 포함된 교통 규칙 및 계획 시뮬레이션은 nuScenes 데이터세트에만 기반을 두고 있기 때문에 생성된 문제가 현실 세계의 다양한 운전 시나리오를 완벽하게 표현하기가 어렵습니다. 또한 데이터 생성 프로세스의 고도로 자동화된 특성으로 인해 생성된 질문은 필연적으로 데이터 편향 및 신속한 설계의 영향을 받습니다.
결론
저자가 제안한 OmniDrive 에이전트와 OmniDrive-nuScenes 데이터세트는 3D 운전 장면의 다중 모드 대형 모델 연구에 새로운 관점과 평가 벤치마크를 제공합니다. OmniDrive 에이전트의 2단계 훈련 전략은 2D 사전 훈련과 3D 미세 조정을 성공적으로 결합하여 인식, 추론 및 계획이 뛰어난 모델을 만듭니다. 새로운 QA 벤치마크인 OmniDrive-nuScenes는 대형 주행 모델을 평가하기 위한 포괄적인 지표를 제공합니다. 그러나 모델의 교육 리소스 요구 사항을 최적화하고, 데이터 세트 생성 프로세스를 개선하고, 생성된 질문이 실제 운전 환경을 보다 정확하게 나타내도록 하려면 추가 연구가 여전히 필요합니다. 전반적으로, 저자의 방법과 데이터 세트는 운전 분야에서 다중 모드 대형 모델 연구를 발전시키는 데 큰 의미가 있으며 향후 작업을 위한 견고한 기반을 마련합니다.
위 내용은 LLM이 모두 완료되었습니다! OmniDrive: 3D 인식 및 추론 계획 통합(NVIDIA 최신)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

지난 달에는 몇 가지 잘 알려진 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSDV12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다. End-to-End 자율주행 시스템을 어떻게 정의하고, End-to-End 해결을 위해 어떤 문제가 예상되나요? 가장 전통적인 정의에 따르면, 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 다양한 센서(카메라/LiDAR)로부터 데이터를 입력받아

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라
