최근 제너레이티브 AI 기술의 등장으로 많은 신차 제조사들은 시각 언어 모델과 월드 모델의 새로운 방식을 모색하고 있으며, 엔드 투 엔드 지능형 주행 신기술이 공통적인 연구 방향이 된 것 같습니다. 지난달 Li Auto는 엔드투엔드 + VLM 시각 언어 모델 + 월드 모델의 3세대 자율주행 기술 아키텍처를 출시했습니다. 이 아키텍처는 내부 테스트를 위해 수천 명에게 푸시되었으며, 지능적인 운전 행동을 의인화하고, AI의 정보 처리 효율성을 향상시키며, 복잡한 도로 상황을 이해하고 대응하는 능력을 향상시킵니다. Li Xiang은 공개 공유에서 대부분의 알고리즘이 식별하고 처리하기 어려운 희귀한 운전 환경에 직면하여 VLM(Visual Language Model)이 체계적으로 자율 주행 기능을 향상시킬 수 있다고 말한 적이 있습니다. 이 방법은 이론적으로 획기적인 발전을 이룰 수 있습니다. .
신세대 자율주행 시스템은 능력의 상한을 크게 높여 과거에 해결하기 어려웠던 많은 상황을 AI가 처리할 수 있게 했고, 한계를 낮추어 기술 R&D 규모의 필요성을 줄였습니다. 가까운 미래에 더 많은 사람들이 운전할 수 있게 될 것으로 예상됩니다. 앞으로 크게 향상된 경험을 얻으십시오.아이디알은 지난해 하반기부터 전략을 조정하고 궤도를 바꾸기 시작했다. 올해 2월 칭화대학교 교차정보연구소와 Li Auto가 제출한 DriveVLM 논문에서 연구자들은 최근 생성 AI 분야에서 등장한 시각언어모델(VLM)을 적용해 시각적 이해와 추론에서 탁월한 능력을 입증했다. .
업계에서는 주류 자율주행 파이프라인과 대형 모델 파이프라인을 논리적 사고와 완벽하게 결합한 방식으로 자율주행 속도 시스템을 제안한 최초의 작업이며, 최종 테스트의 대형 모델 작업을 완료한 최초의 작업입니다. 배포(NVIDIA Orin 플랫폼 기반).
DriveVLM 시스템DriveVLM은 세 가지 주요 모듈이 있는 CoT(사슬 연결) 프로세스로 구성됩니다.
이러한 모듈은 기존 자율 주행 시스템 프로세스의 인식, 예측 및 계획 구성 요소에 해당합니다. 차이점은 지금까지 매우 어려웠던 객체 인식, 의도 수준 예측 및 작업 수준 계획을 처리하는 능력에 있습니다. 과거.
기술 검증
이상 검증 기술은 롱테일 시나리오에 효과적입니다.
실제 적용
Li Auto의 엔드투엔드 모델과 VLM 모델이 실시간으로 실행됩니다.
복잡한 도시에서 VLM은 의사결정이 불가능한 상황에서 역할을 하며 의사결정 결과와 궤적을 엔드투엔드 모델에 전달합니다.
엔드 투 엔드 접근 방식
엔드 투 엔드 접근 방식은 AI의 실제 사용이 시작되는 기술적 분수령이 되었습니다.
신세대 AI 모델
신세대 AI 모델은 질문 메이커 역할을 할 수 있습니다.
컴퓨팅 파워 챌린지
자동차 측의 VLM 및 기타 모델 배포는 컴퓨팅 성능 문제에 직면합니다.
경쟁 전망
Tesla FSD는 곧 국내 지능형 운전 분야 진출 새로운 경쟁 무대 진입 :
위 내용은 L3 늦어도 내년 상반기 출시 예정: 이상적인 엔드투엔드 자율주행과 대폭 향상된 성능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!