L3 늦어도 내년 상반기 출시 예정: 이상적인 엔드투엔드 자율주행과 대폭 향상된 성능

PHPz
풀어 주다: 2024-08-07 04:35:32
원래의
531명이 탐색했습니다.

최근 제너레이티브 AI 기술의 등장으로 많은 신차 제조사들은 시각 언어 모델과 월드 모델의 새로운 방식을 모색하고 있으며, 엔드 투 엔드 지능형 주행 신기술이 공통적인 연구 방향이 된 것 같습니다. 지난달 Li Auto는 엔드투엔드 + VLM 시각 언어 모델 + 월드 모델의 3세대 자율주행 기술 아키텍처를 출시했습니다. 이 아키텍처는 내부 테스트를 위해 수천 명에게 푸시되었으며, 지능적인 운전 행동을 의인화하고, AI의 정보 처리 효율성을 향상시키며, 복잡한 도로 상황을 이해하고 대응하는 능력을 향상시킵니다. Li Xiang은 공개 공유에서 대부분의 알고리즘이 식별하고 처리하기 어려운 희귀한 운전 환경에 직면하여 VLM(Visual Language Model)이 체계적으로 자율 주행 기능을 향상시킬 수 있다고 말한 적이 있습니다. 이 방법은 이론적으로 획기적인 발전을 이룰 수 있습니다. .

L3 늦어도 내년 상반기 출시 예정: 이상적인 엔드투엔드 자율주행과 대폭 향상된 성능

신세대 자율주행 시스템은 능력의 상한을 크게 높여 과거에 해결하기 어려웠던 많은 상황을 AI가 처리할 수 있게 했고, 한계를 낮추어 기술 R&D 규모의 필요성을 줄였습니다. 가까운 미래에 더 많은 사람들이 운전할 수 있게 될 것으로 예상됩니다. 앞으로 크게 향상된 경험을 얻으십시오.
이 자율 주행 기술 아키텍처 세트는 노벨상 수상자 Daniel Kahneman의 빠르고 느린 시스템 이론에서 영감을 얻었습니다. 자율 주행 분야에서 인간의 사고와 의사 결정 프로세스를 시뮬레이션하려면 "빠른 시스템"과 "느린 시스템"이 필요합니다. . 그 중:
・ 빠른 시스템(시스템 1)은 간단한 작업을 처리하는 데 능숙하며 자율 주행의 경험과 습관을 기반으로 형성된 인간의 직관으로, 인식과 계획을 포함한 엔드투엔드 대형 모델로 구성됩니다. 이는 차량을 운전할 때 발생하는 문제의 95%를 처리하기에 충분합니다.
・ 느린 시스템(시스템 2)은 자율 주행 시스템에 대한 더 깊은 이해와 학습을 통해 인간이 형성한 논리적 추론, 복잡한 분석 및 컴퓨팅 능력으로, 복잡하거나 심지어 알려지지 않은 문제를 해결하는 데 주로 사용되는 VLM 모델입니다. 차량 운전 시 문제 교통 장면은 일상 운전 장면의 약 5%를 차지합니다.
지난 주 Li Auto의 베이징 R&D 본부에서 열린 행사에서 Li Auto의 지능형 운전 부사장 Lang Xianpeng은 Li Auto의 지능형 운전이 이제 엔드 투 엔드 + 대형 모델 솔루션에 완전히 통합되어 차량이 다음을 수행할 수 있게 되었다고 강조했습니다. 복잡한 도로 상황과 교통 규칙을 이해합니다.
"엔드 투 엔드 및 전통적인 인식 의사 결정 모델 모두 훈련을 위해 많은 양의 데이터가 필요합니다. 한 가지 잠재적인 문제는 시스템이 보이지 않는 장면을 만나면 제대로 작동하지 않는다는 것입니다."라고 Lang Xianpeng은 말했습니다. "우리는 인간처럼 생각하고 결정을 내리는 자동차의 능력을 탐구하고 있습니다.

L3 늦어도 내년 상반기 출시 예정: 이상적인 엔드투엔드 자율주행과 대폭 향상된 성능

Li Auto Beijing Headquarters."

아이디알은 지난해 하반기부터 전략을 조정하고 궤도를 바꾸기 시작했다. 올해 2월 칭화대학교 교차정보연구소와 Li Auto가 제출한 DriveVLM 논문에서 연구자들은 최근 생성 AI 분야에서 등장한 시각언어모델(VLM)을 적용해 시각적 이해와 추론에서 탁월한 능력을 입증했다. .

업계에서는 주류 자율주행 파이프라인과 대형 모델 파이프라인을 논리적 사고와 완벽하게 결합한 방식으로 자율주행 속도 시스템을 제안한 최초의 작업이며, 최종 테스트의 대형 모델 작업을 완료한 최초의 작업입니다. 배포(NVIDIA Orin 플랫폼 기반).

L3 늦어도 내년 상반기 출시 예정: 이상적인 엔드투엔드 자율주행과 대폭 향상된 성능

DriveVLM 시스템

DriveVLM은 세 가지 주요 모듈이 있는 CoT(사슬 연결) 프로세스로 구성됩니다.

  1. Scenario 설명: 언어를 사용하여 운전 환경을 설명하고 주요 개체를 식별합니다.
  2. 시나리오 분석: 주요 물체의 특성과 그것이 자아 차량에 미치는 영향을 자세히 알아보세요.
  3. 계층적 계획: 메타 액션 및 결정 설명부터 웨이포인트까지 단계별 계획 개발.

이러한 모듈은 기존 자율 주행 시스템 프로세스의 인식, 예측 및 계획 구성 요소에 해당합니다. 차이점은 지금까지 매우 어려웠던 객체 인식, 의도 수준 예측 및 작업 수준 계획을 처리하는 능력에 있습니다. 과거.

기술 검증

이상 검증 기술은 롱테일 시나리오에 효과적입니다.

  • 실제 환경 데이터 분해
  • 생성 모델을 사용하여 새로운 관점 보완
  • 날씨, 시간, 교통 흐름 및 기타 조건에 대한 변경 사항 사용자 정의

실제 적용

Li Auto의 엔드투엔드 모델과 VLM 모델이 실시간으로 실행됩니다.

  • 엔드투엔드 모델: 더 높은 프레임 속도
  • VLM 모델: 더 많은 수의 매개변수, 더 낮은 프레임 속도

복잡한 도시에서 VLM은 의사결정이 불가능한 상황에서 역할을 하며 의사결정 결과와 궤적을 엔드투엔드 모델에 전달합니다.

엔드 투 엔드 접근 방식

엔드 투 엔드 접근 방식은 AI의 실제 사용이 시작되는 기술적 분수령이 되었습니다.

신세대 AI 모델

신세대 AI 모델은 질문 메이커 역할을 할 수 있습니다.

  • 자가용 자동차 운전자의 기준을 충족하는 사용자의 데이터를 "진짜 질문"으로 선택
  • 세계와 결합 "시뮬레이션 질문"을 생성하는 모델

컴퓨팅 파워 챌린지

자동차 측의 VLM 및 기타 모델 배포는 컴퓨팅 성능 문제에 직면합니다.

  • 최적의 매개변수 수 유지
  • 엔지니어링 최적화로 의사결정 대기 시간 개선

경쟁 전망

Tesla FSD는 곧 국내 지능형 운전 분야 진출 새로운 경쟁 무대 진입 :

  • 이상차 목표 : End to End + VLM 자율주행 양산 납품

위 내용은 L3 늦어도 내년 상반기 출시 예정: 이상적인 엔드투엔드 자율주행과 대폭 향상된 성능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!