데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?-일체 포함-php.cn

위 작성 및 저자의 개인적인 이해

데이터 세트 획득, 설정 및 주요 기능

폐쇄 루프 데이터 기반 자율 주행 시스템

SOTA 폐쇄 루프 자율주행 파이프라인

Generative AI 기반의 고충실도 AD 데이터 생성 및 시뮬레이션

실증적 연구

토론

결론

집

기술 주변기기

일체 포함

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

PHPz

Feb 02, 2024 pm 12:03 PM

모델 자율주행 압축 기술 에뮬레이터

위 작성 및 저자의 개인적인 이해

차세대 자율주행 기술은 지능형 인식, 예측, 계획 및 하위 수준 제어 간의 전문적인 통합 및 상호 작용에 의존할 것으로 예상됩니다. 자율주행 알고리즘 성능의 상한선에는 늘 큰 병목 현상이 있어왔다. 병목 현상을 극복할 수 있는 열쇠는 데이터 중심의 자율주행 기술에 있다는 점에 학계와 업계는 동의한다. AD 시뮬레이션, 폐쇄 루프 모델 교육 및 AD 빅 데이터 엔진은 최근 몇 가지 귀중한 경험을 얻었습니다. 그러나 AD 알고리즘의 자체 진화와 더 나은 AD 빅데이터 축적을 실현하기 위해 효율적인 데이터 중심 AD 기술을 구축하는 방법에 대한 체계적인 지식과 깊은 이해가 부족합니다. 이러한 연구 공백을 메우기 위해 여기서는 주로 이정표, 주요 기능, 데이터 수집 설정 등을 포함한 자율 주행 데이터 세트의 포괄적인 분류에 중점을 두고 최신 데이터 기반 자율 주행 기술에 세심한 주의를 기울일 것입니다. 또한, 폐쇄 루프 프레임워크의 프로세스, 핵심 기술 및 실증적 연구를 포함하여 업계 최전선의 기존 벤치마크 폐쇄 루프 AD 빅 데이터 파이프라인에 대한 체계적인 검토를 수행했습니다. 마지막으로 향후 개발 방향, 잠재적인 적용, 한계 및 우려 사항에 대해 논의하여 자율 주행의 추가 개발을 촉진하기 위한 학계와 업계의 공동 노력을 이끌어냅니다.

요약하면 주요 기여는 다음과 같습니다.

마일스톤 세대, 모듈 작업, 센서 제품군 및 주요 기능별로 분류된 자율 주행 데이터 세트의 최초 종합 분류법을 소개합니다.
딥 러닝 및 생성 인공 지능 모델을 기반으로, 가장 발전된 폐쇄 루프 데이터 기반 자율 주행 파이프라인 및 관련 핵심 기술에 대한 체계적인 검토
폐쇄 루프 빅 데이터 기반 파이프라인이 자율 주행 산업 응용 분야에서 어떻게 작동하는지에 대한 실증적 연구를 제공합니다. 현재
과 솔루션의 장단점, 그리고 데이터 중심 자율주행의 향후 연구 방향.

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

SOTA 자율 주행 데이터 세트: 분류 및 진화

자율 주행 데이터 세트의 진화는 기술 발전과 해당 분야의 성장하는 야망을 반영합니다. 20세기 말 University of California, Berkeley의 Institute of Advancement와 PATH 프로그램의 초기 AVT 연구는 기본 센서 데이터의 토대를 마련했지만 시대의 기술 수준에 의해 제한되었습니다. 지난 20년 동안 센서 기술, 컴퓨팅 성능 및 정교한 기계 학습 알고리즘의 발전을 통해 상당한 발전을 이루었습니다. 2014년 SAE(Society of Automotive Engineers)에서는 체계적인 6단계(L0-L5) 자율주행 시스템을 대중에게 발표했으며, 이는 자율주행 연구개발의 진전으로 널리 인정받고 있습니다. 딥 러닝에 힘입어 컴퓨터 비전 기반 방법이 지능적인 인식을 지배해 왔습니다. 심층 강화 학습과 그 변형은 지능형 계획 및 의사 결정에 중요한 개선을 제공합니다. 최근 LLM(대형 언어 모델)과 VLM(시각 언어 모델)은 강력한 장면 이해, 운전 행동 추론 및 예측, 지능적인 의사 결정 능력을 입증하며 자율 주행의 미래 발전을 위한 새로운 가능성을 열어주었습니다.

자율 주행 데이터 세트의 마일스톤 개발

그림 2는 오픈 소스 자율 주행 데이터 세트의 마일스톤 개발을 시간순으로 보여줍니다. 상당한 진전으로 인해 주류 데이터 세트가 3세대로 분류되었으며, 이는 데이터 세트 복잡성, 볼륨, 장면 다양성 및 주석 세분화가 크게 도약하여 해당 분야를 기술 성숙도의 새로운 지평으로 끌어올렸습니다. 구체적으로 가로축은 개발 일정을 나타냅니다. 각 행의 헤더에는 데이터 세트 이름, 센서 양식, 적합한 작업, 데이터 수집 위치 및 관련 문제가 포함됩니다. 여러 세대에 걸쳐 데이터 세트를 추가로 비교하기 위해 서로 다른 색상의 막대 차트를 사용하여 인지된 데이터 세트 크기와 예측/계획된 데이터 세트 크기를 시각화합니다. KITTI와 Cityscapes가 주도한 2012년에 시작된 1세대 초기 단계는 인식 작업을 위한 고해상도 이미지를 제공했으며 비전 알고리즘의 벤치마크 발전을 위한 기초가 되었습니다. 2세대로 발전하면서 NuScenes, Waymo, Argoverse 1 등의 데이터 세트는 다중 센서 방식을 도입하여 차량 카메라, 고정밀 지도(HD Map), LiDAR, 레이더, GPS, IMU, 궤적 및 주변 물체를 함께 통합하는 것은 포괄적인 운전 환경 모델링 및 의사 결정 프로세스에 중요합니다. 최근에는 NuPlan, Argoverse 2 및 Lyft L5가 영향력의 기준을 크게 높여 전례 없는 데이터 규모를 제공하고 최첨단 연구에 도움이 되는 생태계를 육성했습니다. 대규모 크기와 다중 모드 센서 통합이 특징인 이러한 데이터 세트는 인식, 예측 및 계획 작업을 위한 알고리즘을 개발하고 고급 End2End 또는 하이브리드 자율 주행 모델의 기반을 마련하는 데 중요한 역할을 했습니다. 2024년에는 3세대 자율주행 데이터세트를 선보일 예정입니다. VLM, LLM 및 기타 3세대 인공 지능 기술이 지원되는 3세대 데이터 세트는 데이터 롱테일 배포 문제, 배포 외 감지, 코너케이스 분석 등

데이터 세트 획득, 설정 및 주요 기능

표 1에는 운전 시나리오, 센서 제품군 및 주석을 포함하여 매우 영향력 있는 인식 데이터 세트의 데이터 획득 및 주석 설정이 요약되어 있습니다. 날씨/총 시간 수/운전 조건 카테고리를 보고합니다. , 날씨에는 일반적으로 맑음/흐림/안개/비/눈/기타(극한 조건)가 포함됩니다. 하루 중 시간에는 일반적으로 아침, 오후, 저녁이 포함됩니다. 운전 조건에는 일반적으로 도시 거리, 간선도로, 시골 지역, 고속도로가 포함됩니다. , 터널, 주차장 등 시나리오가 다양할수록 데이터 세트는 더욱 강력해집니다. 또한 (아시아), EU(유럽), NA(북미), SA(남아메리카), AU(호주), AF(아프리카)로 표시되는 데이터 세트가 수집된 지역을 보고합니다. Mapillary는 AS/EU/NA/SA/AF/AF를 통해 수집되고, DAWN은 Google 및 Bing 이미지 검색 엔진에서 수집된다는 점은 주목할 만합니다. 센서 제품군의 경우 카메라, LiDAR, GPS 및 IMU 등을 살펴보았습니다. 표 1의 FV와 SV는 각각 Front View Camera와 Street View Camera의 약어이다. 360° 파노라마 카메라 설정은 일반적으로 여러 대의 전면 카메라, 희귀 뷰 카메라, 측면 뷰 카메라로 구성됩니다. AD 기술의 발전에 따라 데이터 세트에 포함되는 센서의 종류와 개수가 늘어나고, 데이터 패턴도 점점 다양해지는 것을 확인할 수 있습니다. 데이터 세트 주석의 경우 초기 데이터 세트에서는 수동 주석 방법을 주로 사용했지만, 최근 NuPlan, Argoverse 2, DriveLM에서는 AD 빅데이터에 대한 자동 주석 기술을 채택했습니다. 우리는 전통적인 수동 주석에서 자동 주석으로의 전환이 미래 데이터 중심 자율주행의 주요 추세라고 믿습니다.

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

예측 및 계획 작업을 위해 표 2에 주류 데이터 세트의 입력/출력 구성 요소, 센서 제품군, 장면 길이 및 예측 길이를 요약합니다. 모션 예측/예측 작업의 경우 입력 구성 요소에는 일반적으로 자체 차량의 과거 궤적, 주변 에이전트의 과거 궤적, 고정밀 지도 및 교통 상태 정보(예: 교통 신호 상태, 도로 ID, 정지 신호 등)가 포함됩니다. ). 목표 출력은 짧은 시간 내에 자가 차량 및/또는 주변 피사체의 가장 가능성이 높은 여러 궤적(예: 상위 5개 또는 상위 10개 궤적)입니다. 모션 예측 작업은 일반적으로 전체 장면을 여러 개의 짧은 시간 창으로 나누기 위해 슬라이딩 시간 창 설정을 채택합니다. 예를 들어 NuScenes는 과거 2초간의 GT 데이터와 고정밀 지도를 활용해 다음 6초의 궤적을 예측하는 반면, Argoverse 2는 과거 5초간의 실측자료와 고정밀 지도를 활용해 다음 6초간의 궤적을 예측한다. 초. NuPlan, CARLA 및 ApoloScape는 가장 널리 사용되는 계획 작업 데이터 세트입니다. 입력 구성요소에는 자체/주변 차량의 과거 궤적, 자체 차량 모션 상태 및 운전 장면 표현이 포함됩니다. NuPlan과 ApoloScape는 실제 환경에서 얻은 반면, CARLA는 시뮬레이션된 데이터세트입니다. CARLA에는 여러 도시에서 시뮬레이션 운전 중에 촬영한 도로 이미지가 포함되어 있습니다. 각 도로 이미지는 조향 각도와 연관되어 있으며, 이는 차량이 적절하게 움직이는 데 필요한 조정을 나타냅니다. 계획의 예측 길이는 다양한 알고리즘의 요구 사항에 따라 달라질 수 있습니다.

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

폐쇄 루프 데이터 기반 자율 주행 시스템

이제 우리는 소프트웨어 및 알고리즘 정의 자율 주행의 이전 시대에서 빅 데이터 기반 및 지능형 모델 협업 자율 주행의 새로운 고무적인 시대로 이동하고 있습니다. . 폐쇄 루프 데이터 기반 시스템은 AD 알고리즘 교육과 실제 애플리케이션/배포 간의 격차를 해소하는 것을 목표로 합니다. 고객이 운전하거나 도로 테스트를 통해 수집한 데이터 세트에 대해 모델을 수동적으로 학습하는 기존의 개방형 루프 접근 방식과 달리 폐쇄형 루프 시스템은 실제 환경과 동적으로 상호 작용합니다. 이 접근 방식은 분포 변화 문제를 해결합니다. 즉, 정적 데이터 세트에서 학습한 동작이 실제 운전 시나리오의 동적 특성으로 변환되지 않을 수 있습니다. 폐쇄 루프 시스템을 통해 AV는 상호 작용을 통해 학습하고 새로운 상황에 적응하여 반복적인 작업 및 피드백 주기를 통해 개선할 수 있습니다.

그러나 실제 데이터 중심 폐쇄 루프 AD 시스템을 구축하는 것은 몇 가지 주요 문제로 인해 여전히 어렵습니다. 첫 번째 문제는 AD 데이터 수집과 관련됩니다. 실제 데이터 수집에서 대부분의 데이터 샘플은 공통/정상 주행 시나리오이며, 곡선 및 비정상 주행 시나리오에 대한 데이터는 수집이 거의 불가능합니다. 둘째, AD 데이터에 대한 정확하고 효율적인 자동 주석 방법을 탐색하려면 더 많은 노력이 필요합니다. 셋째, 도시 환경의 특정 장면에서 AD 모델의 성능 저하 문제를 완화하기 위해서는 장면 데이터 마이닝 및 장면 이해가 강조되어야 합니다.

SOTA 폐쇄 루프 자율주행 파이프라인

자율주행 업계는 대량의 AD 데이터 축적에 따른 과제에 대처하기 위해 통합 빅데이터 플랫폼을 적극적으로 구축하고 있습니다. 이는 데이터 중심 자율주행 시대를 위한 새로운 인프라라 부를 만하다. 최고의 AD 회사/연구 기관에서 개발한 데이터 기반 폐쇄 루프 시스템을 조사한 결과 다음과 같은 몇 가지 공통점을 발견했습니다.

이러한 파이프라인은 일반적으로 (I) 데이터 획득, (II) 데이터 저장, (III) 데이터 선택 및 전처리, (IV) 데이터 주석, (V) AD 모델 교육, (VI)을 포함한 워크플로 주기를 따릅니다. 시뮬레이션/테스트 검증 및 (VII) 실제 배포.
시스템 내의 폐쇄 루프 설계를 위해 기존 솔루션은 "데이터 폐쇄 루프"와 "모델 폐쇄 루프"를 별도로 설정하거나 "R&D 단계 폐쇄 루프" 및 "배포 단계"와 같은 다양한 주기 단계를 설정하도록 선택합니다. 폐쇄 루프".
또한 업계에서는 실제 AD 데이터 세트의 장기적인 배포 문제와 코너 케이스 처리의 어려움을 강조했습니다. Tesla와 Nvidia는 이 분야의 업계 선구자이며, 그들의 데이터 시스템 아키텍처는 이 분야의 발전을 위한 중요한 참고 자료를 제공합니다.

NVIDIA MagLev AV 플랫폼 그림 3(왼쪽))은 "수집 → 선택 → 라벨 → 드래곤 훈련"을 프로그램으로 따르는데, 이는 SDC의 능동적 학습을 달성하고 루프에서 지능형 주석을 수행할 수 있는 복제 가능한 워크플로우입니다. MagLev에는 주로 두 개의 폐쇄 루프(pipeline)가 포함되어 있습니다. 첫 번째 주기는 자율주행 데이터를 중심으로 데이터 수집과 지능형 선택을 거쳐 주석과 주석을 거쳐 모델 검색과 훈련을 거치는 것입니다. 그런 다음 훈련된 모델을 평가하고 디버깅한 후 궁극적으로 실제 세계에 배포합니다. 두 번째 폐쇄 루프는 데이터 센터 백본 및 하드웨어 인프라를 포함한 플랫폼의 인프라 지원 시스템입니다. 이 루프에는 보안 데이터 처리, 확장 가능한 DNN 및 시스템 KPI, 추적 및 디버깅을 위한 대시보드가 포함됩니다. AV 개발의 전체 주기를 지원하여 개발 과정에서 실제 데이터와 시뮬레이션 피드백의 지속적인 개선과 통합을 보장합니다.

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

Tesla 자율주행 데이터 플랫폼(그림 3(오른쪽))은 또 다른 대표적인 AD 플랫폼으로, 자율주행 모델의 성능을 크게 향상시키기 위해 빅데이터 기반의 폐쇄 루프 파이프라인 사용을 강조합니다. pipeline일반적으로 Tesla의 차량 학습, 이벤트로 트리거되는 차량 측 데이터 수집 및 섀도우 모드에서 소스 데이터 수집으로 시작됩니다. 수집된 데이터는 데이터 플랫폼 알고리즘이나 인간 전문가에 의해 저장, 관리 및 검토됩니다. 코너 케이스/부정확성이 발견될 때마다 데이터 엔진은 기존 데이터베이스에서 코너 케이스/부정확성과 매우 유사한 데이터 샘플을 검색하고 일치시킵니다. 동시에 시나리오를 복제하고 시스템 응답을 엄격하게 테스트하기 위해 단위 테스트가 개발됩니다. 검색된 데이터 샘플은 자동 주석 알고리즘이나 인간 전문가에 의해 주석이 추가됩니다. 주석이 잘 달린 데이터는 AD 데이터베이스로 다시 피드백되며, AD 데이터베이스는 AD 감지/예측/계획/제어 모델을 위한 새로운 버전의 교육 데이터 세트를 생성하기 위해 업데이트됩니다. 모델 훈련, 검증, 시뮬레이션 및 실제 테스트를 거친 후 더 높은 성능을 갖춘 새로운 AD 모델이 출시 및 배포될 것입니다.

Generative AI 기반의 고충실도 AD 데이터 생성 및 시뮬레이션

실제 세계에서 수집된 대부분의 AD 데이터 샘플은 공통/정상 운전 시나리오이며, 그 중 이미 데이터베이스에 유사한 샘플이 많이 있습니다. 그러나 실제 획득에서 일부 유형의 AD 데이터 샘플을 수집하려면 기하급수적으로 오랜 시간 동안 운전해야 하는데 이는 산업 응용 분야에서는 불가능합니다. 따라서 충실도가 높은 자율주행 데이터 생성 및 시뮬레이션 방법은 학계에서 큰 관심을 끌고 있습니다. CARLA는 다양한 사용자 지정 설정에 따라 자율주행 데이터를 생성할 수 있는 자율주행 연구용 오픈소스 시뮬레이터입니다. CARLA의 강점은 유연성으로 사용자가 다양한 도로 조건, 교통 시나리오 및 기상 역학을 생성할 수 있어 포괄적인 모델 교육 및 테스트를 용이하게 합니다. 그러나 시뮬레이터로서 가장 큰 단점은 도메인 격차입니다. CARLA에서 생성된 AD 데이터는 실제 운전 환경의 역동적이고 복잡한 특성도 완벽하게 표현하지 못합니다.

최근 월드 모델은 보다 발전된 고유 개념과 더욱 유망한 성능을 갖춘 충실도 높은 AD 데이터 생성에 사용되었습니다. 세계 모델은 인식하는 환경의 내부 표현을 구축하고 학습된 표현을 사용하여 환경의 데이터나 이벤트를 시뮬레이션하는 인공 지능 시스템으로 정의할 수 있습니다. 일반 세계 모델의 목표는 성숙한 인간이 현실 세계에서 직면하는 상황과 상호 작용을 표현하고 시뮬레이션하는 것입니다. 자율주행 분야에서 GAIA-1과 DriveDreamer는 세계 모델 기반 데이터 생성의 걸작입니다. GAIA-1은 원본 이미지/비디오를 텍스트 및 작업 프롬프트와 함께 입력으로 사용하여 이미지/비디오-이미지/비디오 생성을 달성하는 생성 인공 지능 모델입니다. GAIA-1의 입력 양식은 통합된 토큰 시퀀스로 인코딩됩니다. 이러한 주석은 후속 이미지 주석을 예측하기 위해 세계 모델 내의 자동 회귀 변환기에 의해 처리됩니다. 그런 다음 비디오 디코더는 이러한 주석을 향상된 시간적 해상도를 갖춘 일관된 비디오 출력으로 재구성하여 동적이고 상황에 맞는 시각적 콘텐츠 생성을 가능하게 합니다. DriveDreamer는 아키텍처에 확산 모델을 혁신적으로 채택하여 실제 운전 환경의 복잡성을 포착하는 데 중점을 둡니다. 2단계 훈련 파이프라인을 통해 먼저 모델이 구조화된 교통 제약 조건을 학습한 다음 미래 상태를 예측하여 자율 주행 애플리케이션에 적합한 환경에 대한 강력한 이해를 보장합니다.

자율 주행 데이터 세트의 자동 라벨링 방법

성공과 신뢰성을 위해서는 고품질 데이터 라벨링이 필수적입니다. 지금까지 데이터 주석

파이프라인은 그림 4와 같이 전통적인 수동 주석부터 반자동 주석, 최첨단 완전 자동 주석 방법까지 세 가지 유형으로 나눌 수 있습니다. 일반적으로 AD 데이터 주석이 간주됩니다. 작업별 /모델로. 워크플로는 주석 작업 및 원본 데이터 세트에 대한 요구 사항을 신중하게 준비하는 것부터 시작됩니다. 그런 다음 다음 단계는 인간 전문가, 자동 주석 알고리즘 또는 End2End 대형 모델을 사용하여 초기 주석 결과를 생성하는 것입니다. 그런 다음 사전 정의된 요구 사항에 따라 인간 전문가 또는 자동화된 품질 확인 알고리즘을 통해 주석 품질을 확인합니다. 이 라운드의 주석 결과가 품질 검사에 실패하면 다시 주석 주기로 전송되고 사전 정의된 요구 사항을 충족할 때까지 이 주석 작업이 반복됩니다. 마지막으로, 미리 만들어진 레이블이 지정된 AD 데이터 세트를 얻을 수 있습니다.

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

자동 주석 방식은 노동 집약적인 수동 주석을 완화하고, AD 데이터 폐쇄 루프 순환의 효율성을 향상시키며, 관련 비용을 절감하는 폐쇄 루프 자율주행 빅데이터 플랫폼의 핵심입니다. 전통적인 자동 라벨링 작업에는 장면 분류 및 이해가 포함됩니다. 최근 BEV 방법의 인기로 인해 AD 데이터 주석에 대한 업계 표준도 지속적으로 개선되고 있으며 자동 주석 작업이 더욱 복잡해졌습니다. 오늘날의 최첨단 산업 시나리오에서 3D 동적 대상의 자동 라벨링과 3D 정적 장면의 자동 라벨링은 일반적으로 사용되는 두 가지 고급 자동 라벨링 작업입니다.

장면 분류 및 이해는 자율주행 빅데이터 플랫폼의 기본입니다. 시스템은 영상 프레임을 운전 장소(거리, 고속도로, 도시 육교, 주요 도로 등)와 장면 날씨(맑음, 날씨) 등 미리 정의된 장면으로 분류합니다. 비오는 날, 눈 오는 날, 안개가 낀 날, 뇌우 등). CNN 기반 방법은 사전 학습 + 미세 조정 CNN 모델, 다중 뷰 및 다중 레이어 CNN 모델, 향상된 장면 표현을 위한 다양한 CNN 기반 모델을 포함하여 장면 분류에 일반적으로 사용됩니다. 장면 이해는 단순한 분류 그 이상입니다. 여기에는 주변 차량 에이전트, 보행자, 신호등과 같은 장면의 동적 요소를 해석하는 작업이 포함됩니다. 이미지 기반 장면 이해 외에도 SemanticKITTI와 같은 LiDAR 기반 데이터 소스도 제공하는 세밀한 기하학적 정보로 인해 널리 채택됩니다.

3차원 동적 객체의 자동 라벨링과 3차원 정적 장면의 자동 라벨링의 출현은 널리 채택되는 순수 전기 자동차 인식 기술의 요구 사항을 충족하기 위한 것입니다. Waymo는 3D 감지기를 사용하여 프레임별로 대상을 찾는 LiDAR 포인트 클라우드 시퀀스 데이터를 기반으로 하는 3D 자동 라벨링 파이프라인을 제안했습니다. 프레임 전체에서 식별된 객체의 경계 상자는 다중 객체 추적기를 통해 연결됩니다. 각 대상별로 대상 궤적 데이터(해당 포인트 클라우드 + 각 프레임의 3D 경계 상자)를 추출하고 분할 정복 아키텍처를 사용하여 대상 중심 자동 레이블링을 수행하여 최종 정제된 3D 경계 상자를 레이블로 생성합니다. Uber가 제안한 Auto4D

파이프라인은 최초로 시공간 규모에서 AD 인식 마커를 탐색합니다. 자율주행 분야에서는 공간 스케일의 3D 타겟 경계 상자 마킹과 시간 스케일의 1D 대응 타임스탬프 마킹을 4D 마킹이라고 합니다. Auto4D 파이프라인은 연속 LiDAR 포인트 클라우드로 시작하여 초기 객체 궤적을 설정합니다. 궤적은 목표 관측치를 사용하여 목표 크기를 인코딩하고 디코딩하는 목표 크기 분기에 의해 구체화됩니다. 동시에 모션 경로 분기는 경로 관찰과 모션을 인코딩하여 경로 디코더가 일정한 목표 크기로 궤적을 세분화할 수 있도록 합니다.

3D 정적 장면 자동 라벨링은 운전 장면의 차선, 도로 경계, 횡단보도, 신호등 및 기타 관련 요소에 라벨을 지정해야 하는 HDMap 생성으로 간주될 수 있습니다. 이 주제에는 MVMap, NeMO와 같은 비전 기반 방법, VMA와 같은 사전 훈련된 3D 장면 재구성 방법, OccBEV, OccNet/ADPT, ALO 등 몇 가지 매력적인 연구 작업이 있습니다. VMA는 3D 정적 장면의 자동 라벨링을 위해 최근 제안된 작업입니다. VMA 프레임워크는 크라우드소싱된 다중 여행 집계 LiDAR 포인트 클라우드를 활용하여 정적 장면을 재구성하고 처리할 단위로 분할합니다. MapTR 기반 단위 주석자는 쿼리 및 디코딩을 통해 원시 입력을 특징 맵으로 인코딩하고 의미론적으로 유형이 지정된 포인트 시퀀스를 생성합니다. VMA의 출력은 벡터화된 지도이며, 이는 폐쇄 루프 주석과 수동 검증을 통해 개선되어 자율 주행을 위한 만족스러운 고정밀 지도를 제공합니다.

실증적 연구

이 기사에서 언급된 고급 폐쇄 루프 AD 데이터 플랫폼을 더 잘 설명하기 위해 실증적 연구를 제공합니다. 전체 프로세스 다이어그램은 그림 5에 나와 있습니다. 이 경우, 연구진의 목표는 Generative AI와 다양한 딥러닝 기반 알고리즘을 기반으로 AD 빅데이터 폐쇄 루프 파이프라인을 개발하여 자율주행 알고리즘 개발 단계와 OTA 업그레이드 단계(실제 이후)를 완료하는 것입니다. 배포) 데이터 폐쇄 루프를 달성합니다. 특히, 생성된 인공 지능 모델은 (1) 엔지니어가 제공한 텍스트 프롬프트를 기반으로 특정 시나리오에 대한 충실도 높은 AD 데이터를 생성하는 데 사용됩니다. (2) AD 빅데이터의 자동 라벨링을 통해 실측 라벨을 효과적으로 준비합니다.

다이어그램은 두 개의 닫힌 루프를 보여줍니다. 더 큰 단계 중 하나는 자율주행 알고리즘 개발 단계로, 합성 자율주행 데이터를 수집하여 인공지능 모델을 생성하고 실제 주행에서 얻은 데이터 샘플을 생성하는 것부터 시작됩니다. 이 두 가지 데이터 소스는 자율 구동 데이터 세트에 통합되어 클라우드에서 마이닝되어 귀중한 통찰력을 얻습니다. 그 후, 데이터 세트는 이중 라벨링 경로, 즉 딥 러닝을 기반으로 한 자동 라벨링 또는 수동 수동 라벨링에 들어가 주석의 속도와 정확성을 보장합니다. 그런 다음 레이블이 지정된 데이터는 고용량 자율 주행 슈퍼컴퓨팅 플랫폼에서 모델을 훈련하는 데 사용됩니다. 이러한 모델은 시뮬레이션과 실제 도로에서 테스트되어 효율성을 평가하고 자율 주행 모델의 출시 및 후속 배포로 이어집니다. 더 작은 단계는 AD 알고리즘의 부정확성/코너 케이스를 수집하기 위한 대규모 클라우드 시뮬레이션 및 실제 테스트를 포함하는 실제 배포 후 OTA 업그레이드 단계를 위한 것입니다. 식별된 부정확성/모퉁이 사례는 모델 테스트 및 업데이트의 다음 반복을 알리는 데 사용됩니다. 예를 들어 터널 주행 시나리오에서 AD 알고리즘의 성능이 좋지 않다는 사실을 발견했다고 가정해 보겠습니다. 식별된 터널 주행 곡선은 즉시 링에 발표되고 다음 반복에서 업데이트됩니다. 생성적 인공지능 모델은 터널 운전 장면에 대한 관련 설명을 텍스트 프롬프트로 사용하여 대규모 터널 운전 데이터 샘플을 생성합니다. 생성된 데이터와 원시 데이터 세트는 시뮬레이션, 테스트 및 모델 업데이트에 제공됩니다. 이러한 프로세스의 반복적 특성은 까다로운 환경과 새로운 데이터에 적응하기 위해 모델을 최적화하고 자율 주행 기능의 높은 정확성과 신뢰성을 유지하는 데 중요합니다.

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

토론

3세대 이상의 새로운 자율 주행 데이터 세트. LLM/VLM과 같은 기본 모델이 언어 이해 및 컴퓨터 비전 분야에서 성공을 거두었지만 자율주행에 직접 적용하는 것은 여전히 어려운 일입니다. 여기에는 두 가지 이유가 있습니다. 한편으로 이러한 LLM/VLM은 멀티 소스 AD 빅데이터(예: FOV 이미지/비디오, LiDAR 클라우드 포인트, 고화질 지도, GPS/IMU 데이터 등), 이는 우리가 일상에서 보는 이미지를 이해하는 것보다 훨씬 더 효율적입니다. 반면, 자율주행 분야의 기존 데이터 규모와 품질은 다른 분야(예: 금융, 의료 등)와 비교할 수 없어 대용량 LLM/VLM의 훈련 및 최적화 지원이 어렵습니다. 자율주행을 위한 빅데이터는 현재 규제, 개인정보 보호 문제, 비용 등으로 인해 규모와 품질이 제한되어 있습니다. 우리는 모든 당사자의 공동 노력으로 차세대 AD 빅데이터가 규모와 품질면에서 크게 향상될 것이라고 믿습니다.

자율 주행 알고리즘을 위한 하드웨어 지원. 현재 하드웨어 플랫폼은 특히 딥 러닝 작업에 필수적인 대규모 병렬 컴퓨팅 성능을 제공하는 GPU 및 TPU와 같은 특수 프로세서의 출현으로 상당한 발전을 이루었습니다. 온보드 및 클라우드 인프라의 고성능 컴퓨팅 리소스는 차량 센서에서 생성된 대규모 데이터 스트림을 실시간으로 처리하는 데 매우 중요합니다. 이러한 발전에도 불구하고 점점 복잡해지는 자율주행 알고리즘을 처리할 때 확장성, 에너지 효율성, 처리 속도에는 여전히 한계가 있습니다. VLM/LLM 안내 사용자-차량 상호 작용은 매우 유망한 적용 사례입니다. 이 애플리케이션을 기반으로 사용자별 행동 빅데이터를 수집할 수 있습니다. 그러나 VLM/LLM 차량 내 장치에는 높은 표준의 하드웨어 컴퓨팅 리소스가 필요하며 대화형 애플리케이션은 대기 시간이 낮을 것으로 예상됩니다. 따라서 향후 경량화, 대규모 자율주행 모델이 나올 수도 있고, LLM/VLM의 압축 기술에 대한 연구가 더 진행될 예정이다.

사용자 행동 데이터를 기반으로 한 맞춤형 자율주행 추천. 스마트 자동차는 스마트 단말기 시나리오에서 단순한 이동수단에서 최신 애플리케이션 확장으로 발전했습니다. 따라서 첨단 자율주행 기능을 갖춘 차량에 대한 기대는 과거의 주행 데이터 기록을 통해 운전 스타일, 경로 선호도 등 운전자의 행동 선호도를 학습할 수 있다는 것입니다. 이를 통해 스마트 자동차는 운전자의 차량 제어, 운전 결정 및 경로 계획을 도와줌으로써 미래에 사용자가 선호하는 차량과 더 잘 조화될 수 있습니다. 우리는 위의 개념을 개인화된 자율주행 추천 알고리즘이라고 부릅니다. 추천 시스템은 전자상거래, 온라인 쇼핑, 음식 배달, 소셜 미디어, 라이브 스트리밍 플랫폼에서 널리 사용되었습니다. 하지만 자율주행 분야에서는 개인화된 추천이 아직 초기 단계입니다. 우리는 가까운 미래에 사용자의 허가와 관련 규정 준수를 통해 사용자의 운전 행동 선호도에 대한 빅 데이터를 수집하여 사용자를 위한 맞춤형 자율 주행 권장 사항을 달성할 수 있도록 보다 적절한 데이터 시스템과 데이터 수집 메커니즘이 설계될 것이라고 믿습니다. .

데이터 보안과 신뢰할 수 있는 자율 주행. 막대한 양의 자율주행 빅데이터는 데이터 보안과 사용자 개인정보 보호에 큰 과제를 안겨줍니다. CAV(Connected Autonomous Vehicles)와 IoV(Internet of Vehicles) 기술이 발전하면서 차량의 연결이 점점 더 많아지고, 운전습관부터 자주 가는 경로까지 상세한 사용자 데이터가 수집되면서 개인정보 오용에 대한 우려가 커지고 있습니다. 수집된 데이터 유형, 보존 정책 및 제3자 공유와 관련하여 투명성이 필요하다고 권장합니다. 이는 "추적 금지" 요청을 존중하고 개인 데이터를 삭제할 수 있는 옵션을 제공하는 등 사용자 동의 및 제어의 중요성을 강조합니다. 자율주행 산업의 경우 혁신을 촉진하는 동시에 이 데이터를 보호하려면 이러한 지침을 엄격히 준수하고 진화하는 개인정보 보호법에 대한 사용자 신뢰와 규정 준수를 보장해야 합니다.

데이터 보안과 개인 정보 보호 외에 또 다른 문제는 신뢰할 수 있는 자율 주행을 어떻게 달성할 것인가입니다. AD 기술의 엄청난 발전으로 지능형 알고리즘과 생성적 인공 지능 모델(예: LLM, VLM)은 점점 더 복잡해지는 운전 결정과 작업을 수행할 때 "추진 요소로 작용"할 것입니다. 이 분야에서는 '인간이 자율주행 모델을 신뢰할 수 있는가?'라는 자연스러운 질문이 제기됩니다. 우리가 보기에 신뢰성의 핵심은 자율주행 모델의 해석 가능성에 있습니다. 그들은 단순히 운전 작업을 수행하는 것이 아니라 인간 운전자에게 결정 이유를 설명할 수 있어야 합니다. LLM/VLM은 실시간으로 진보된 추론과 이해하기 쉬운 설명을 제공함으로써 신뢰도 높은 자율주행을 강화할 것으로 기대된다.

결론

이 설문조사는 빅 데이터 시스템, 데이터 마이닝 및 폐쇄 루프 기술을 포함하여 자율 주행의 데이터 중심 진화에 대한 최초의 체계적인 검토를 제공합니다. 이 설문조사에서는 먼저 마일스톤 생성별로 데이터세트 분류를 개발하고, 과거 타임라인에 걸쳐 AD 데이터세트 개발을 검토하고, 데이터세트 획득, 설정 및 주요 기능을 소개합니다. 또한, 학문적, 산업적 관점에서 폐쇄 루프 데이터 기반 자율 주행 시스템에 대해 자세히 설명합니다. 데이터 중심 폐쇄 루프 시스템의 워크플로우파이프라인, 프로세스 및 핵심 기술에 대해 자세히 논의합니다. 실증적 연구를 통해 알고리즘 개발 및 OTA 업그레이드에서 데이터 중심 폐쇄 루프 AD 플랫폼의 활용률과 장점을 입증합니다. 마지막으로 기존 데이터 기반 자율주행 기술의 장단점과 향후 연구 방향을 종합적으로 논의한다. 새로운 데이터 세트, 하드웨어 지원, 개인화된 AD 추천, 3세대 이후 해석 가능한 자율 주행에 중점을 두고 있습니다. 또한 제너레이티브 AI 모델의 신뢰성, 데이터 보안, 향후 자율주행 발전에 대한 우려도 표명했습니다.

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

원본 링크: https://mp.weixin.qq.com/s/YEjWSvKk6f-TDAR91Ow2rA

위 내용은 데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1655

Cakephp 튜토리얼

1414

라라벨 튜토리얼

1307

PHP 튜토리얼

1253

C# 튜토리얼

1228

Related knowledge

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. Jun 01, 2024 pm 10:03 PM

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

joiplay 시뮬레이터 글꼴 설정 방법 소개 May 09, 2024 am 08:31 AM

jojplay 시뮬레이터는 실제로 게임 글꼴을 사용자 정의할 수 있으며 텍스트에서 누락된 문자 및 상자 문자 문제를 해결할 수 있습니다. 아마도 많은 플레이어가 이를 작동하는 방법을 모르는 것 같습니다. jojplay 시뮬레이터의 글꼴을 소개합니다. joiplay 시뮬레이터 글꼴 설정 방법 1. 먼저 joiplay 시뮬레이터를 열고 오른쪽 상단에 있는 설정(점 3개)을 클릭하여 찾습니다. 2. RPGMSettings 열의 세 번째 행에서 CustomFont 사용자 정의 글꼴을 클릭하여 선택합니다. 3. 글꼴 파일을 선택하고 확인을 클릭합니다. 오른쪽 하단에 있는 "저장" 아이콘을 클릭하지 않도록 주의하세요. 그렇지 않으면 기본 설정이 복원됩니다. 4. 설립자 및 준원 간체 한자를 권장합니다(이미 Fuxing 및 Rebirth 게임 폴더에 있음). 조이

천둥 및 번개 시뮬레이터 애플리케이션을 삭제하는 방법은 무엇입니까? -Thunderbolt Simulator에서 애플리케이션을 삭제하는 방법은 무엇입니까? May 08, 2024 pm 02:40 PM

Thunderbolt Simulator의 공식 버전은 매우 전문적인 Android 에뮬레이터 도구입니다. 그렇다면 천둥 및 번개 시뮬레이터 애플리케이션을 삭제하는 방법은 무엇입니까? Thunderbolt Simulator에서 애플리케이션을 삭제하는 방법은 무엇입니까? 편집자가 아래 답변을 드리겠습니다! 천둥 및 번개 시뮬레이터 애플리케이션을 삭제하는 방법은 무엇입니까? 1. 삭제하려는 앱의 아이콘을 길게 클릭하세요. 2. 앱 제거 또는 삭제 옵션이 나타날 때까지 잠시 기다립니다. 3. 앱을 제거 옵션으로 드래그하세요. 4. 팝업되는 확인창에서 확인을 클릭하시면 애플리케이션 삭제가 완료됩니다.

cURL과 wget: 어느 것이 더 좋나요? May 07, 2024 am 09:04 AM

Linux 명령줄을 통해 직접 파일을 다운로드하려면 wget과 cURL이라는 두 가지 도구가 즉시 떠오릅니다. 이들은 동일한 특성을 많이 갖고 있으며 동일한 작업 중 일부를 쉽게 수행할 수 있습니다. 일부 유사한 특성이 있지만 완전히 동일하지는 않습니다. 이 두 프로그램은 서로 다른 상황에 적합하며 특정 상황에서 고유한 특성을 갖습니다. cURL과 wget: 유사점 wget과 cURL 모두 콘텐츠를 다운로드할 수 있습니다. 이것이 핵심이 설계된 방식입니다. 둘 다 인터넷에 요청을 보내고 요청한 항목을 반환할 수 있습니다. 이는 파일, 이미지 또는 웹사이트의 원시 HTML과 같은 것일 수 있습니다. 두 프로그램 모두 HTTPPOST 요청을 할 수 있습니다. 이는 모두가 보낼 수 있음을 의미합니다.

라이프 리스타트 시뮬레이터 가이드 May 07, 2024 pm 05:28 PM

Life Restart Simulator는 매우 흥미로운 시뮬레이션 게임입니다. 이 게임은 최근 매우 인기를 끌었습니다. 아래에서 편집자가 Life Restart Simulator에 대한 전체 가이드를 가져왔습니다. 전략이 있나요? Life Restart Simulator 가이드 가이드 Life Restart Simulator의 특징 이것은 플레이어가 자신의 아이디어에 따라 플레이할 수 있는 매우 창의적인 게임입니다. 매일 완료해야 할 작업이 많으며 이 가상 세계에서 새로운 삶을 누릴 수 있습니다. 게임에는 많은 노래가 있으며, 다양한 삶이 여러분의 경험을 기다리고 있습니다. Life Restart Simulator 게임 콘텐츠 재능 그리기 카드: 재능: 불멸자가 되려면 신비한 작은 상자를 선택해야 합니다. 도중에 죽는 것을 방지하기 위해 다양한 작은 캡슐을 사용할 수 있습니다. 크툴루는 선택할 수 있다

DPO를 완전히 능가함: Chen Danqi 팀은 단순 선호도 최적화 SimPO를 제안하고 가장 강력한 8B 오픈 소스 모델도 개선했습니다. Jun 01, 2024 pm 04:41 PM

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

See all articles

데이터는 왕이다! 데이터를 통해 효율적인 자율주행 알고리즘을 단계별로 구축하는 방법은 무엇일까요?

위 작성 및 저자의 개인적인 이해

데이터 세트 획득, 설정 및 주요 기능

폐쇄 루프 데이터 기반 자율 주행 시스템

SOTA 폐쇄 루프 자율주행 파이프라인

Generative AI 기반의 고충실도 AD 데이터 생성 및 시뮬레이션

자율 주행 데이터 세트의 자동 라벨링 방법

실증적 연구

토론

결론

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제