최근 딥러닝 기술의 발전과 혁신으로 대규모 기반 모델은 자연어 처리 및 컴퓨터 비전 결과 분야에서 상당한 성과를 거두었습니다. 자율주행에 기본 모델을 적용하는 것도 시나리오에 대한 이해와 추론을 향상시킬 수 있는 큰 발전 전망을 가지고 있습니다.
이 글에서는 주로 자율주행 분야에서 기본 모델의 적용을 개략적으로 설명하고, 자율주행 모델에서의 기본 모델 적용을 바탕으로 데이터 향상에서의 기본 모델 적용과 월드 모델을 기본 모델에서 자율주행 측면으로 확장합니다. 자율주행 모델의 경우 기본 모델을 활용해 차량 인지, 의사결정, 제어 등 다양한 자율주행 기능을 구현할 수 있다. 기본 모델을 통해 차량은 주변 환경에 대한 정보를 획득하고 이에 따른 결정과 제어 조치를 내릴 수 있습니다. 데이터 향상 측면에서는 기본 모델을 활용해 데이터 향상이 가능합니다
이 글 링크: https://arxiv.org/pdf/2405.02288
자율 운전에서 언어와 비전의 기본 모델은 운전 시나리오에서 자율 운전 모델에 대한 이해와 추론을 향상함으로써 인간과 유사한 자율 운전 운전을 달성할 수 있습니다. 아래 그림은 언어와 시각을 기반으로 한 기본 모델을 통해 운전 장면을 이해하고, 언어에 따른 지시와 운전 행위를 추론하는 과정을 보여준다.
기본 모델은 자율주행 모델의 패러다임을 높입니다
현재의 많은 연구에서는 언어와 시각적 특징이 현재 환경에 대한 전반적인 지각적 이해를 얻은 후 모델의 운전 장면에 대한 이해를 효과적으로 향상시킬 수 있음이 입증되었습니다. 모델은 "앞에 빨간 신호등이 있습니다. 속도를 줄이고 천천히 운전하세요", "앞에 교차로가 있습니다. 보행자에게 주의를 기울이십시오" 및 기타 관련 언어 명령을 내립니다. 운전하는 자동차는 해당 언어 명령에 따라 최종 운전 동작을 수행할 수 있습니다.
최근 몇 년 동안 학계와 업계에서는 GPT의 언어 지식을 자율 주행의 의사 결정 과정에 포함시켰습니다. 대형 모델 자율주행에 적용을 촉진하기 위해 언어 명령 형태로 자율주행 성능을 향상합니다. 대형 모델이 실제로 차량 측에 배치될 것으로 예상된다는 점을 고려하면 궁극적으로 계획이나 제어 지시에 속해야 하며, 기본 모델은 궁극적으로 동작 상태 수준에서 자율 주행을 승인해야 합니다. 일부 학자들은 예비 연구를 진행했지만 아직 발전의 여지가 많이 남아 있습니다. 더 중요한 것은 일부 학자들이 대규모 언어 모델을 기반으로 궤적을 직접 출력하고 이를 제어 명령을 통해 구현하는 GPT와 유사한 방법을 통해 자율주행 모델 구축을 연구한 바 있다.
위 관련 콘텐츠의 핵심 아이디어는 자율 주행 결정의 해석 가능성을 향상시키고, 장면 이해 및 분석을 향상시키며, 자율주행 시스템의 계획이나 제어를 안내합니다. 지난 기간 동안 사전 훈련된 모델 백본 네트워크를 다양한 방식으로 최적화하기 위한 많은 작업이 있었고 매우 좋은 결과를 얻었습니다. 따라서 자율주행에 기본 모델의 적용을 보다 종합적으로 정리하기 위해 사전 훈련된 백본 네트워크와 매우 좋은 결과를 얻은 연구를 정리하고 검토한다. 아래 그림은 End-to-End 자율주행의 전반적인 과정을 보여준다.
사전 학습된 백본 네트워크 기반 엔드 투 엔드 자율주행 시스템 흐름도
엔드 투 엔드 자율 주행의 전반적인 과정에서 원시 데이터에서 낮은 수준의 정보를 추출하면 후속 모델 성능의 잠재력이 어느 정도 결정됩니다. 우수한 사전 훈련 백본은 모델이 더 강력한 기능 학습 기능을 갖게 할 수 있습니다. ResNet 및 VGG와 같은 사전 훈련된 컨벌루션 네트워크는 엔드투엔드 모델 시각적 특징 추출에 가장 널리 사용되는 백본 네트워크입니다. 이러한 사전 훈련된 네트워크는 일반적으로 일반화된 특징을 추출하는 작업으로 객체 감지 또는 분할을 사용하여 훈련되며, 이들이 달성하는 성능은 많은 연구에서 검증되었습니다.
또한 초기 엔드투엔드 자율주행 모델은 주로 다양한 유형의 컨볼루션 신경망을 기반으로 했으며 모방학습이나 강화학습을 통해 완성됐다. 최근 일부 연구에서는 Transformer 네트워크 구조를 사용하여 엔드투엔드 자율주행 시스템을 구축하려고 시도했으며 Transfuser, FusionAD, UniAD 등의 연구에서도 비교적 좋은 결과를 얻었습니다.
딥 러닝 기술이 더욱 발전하고 기본 네트워크 아키텍처가 더욱 개선 및 업그레이드됨에 따라 사전 학습 및 미세 조정이 포함된 기본 모델은 점점 더 강력한 성능을 보여주었습니다. GPT로 대표되는 기본 모델은 학습 패러다임의 규칙에서 데이터 기반 접근 방식으로 대규모 모델의 전환을 가능하게 했습니다. 모델 학습의 핵심 링크로서 데이터의 중요성은 대체할 수 없습니다. 자율 주행 모델을 훈련하고 테스트하는 동안 모델이 다양한 도로 및 교통 시나리오에 대한 올바른 이해와 의사 결정 기능을 갖출 수 있도록 많은 양의 장면 데이터가 사용됩니다. 자율주행이 직면한 롱테일 문제는 알 수 없는 엣지 시나리오가 끝없이 존재해 모델의 일반화 능력이 결코 충분하지 않아 성능이 저하된다는 점이기도 하다.
자율주행 모델의 일반화 능력을 향상하려면 데이터 증강이 중요합니다. 데이터 증강의 구현은 두 가지 측면을 고려해야 합니다
따라서 관련 연구 작업은 위의 두 가지 측면에서 관련 기술 연구를 주로 수행합니다. 하나는 데이터 콘텐츠를 풍부하게 하는 것입니다. 기존 데이터 세트에서 운전 시나리오의 데이터 특성을 향상시킵니다. 두 번째는 시뮬레이션을 통해 다단계 주행 시나리오를 생성하는 것입니다.
기존 자율주행 데이터 세트는 주로 센서 데이터를 기록한 후 데이터에 라벨을 붙이는 방식으로 획득됩니다. 이런 방식으로 얻은 데이터 특징은 일반적으로 매우 낮은 수준이며 데이터 세트의 크기도 상대적으로 열악하여 자율 주행 시나리오의 시각적 특징 공간에 완전히 부족합니다. 언어 모델로 표현되는 기본 모델의 고급 의미 이해, 추론 및 해석 기능은 자율 주행 데이터 세트의 풍부화 및 확장을 위한 새로운 아이디어와 기술적 접근 방식을 제공합니다. 기본 모델의 고급 이해, 추론 및 해석 기능을 활용하여 데이터 세트를 확장하면 자율 주행 시스템의 설명 가능성과 제어를 더 잘 평가하는 데 도움이 되어 자율 주행 시스템의 안전성과 신뢰성이 향상됩니다.
운전 장면은 자율주행에 있어 매우 중요한 의미를 갖습니다. 다양한 주행 장면 데이터를 얻기 위해서는 차량의 센서에만 의존하여 실시간 수집을 해야 하기 때문에 막대한 비용이 들고, 일부 엣지 장면에 대해서는 충분한 장면 데이터를 얻기가 어렵습니다. 시뮬레이션을 통해 사실적인 운전 장면을 생성하는 것은 많은 연구자들의 관심을 끌었습니다. 교통 시뮬레이션 연구는 크게 규칙 기반과 데이터 기반의 두 가지 범주로 나누어집니다.
다양한 데이터 증대 전략 요약
세계 모델은 그것이 작동하는 환경에 대한 전반적인 이해 또는 표현을 포함하는 인공 지능 모델로 간주됩니다. 모델은 예측이나 결정을 내리기 위해 환경을 시뮬레이션할 수 있습니다. 최근 문헌에서는 강화학습의 맥락에서 "세계 모델"이라는 용어가 언급됩니다. 이 개념은 운전 환경의 역학을 이해하고 명확하게 하는 능력으로 인해 자율 주행 애플리케이션에서도 주목을 받고 있습니다. 월드 모델은 강화 학습, 모방 학습, 심층 생성 모델과 관련이 높습니다. 그러나 강화 학습 및 모방 학습에서 세계 모델을 활용하려면 일반적으로 잘 레이블링된 데이터가 필요하며 SEM2 및 MILE과 같은 방법은 지도 패러다임에서 수행됩니다. 동시에 라벨링된 데이터의 한계를 기반으로 강화학습과 비지도학습을 결합하려는 시도도 있습니다. 자기 지도 학습과의 긴밀한 연관성으로 인해 심층 생성 모델이 점점 인기를 얻고 있으며 많은 연구가 제안되었습니다. 아래 그림은 자율주행 모델을 강화하기 위해 월드 모델을 활용하는 전체적인 흐름도를 보여준다.
세계 모델의 자율 주행 모델 향상을 위한 전체 흐름도
심층 생성 모델에는 일반적으로 변형 자동 인코더, 생성적 적대 네트워크, 흐름 모델 및 자동 회귀 모델이 포함됩니다.
Deep Generative Model의 강력한 능력을 기반으로 Deep Generative 모델을 월드 모델로 사용하여 운전을 학습합니다. 자동 운전을 강화하기 위한 시나리오는 점차 연구 핫스팟이 되었습니다. 다음으로 우리는 자율 주행에서 세계 모델로 심층 생성 모델을 사용하는 방법을 검토합니다. 시각은 인간이 세상에 대한 정보를 얻는 가장 직접적이고 효과적인 방법 중 하나입니다. 이미지 데이터에는 매우 풍부한 특징 정보가 포함되어 있기 때문입니다. 이전의 많은 연구들은 월드 모델을 통해 이미지 생성 작업을 완료했으며, 이는 월드 모델이 이미지 데이터에 대한 좋은 이해와 추론 능력을 가지고 있음을 보여줍니다. 전반적으로 연구자들은 이미지 데이터로부터 세계의 고유한 진화 법칙을 배우고 미래 상태를 예측하기를 희망합니다. 자기 지도 학습과 결합된 월드 모델은 이미지 데이터로부터 학습하는 데 사용되며, 모델의 추론 능력을 완전히 발휘하고 시각적 영역에서 일반화된 기본 모델을 구축하기 위한 실행 가능한 방향을 제공합니다. 아래 그림은 세계 모델을 사용한 일부 관련 작업을 요약한 것입니다.
예측을 위해 세계 모델을 사용한 작업 요약
LeCun은 생성 세계 모델과 비교하여 JEPA(Joint Extraction and Prediction Architecture) 개념을 제안하여 세계 모델의 차이점을 자세히 설명했습니다. . 이는 입력 데이터를 기반으로 직접 출력을 예측하지 않고 추상 공간에서 입력 데이터를 인코딩하여 최종 예측을 완료하기 때문에 비생성 및 자기 지도형 아키텍처입니다. 이 예측 방법의 장점은 출력에 대한 모든 정보를 예측할 필요가 없으며 관련 없는 세부 정보를 제거할 수 있다는 것입니다.
JEPA는 에너지 모델을 기반으로 한 자기 지도 학습 아키텍처로, 세상이 어떻게 작동하는지와 고도로 일반화된 법칙을 관찰하고 학습합니다. JEPA는 자율주행 분야에도 큰 잠재력을 갖고 있으며, 운전 원리를 학습해 고품질의 운전 시나리오와 운전 전략을 만들어낼 것으로 기대된다.
이 기사에서는 자율 주행 애플리케이션에서 기본 모델의 중요한 역할에 대한 포괄적인 개요를 제공합니다. 이 기사에서 조사한 관련 연구 작업의 요약 및 결과를 보면, 추가 조사할 가치가 있는 또 다른 방향은 자기 지도 학습을 위한 효과적인 네트워크 아키텍처를 설계하는 방법입니다. 자기 지도 학습은 데이터 주석의 한계를 효과적으로 극복하여 모델이 대규모로 데이터를 학습하고 모델의 추론 기능을 최대한 활용할 수 있도록 합니다. 자율주행 기본 모델을 자기주도 학습 패러다임 하에서 다양한 규모의 운전 장면 데이터를 활용하여 학습할 수 있다면 일반화 능력이 크게 향상될 것으로 기대됩니다. 이러한 발전은 보다 일반적인 기본 모델을 가능하게 할 수 있습니다.
간단히 말하면, 기본 모델을 자율주행에 적용하는 데에는 많은 어려움이 있지만 적용 범위와 개발 전망이 매우 넓습니다. 앞으로도 자율주행에 적용되는 기본 모델의 발전 상황을 지속적으로 지켜보겠습니다.
위 내용은 검토! 자율주행 촉진을 위한 기본 모델의 중요한 역할을 종합적으로 요약의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!