자율 주행 시스템은 실제 적용에서 다양하고 복잡한 시나리오, 특히 자율 주행의 인식 및 의사 결정 능력에 더 높은 요구 사항을 적용하는 코너 케이스(극한 상황)에 직면해야 합니다. 코너케이스(Corner Case)란 교통사고, 악천후, 복잡한 도로 상황 등 실제 운전에서 발생할 수 있는 극단적이거나 드문 상황을 말합니다. BEV 기술은 글로벌 관점을 제공함으로써 자율주행 시스템의 인식 능력을 향상시키며, 이는 이러한 극한 상황에 대처하는 데 더 나은 지원을 제공할 것으로 기대됩니다. 이 글에서는 BEV(Bird's Eye View) 기술이 자율주행 시스템이 Corner Case에 대처하고 시스템의 신뢰성과 안전성을 향상시키는 데 어떻게 도움이 되는지 살펴보겠습니다.
Pictures
Transformer는 자연어 처리 작업에 처음 사용된 self-attention 메커니즘을 기반으로 한 딥 러닝 모델입니다. 핵심 아이디어는 self-attention 메커니즘을 통해 입력 시퀀스의 장거리 종속성을 캡처하여 모델의 시퀀스 데이터 처리 능력을 향상시키는 것입니다.
위 두 가지의 효과적인 조합은 자율 주행 전략에서 매우 인기 있는 신흥 기술이기도 합니다.
BEV는 3차원 환경 정보를 2차원 평면에 투영하여 환경 속의 사물과 지형을 하향식 관점에서 표시하는 방법입니다. 자율주행 분야에서 BEV는 시스템이 주변 환경을 더 잘 이해하고 인식 및 의사결정의 정확성을 높이는 데 도움을 줄 수 있습니다. 환경 인식 단계에서 BEV는 LiDAR, 레이더, 카메라와 같은 다중 모드 데이터를 동일한 평면에 융합할 수 있습니다. 이 방법을 사용하면 데이터 간의 폐색 및 중첩 문제를 제거하고 객체 감지 및 추적의 정확도를 높일 수 있습니다. 동시에 BEV는 후속 예측 및 의사결정 단계에서 환경을 명확하게 표현할 수 있어 시스템의 전반적인 성능을 향상시키는 데 도움이 됩니다.
우선, BEV 기술은 환경 인식에 대한 글로벌 관점을 제공할 수 있으며, 이는 복잡한 시나리오에서 자율 주행 시스템의 성능을 향상시키는 데 도움이 됩니다. 하지만 거리나 공간정보 측면에서는 라이더의 정확도가 더 높다.
둘째, BEV 기술은 카메라를 통해 이미지를 포착해 색상과 질감 정보를 얻을 수 있는데, 이런 점에서 LiDAR의 성능은 취약합니다.
또한 BEV 기술 비용은 상대적으로 저렴하고 대규모 상업용 배포에 적합합니다.
기존 싱글뷰 카메라는 차량 주변의 환경 정보를 캡처할 수 있는 일반적으로 사용되는 차량 감지 장치입니다. 그러나 단일 뷰 카메라는 시야 및 정보 수집 측면에서 특정 제한이 있습니다. BEV 기술은 여러 카메라의 이미지를 통합하여 글로벌 관점을 제공하고 차량 주변 환경에 대한 보다 포괄적인 이해를 제공합니다.
Pictures
BEV 기술은 복잡한 장면과 악천후 조건에서 단일 뷰 카메라보다 환경 인식이 뛰어납니다. BEV는 다양한 각도의 이미지 정보를 융합하여 시스템의 환경 인식 인식을 향상시킬 수 있기 때문입니다.
BEV 기술은 자율 주행 시스템이 복잡한 도로 조건, 좁거나 막힌 도로 등과 같은 코너 케이스를 더 잘 처리하는 데 도움이 될 수 있지만 단방향 카메라는 이러한 상황에서 제대로 작동하지 않을 수 있습니다.
물론 비용 및 리소스 사용량 측면에서 BEV는 다양한 시야각에서의 이미지 인식, 재구성 및 스티칭이 필요하므로 더 많은 컴퓨팅 파워와 저장 리소스를 소비합니다. BEV 기술에는 여러 대의 카메라를 배치해야 하지만 전체 비용은 여전히 LiDAR보다 낮고 단일 뷰 카메라에 비해 성능이 크게 향상됩니다.
요약하자면, BEV 기술은 자율주행 분야의 다른 인식 기술에 비해 확실한 장점을 가지고 있습니다. 특히 코너 케이스 처리와 관련하여 BEV 기술은 환경 인식에 대한 글로벌 관점을 제공하여 복잡한 시나리오에서 자율 주행 시스템의 성능을 향상시키는 데 도움을 줄 수 있습니다. 그러나 BEV 기술의 장점을 최대한 활용하기 위해서는 영상 처리 성능, 센서 융합 기술, 이상 행위 예측 등의 성능 향상을 위한 추가적인 연구 개발이 여전히 필요하다. 동시에 다른 인식 기술(예: LiDAR)과 딥 러닝, 기계 학습 알고리즘을 결합하면 다양한 시나리오에서 자율 주행 시스템의 안정성과 안전성이 더욱 향상될 수 있습니다.
동시에 효과적인 환경 인식 방식인 BEV(Bird's Eye View)는 자율주행 시스템에서 중요한 역할을 합니다. Transformer와 BEV의 장점을 결합하여 고정밀 인식, 예측 및 의사결정을 달성할 수 있는 엔드투엔드 자율주행 시스템을 구축할 수 있습니다. 또한 이 기사에서는 Transformer와 BEV를 자율 주행 분야에서 효과적으로 결합하고 적용하여 시스템 성능을 향상시킬 수 있는 방법도 살펴보겠습니다.
구체적인 단계는 다음과 같습니다.
라이다, 레이더, 카메라 등 다중 모드 데이터를 BEV 형식으로 융합하고 데이터 향상 등 필요한 전처리 작업을 수행합니다. , 정규화 등
먼저 LiDAR, 레이더, 카메라 등 다중 모드 데이터를 BEV 형식으로 변환해야 합니다. LiDAR 포인트 클라우드 데이터의 경우 3차원 포인트 클라우드를 2차원 평면에 투영한 다음 평면을 래스터화하여 레이더 데이터용 높이 맵을 생성하고 거리 및 각도 정보를 높이 맵으로 변환할 수 있습니다. 그런 다음 Karl 좌표가 BEV 평면에서 래스터화되어 카메라 데이터에 대해 이미지 데이터를 BEV 평면에 투영하여 색상 또는 강도 맵을 생성할 수 있습니다.
Pictures
자율 운전의 인식 단계에서 Transformer 모델을 사용하여 LiDAR 포인트 클라우드, 이미지, 레이더 데이터가 대기 중입니다. Transformer는 이러한 데이터에 대한 엔드 투 엔드 교육을 수행함으로써 이러한 데이터의 본질적인 구조와 상호 관계를 자동으로 학습함으로써 환경의 장애물을 효과적으로 식별하고 찾을 수 있습니다.
Transformer 모델을 사용하여 BEV 데이터에서 특징을 추출하여 장애물을 감지하고 찾습니다.
이러한 BEV 형식 데이터를 함께 쌓아 다중 채널 BEV 이미지를 형성하세요. 라이더의 BEV 높이 맵을 H(x, y), 레이더의 BEV 범위 맵을 R(x, y), 카메라의 BEV 강도 맵을 I(x, y)라고 가정하면 다중 채널 BEV 이미지는 다음과 같이 표현될 수 있습니다.
B(x, y) = [H(x, y), R(x, y), I(x, y)]
여기서 B( x, y)는 다중 채널 BEV 이미지 좌표(x, y)의 픽셀 값을 나타내고, []는 채널 오버레이를 나타냅니다.
인식 모듈의 출력을 기반으로 Transformer 모델을 사용하여 다른 교통 참여자의 향후 행동과 궤적을 예측합니다. Transformer는 과거 궤적 데이터를 학습함으로써 교통 참가자의 움직임 패턴과 상호 작용을 포착할 수 있으므로 자율 주행 시스템에 대한 보다 정확한 예측을 제공할 수 있습니다.
구체적으로 먼저 Transformer를 사용하여 다중 채널 BEV 이미지에서 특징을 추출합니다. 입력 BEV 이미지가 B(x, y)라고 가정하면 다층 self-attention 메커니즘과 위치 인코딩을 통해 특징 F(x, y)를 추출할 수 있습니다.
F(x, y) = Transformer(B( x , y))
여기서 F(x, y)는 좌표(x, y)의 특성 값인 특성 맵을 나타냅니다.
그런 다음 추출된 특징 F(x, y)를 사용하여 다른 교통 참여자의 행동과 궤적을 예측합니다. Transformer의 디코더는 아래와 같이 예측 결과를 생성하는 데 사용될 수 있습니다.
P(t) = Decoder(F(x, y), t)
여기서 P(t)는 시간 t를 나타냅니다. 예측 결과적으로 Decoder는 Transformer 디코더를 나타냅니다.
위의 단계를 통해 Transformer와 BEV를 기반으로 데이터 융합 및 예측을 달성할 수 있습니다. 최적의 성능을 달성하기 위해 실제 애플리케이션 시나리오에 따라 특정 Transformer 구조 및 매개변수 설정을 조정할 수 있습니다.
교통 규칙 및 차량 역학 모델과 결합된 예측 모듈의 결과를 기반으로 Transformer 모델을 사용하여 적절한 운전 전략을 생성합니다.
사진
Transformer는 환경 정보, 교통 규칙, 차량 역학 모델을 모델에 통합하여 효율적이고 안전한 운전 전략을 학습할 수 있습니다. 경로 계획, 속도 계획 등 또한 Transformer의 다중 헤드 셀프 어텐션 메커니즘을 사용하면 서로 다른 정보 소스 간의 가중치를 효과적으로 균형 있게 조정하여 복잡한 환경에서 보다 합리적인 결정을 내릴 수 있습니다.
이 방법을 채택하기 위한 구체적인 단계는 다음과 같습니다.
먼저 차량 상태 정보(예: 속도, 가속도, 핸들 각도 등), 도로 상태 정보(도로 유형, 교통 표지판, 차선 등), 주변 환경 정보(다른 차량, 보행자, 자전거 등) 및 행동 운전자가 찍은 것. 이러한 데이터는 데이터 정리, 표준화 및 특징 추출을 포함하여 전처리됩니다.
수집된 데이터를 Transformer 모델 입력에 적합한 형태로 인코딩합니다. 여기에는 일반적으로 연속적인 숫자 데이터를 이산화하고 이산화된 데이터를 벡터 형식으로 변환하는 작업이 포함됩니다. 동시에 Transformer 모델이 타이밍 정보를 처리할 수 있도록 데이터를 직렬화해야 합니다.
2.1, Transformer 인코더
Transformer 인코더는 여러 개의 동일한 하위 계층으로 구성되며, 각 하위 계층에는 Multi-Head Attention(Multi-Head Attention)과 피드포워드 신경망(Feed)이라는 두 부분이 포함됩니다. -순방향 신경망).
다중 헤드 셀프 어텐션: 먼저 입력 시퀀스를 h개의 서로 다른 헤드로 나누고 각 헤드의 셀프 어텐션을 개별적으로 계산한 다음 이 헤드의 출력을 함께 연결합니다. 이는 입력 시퀀스의 다양한 규모에서 종속성을 캡처합니다.
Picture
긴 self-attention의 계산 공식은 다음과 같습니다.
MHA(X) = Concat(head_1, head_2, ..., head_h) * W_O
where MHA( X)는 다중 헤드 self-attention의 출력을 나타내고, head_i는 i번째 헤드의 출력을 나타내며, W_O는 출력 가중치 행렬입니다.
피드포워드 신경망: 다음으로 다중 헤드 셀프 어텐션의 출력이 피드포워드 신경망으로 전달됩니다. 피드포워드 신경망에는 일반적으로 두 개의 완전히 연결된 레이어와 활성화 함수(예: ReLU)가 포함됩니다. 피드포워드 신경망의 계산 공식은 다음과 같습니다.
FFN(x) = max(0, xW_1 + b_1) * W_2 + b_2
여기서 FFN(x)는 피드포워드 신경망의 출력인 W_1을 나타냅니다. W_2는 가중치 행렬, b_1과 b_2는 바이어스 벡터, max(0, x)는 ReLU 활성화 함수를 나타냅니다.
또한 인코더의 각 하위 계층에는 잔여 연결과 계층 정규화가 포함되어 있어 모델의 훈련 안정성과 수렴 속도를 향상시키는 데 도움이 됩니다.
2.2. Transformer 디코더
인코더와 마찬가지로 Transformer 디코더도 여러 개의 동일한 하위 계층으로 구성됩니다. 각 하위 계층에는 다중 헤드 셀프 어텐션, 인코더-디코더 인코더가 있습니다. -디코더 어텐션(Decoder Attention) 및 피드포워드 신경망.
멀티 헤드 셀프 어텐션: 인코더의 멀티 헤드 셀프 어텐션과 동일하며 디코더 입력 시퀀스의 각 요소 간의 상관 정도를 계산하는 데 사용됩니다.
인코더-디코더 주의: 디코더 입력 시퀀스와 인코더 출력 시퀀스 간의 상관 정도를 계산하는 데 사용됩니다. 쿼리 벡터가 디코더 입력 시퀀스에서 나오고 키 벡터와 값 벡터가 인코더 출력 시퀀스에서 나온다는 점을 제외하면 계산 방법은 self-attention과 유사합니다.
피드포워드 신경망: 인코더의 피드포워드 신경망과 동일합니다. 디코더의 각 하위 계층에는 잔여 연결과 계층 정규화가 포함되어 있습니다. 여러 계층의 인코더와 디코더를 쌓아서 Transformer는 복잡한 종속성을 갖는 시퀀스 데이터를 처리할 수 있습니다.
적절한 레이어 수, 헤드 수 및 숨겨진 레이어 크기 설정을 포함하여 자율 주행 시나리오에 적합한 Transformer 모델을 구축합니다. 또한 작업에 대한 손실 함수를 생성하기 위해 구동 정책을 사용하는 등 작업 요구 사항에 따라 모델을 미세 조정해야 합니다.
먼저, 특징 벡터는 MLP로 얻어 저차원 벡터를 얻습니다. 이는 GRU가 구현한 자동 회귀 경로 점 네트워크에 전달되고 GRU의 숨겨진 상태를 초기화하는 데 사용됩니다. 또한 현재 위치와 목표 위치도 입력되므로 네트워크는 숨겨진 상태의 관련 컨텍스트에 집중하게 됩니다.
picture
단일 레이어 GRU와 선형 레이어를 사용하여 숨겨진 상태에서 경로 점 오프셋 을 예측하여 예상 경로 점 을 얻습니다. GRU에 대한 입력이 원점입니다.
컨트롤러는 두 개의 PID 컨트롤러를 사용하여 예측된 경로 지점을 기반으로 각각 수평 및 세로 제어를 수행하여 조향, 브레이크 및 스로틀 값을 얻습니다. 연속 프레임의 경로 점 벡터의 가중 평균을 수행하면 세로 컨트롤러의 입력은 모듈 길이이고 가로 컨트롤러의 입력은 방향입니다.
현재 프레임의 자체 차량 좌표계, 즉
수집된 데이터 세트를 사용하여 Transformer 모델을 학습합니다. 훈련 과정에서 일반화 능력을 확인하기 위해 모델을 검증해야 합니다. 데이터 세트는 훈련 세트, 검증 세트, 테스트 세트로 나누어 모델을 평가할 수 있습니다.
실제 응용에서는 현재 차량 상태, 도로 상황 정보, 주변 환경 정보를 기반으로 사전 훈련된 Transformer 모델이 입력됩니다. 모델은 이러한 입력을 기반으로 가속, 감속, 조향 등과 같은 운전 전략을 생성합니다.
생성된 주행 전략을 자율 주행 시스템에 전달하여 차량을 제어합니다. 동시에 모델의 추가 최적화 및 반복을 위해 실제 실행 프로세스의 데이터가 수집됩니다.
위의 단계를 통해 Transformer 모델 기반의 방법을 활용하면 자율주행 의사결정 단계에서 적절한 운전 전략을 도출할 수 있습니다. 자율주행 분야에서는 높은 안전 요구 사항으로 인해 실제 배포 중에 다양한 시나리오에서 모델의 성능과 안전성을 보장해야 한다는 점에 유의해야 합니다.
이번 섹션에서는 복잡한 도로 상황, 악천후 조건, 이상 행위 예측 등 Corner Case를 해결하는 BEV 기술의 세 가지 사례를 각각 자세히 소개합니다. . 다음 그림은 자율 주행의 몇 가지 코너케이스 시나리오를 보여줍니다. Transformer+BEV 기술을 사용하면 현재 식별할 수 있는 대부분의 Edge Scene을 효과적으로 식별하고 처리할 수 있습니다.
사진
교통 정체, 복잡한 교차로 또는 불규칙한 도로 표면과 같은 복잡한 도로 조건에서 Transformer+BEV 기술은 보다 포괄적인 환경 인식을 제공할 수 있습니다. BEV는 차량 주변의 여러 카메라에서 얻은 이미지를 통합하여 연속적인 하향식 뷰를 생성하여 자율 주행 시스템이 차선, 장애물, 보행자 및 기타 교통 참가자를 명확하게 식별할 수 있도록 합니다. 예를 들어, 복잡한 교차로에서 BEV 기술은 자율주행 시스템이 각 교통 참가자의 위치와 주행 방향을 정확하게 식별하여 경로 계획 및 의사결정을 위한 신뢰할 수 있는 기반을 제공할 수 있도록 지원합니다.
비, 눈, 안개 등 악천후에서는 기존 카메라와 라이더가 영향을 받아 자율주행 시스템의 인식 능력이 저하될 수 있습니다. Transformer+BEV 기술은 다양한 각도의 이미지 정보를 융합하여 시스템의 환경 인식을 향상시킬 수 있기 때문에 이러한 상황에서 여전히 확실한 이점을 갖고 있습니다. 악천후에서 Transformer+BEV 기술의 성능을 더욱 향상시키려면 적외선 카메라나 열화상 카메라와 같은 보조 장비를 사용하여 이러한 상황에서 가시광선 카메라의 단점을 보완하는 것을 고려할 수 있습니다.
실제 도로 환경에서는 보행자, 자전거 타는 사람, 기타 교통 참여자가 갑자기 길을 건너거나 교통 규칙을 위반하는 등 이상 행동을 보일 수 있습니다. BEV 기술은 자율주행 시스템이 이러한 비정상적인 행동을 더 잘 예측하는 데 도움이 될 수 있습니다. 글로벌 관점에서 BEV는 완전한 환경 정보를 제공할 수 있으므로 자율 주행 시스템이 보행자 및 기타 교통 참여자의 역학을 보다 정확하게 추적하고 예측할 수 있습니다. 또한, 머신러닝과 딥러닝 알고리즘을 결합한 Transformer+BEV 기술은 비정상적인 행동의 예측 정확도를 더욱 향상시켜 자율주행 시스템이 복잡한 시나리오에서 보다 합리적인 결정을 내릴 수 있도록 해줍니다.
좁거나 막힌 도로 환경에서는 기존 카메라와 LiDAR가 효과적인 환경 인식을 위한 충분한 정보를 얻는 데 어려움을 겪을 수 있습니다. 그러나 Transformer+BEV 기술은 여러 카메라에서 캡처한 이미지를 통합하여 보다 포괄적인 보기를 생성할 수 있기 때문에 이러한 상황에서 활용될 수 있습니다. 이를 통해 자율주행 시스템은 차량 주변 환경을 더 잘 이해하고 좁은 통로의 장애물을 식별하며 이러한 시나리오를 안전하게 탐색할 수 있습니다.
고속도로와 같은 시나리오에서 자율 주행 시스템은 차량 병합 및 교통 병합과 같은 복잡한 작업을 처리해야 합니다. 이러한 작업은 안전한 합류와 교통 합류를 보장하기 위해 시스템이 주변 차량의 위치와 속도를 실시간으로 평가해야 하기 때문에 자율 주행 시스템의 인식 기능에 대한 요구가 높습니다. Transformer+BEV 기술의 도움으로 자율주행 시스템은 글로벌 관점을 확보하고 차량 주변의 교통 상황을 명확하게 이해할 수 있습니다. 이는 자율 주행 시스템이 차량이 교통 흐름에 안전하게 통합될 수 있도록 적절한 병합 전략을 개발하는 데 도움이 됩니다.
교통사고, 도로 폐쇄, 긴급 상황 등 긴급 상황에서 자율주행 시스템은 운전 안전을 보장하기 위해 빠른 결정을 내려야 합니다. 이러한 경우 Transformer+BEV 기술은 자율 주행 시스템에 대한 실시간 및 포괄적인 환경 인식을 제공하여 시스템이 현재 도로 상태를 신속하게 평가할 수 있도록 돕습니다. 실시간 데이터와 고급 경로 계획 알고리즘을 결합한 자율 주행 시스템은 잠재적인 위험을 방지하기 위한 적절한 비상 전략을 개발할 수 있습니다.
이러한 사례를 통해 Transformer+BEV 기술이 Corner Case 처리에 큰 잠재력을 가지고 있음을 알 수 있습니다. 그러나 Transformer+BEV 기술의 장점을 최대한 활용하기 위해서는 영상 처리 성능, 센서 융합 기술, 이상 행위 예측 등의 성능 향상을 위한 추가적인 연구 개발이 여전히 필요합니다.
이 기사에서는 자율 주행에서 Transformer와 BEV 기술의 원리와 적용, 특히 코너 케이스 문제를 해결하는 방법을 요약합니다. Transformer+BEV 기술은 글로벌 관점과 정확한 환경 인식을 제공함으로써 극한 상황에서도 자율주행 시스템의 신뢰성과 안전성을 향상시킬 것으로 기대됩니다. 그러나 현재 기술에는 악천후로 인한 성능 저하 등 여전히 일정한 한계가 있습니다. 향후 연구는 더 높은 수준의 자율주행 안전성을 달성하기 위해 BEV 기술의 개선과 다른 감지 기술과의 통합에 계속 초점을 맞춰야 합니다.
위 내용은 자율주행의 극한 상황을 극복하기 위해 Transformer BEV를 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!