TimePillars: 순수한 LiDAR 3D 감지 경로를 어디에서 확장할 수 있습니까? 200m 다이렉트 커버리지!-일체 포함-php.cn

이전에 작성

TimePillars에 대한 자세한 설명

입력 전처리

모델 아키텍처

Feature Ego-Motion Compensation

Experiments

Discussion

결론

집

기술 주변기기

일체 포함

TimePillars: 순수한 LiDAR 3D 감지 경로를 어디에서 확장할 수 있습니까? 200m 다이렉트 커버리지!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 24, 2024 am 11:57 AM

안전 자율주행

LiDAR 포인트 클라우드를 기반으로 한 3D 객체 감지는 학계와 업계 모두 정확성, 속도 및 견고성을 향상하기 위해 다양한 모델을 제안했습니다. 그러나 복잡한 실외 환경으로 인해 실외 포인트 클라우드에 대한 객체 감지 성능은 그리 좋지 않습니다. Lidar 포인트 클라우드는 본질적으로 희박합니다. 이 문제를 목표 방식으로 해결하는 방법은 무엇입니까? 이 논문은 시계열 정보의 집합을 기반으로 정보를 추출한다는 자체 답변을 제공합니다.

이전에 작성

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

이 문서에서는 자율 주행이 직면한 중요한 과제인 주변 환경의 3차원 표현을 정확하게 설정하는 방법을 주로 논의합니다. 이는 자율주행차의 신뢰성과 안전성을 보장하는 데 매우 중요합니다. 특히, 자율주행차는 차량, 보행자 등 주변 사물을 인식하고 그 위치, 크기, 방향을 정확하게 판단할 수 있어야 합니다. 일반적으로 사람들은 이 작업을 수행하기 위해 심층 신경망을 사용하여 LiDAR 데이터를 처리합니다.

현재 연구는 주로 단일 프레임 방법, 즉 한 번에 하나의 센서 스캔 데이터를 사용하는 데 중점을 두고 있습니다. 이 방법은 최대 75미터 거리에 있는 물체를 감지하는 기존 벤치마크에서 잘 작동합니다. 그러나 LiDAR 포인트 클라우드의 희박성은 장거리에서 특히 두드러집니다. 따라서 연구원들은 장거리 감지(예: 최대 200미터 거리)를 단일 스캔에만 의존하는 것만으로는 충분하지 않다고 생각합니다. 따라서 향후 연구는 이러한 문제를 해결하는 데 초점을 맞춰야 합니다.

이 문제를 해결하기 위한 한 가지 방법은 포인트 클라우드 집계를 사용하는 것입니다. 이는 일련의 LiDAR 스캔 데이터를 연결하여 더 조밀한 입력을 얻는 것입니다. 그러나 이 접근 방식은 계산 비용이 많이 들고 네트워크 내 집계를 최대한 활용하지 못합니다. 계산 비용을 줄이고 정보를 더 잘 활용하려면 재귀적 방법을 사용하는 것이 좋습니다. 재귀적 방법은 시간이 지남에 따라 정보를 축적하고 현재 입력을 이전에 집계된 결과와 반복적으로 융합하여 보다 정확한 출력을 생성합니다. 이 방법은 계산 효율성을 향상시킬 수 있을 뿐만 아니라 과거 정보를 효과적으로 활용하여 예측 정확도를 향상시킬 수 있습니다. 재귀적 방법은 포인트 클라우드 집계 문제에 폭넓게 적용되며 만족스러운 결과를 얻었습니다.

기사에서는 감지 범위를 늘리기 위해 희소 컨볼루션, 주의 모듈, 3D 컨볼루션과 같은 일부 고급 작업을 사용할 수 있다고 언급했습니다. 그러나 이러한 작업은 일반적으로 대상 하드웨어의 호환성 문제를 무시합니다. 신경망을 배포하고 훈련할 때 사용되는 하드웨어는 지원되는 작업 및 대기 시간이 크게 다른 경우가 많습니다. 예를 들어 Nvidia Orin DLA와 같은 대상 하드웨어는 Sparse Convolution 또는 Attention과 같은 작업을 지원하지 않는 경우가 많습니다. 또한 실시간 대기 시간 요구 사항으로 인해 3D 컨볼루션과 같은 레이어를 사용하는 것이 불가능한 경우가 많습니다. 이는 2D 컨볼루션과 같은 간단한 연산을 사용해야 한다는 점을 강조합니다.

이 논문에서는 공통 대상 하드웨어에서 지원되는 작업 집합을 존중하고 2D 컨볼루션에 의존하며 포인트 필러(Pillar) 입력 표현과 컨볼루셔널 재귀 단위를 기반으로 하는 새로운 시간 재귀 모델인 TimePillars를 제안합니다. 단일 컨볼루션과 보조 학습을 통해 반복 유닛의 숨겨진 상태에 자체 모션 보상이 적용됩니다. 이 조작의 정확성을 보장하기 위해 보조 작업을 사용하는 것이 절제 연구를 통해 적절하다는 것이 입증되었습니다. 또한 이 논문에서는 파이프라인에서 재귀 모듈의 최적 배치를 조사하고 이를 네트워크 백본과 감지 헤드 사이에 배치하면 최상의 성능을 얻을 수 있음을 명확하게 보여줍니다. 새로 출시된 ZOD(Zenseact Open Dataset)에서 이 논문은 TimePillars 방법의 효율성을 보여줍니다. 단일 프레임 및 다중 프레임 포인트 앤 필러 기준선과 비교하여 TimePillars는 특히 중요한 자전거 타는 사람 및 보행자 범주의 장거리(최대 200미터) 감지에서 상당한 평가 성능 향상을 달성합니다. 마지막으로 TimePillar는 다중 프레임 포인트 기둥보다 지연 시간이 훨씬 낮아 실시간 시스템에 적합합니다.

본 논문에서는 3D LiDAR 객체 감지 작업을 해결하기 위해 TimePillars라는 새로운 시간 재귀 모델을 제안하고 일반적인 대상 하드웨어에서 지원하는 작업 집합을 고려합니다. 실험을 통해 TimePillars는 장거리 탐지에서 단일 프레임 및 다중 프레임 포인트 필러 기준보다 훨씬 더 나은 성능을 달성한다는 것이 입증되었습니다. 또한, 이 논문에서는 처음으로 Zenseact 공개 데이터 세트에 대한 3D LiDAR 객체 감지 모델을 벤치마킹했습니다. 그러나 이 논문의 한계는 LiDAR 데이터에만 초점을 맞추고 다른 센서 입력을 고려하지 않으며 단일 최첨단 기준에 접근 방식을 기반으로 한다는 것입니다. 그럼에도 불구하고 저자는 자신의 프레임워크가 일반적이라고 믿습니다. 즉, 향후 기준선 개선이 전반적인 성능 개선으로 이어질 것이라고 믿습니다.

TimePillars에 대한 자세한 설명

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

입력 전처리

본 논문의 "입력 전처리" 섹션에서 저자는 "기둥화"라는 기술을 사용하여 입력 포인트 클라우드 데이터를 처리합니다. 기존 복셀화와 달리 이 방법은 포인트 클라우드를 수직 기둥 구조로 분할하고, 수직 방향(z축)의 고정 높이를 유지하면서 수평 방향(x 및 y축)으로만 분할합니다. 이 처리 방법의 장점은 네트워크 입력 크기의 일관성을 유지할 수 있으며 효율적인 처리를 위해 2D 컨볼루션을 사용할 수 있다는 것입니다. 이러한 방식으로 포인트 클라우드 데이터를 효율적으로 처리하여 후속 작업에 보다 정확하고 안정적인 입력을 제공할 수 있습니다.

그러나 Pillarisation의 한 가지 문제점은 빈 열이 많이 생성되어 데이터가 매우 희박하다는 것입니다. 이러한 문제를 해결하기 위해 본 논문에서는 동적 복셀화 기술의 활용을 제안한다. 이 기술을 사용하면 각 열에 미리 정의된 포인트 수를 가질 필요가 없으므로 각 열에서 자르기 또는 채우기 작업이 필요하지 않습니다. 대신 전체 포인트 클라우드 데이터가 전체적으로 처리되어 필요한 총 포인트 수(여기서는 200,000 포인트로 설정)와 일치합니다. 이 전처리 방법의 이점은 정보 손실을 최소화하고 생성된 데이터 표현을 보다 안정적이고 일관되게 만든다는 것입니다.

모델 아키텍처

다음으로 모델 아키텍처에 대해 저자는 기둥 특징 인코더(Pillar Feature Encoder), 2D CNN(Convolutional Neural Network) 백본 및 탐지 헤드로 구성된 신경망 아키텍처를 자세히 소개합니다.

Pillar Feature Encoder: 이 부분은 전처리된 입력 텐서를 BEV(조감도) 의사 이미지로 매핑합니다. 동적 복셀화를 사용한 후 단순화된 PointNet이 그에 따라 조정됩니다. 입력은 1D 컨볼루션, 일괄 정규화 및 ReLU 활성화 함수로 처리되어 모양의 텐서가 생성됩니다. 여기서 는 채널 수를 나타냅니다. 최종 산란 최대 레이어 이전에 최대 풀링이 채널에 적용되어 모양의 잠재 공간 을 형성합니다. 초기 텐서는 로 인코딩되어 이전 레이어 이후 가 되므로 max pooling 연산이 제거됩니다.
Backbone: 뛰어난 깊이 효율성으로 인해 원래 칼럼 논문에서 제안된 2D CNN 백본 아키텍처를 사용합니다. 3개의 다운샘플링 블록(Conv2D-BN-ReLU)을 사용하여 잠재 공간을 줄이고 3개의 업샘플링 블록과 전치된 컨볼루션을 사용하여 의 출력 형태로 복원합니다.
Memory Unit: 특히 Gated Recurrent Unit의 컨볼루션 버전인 컨볼루셔널 GRU(convGRU)를 사용하여 시스템의 메모리를 순환 신경망(RNN)으로 모델링합니다. Convolutional GRU의 장점은 Vanishing Gradient 문제를 피하고 공간 데이터 특성을 유지하면서 효율성을 향상시킨다는 것입니다. LSTM과 같은 다른 옵션에 비해 GRU는 게이트 수가 적기 때문에 훈련 가능한 매개 변수가 적고 메모리 정규화 기술(숨겨진 상태의 복잡성 감소)로 간주될 수 있습니다. 유사한 성격의 작업을 병합하면 필요한 컨벌루션 레이어 수가 줄어들어 단위가 더 효율적이 됩니다.
감지 헤드: SSD(Single Shot MultiBox Detector)에 대한 간단한 수정입니다. SSD의 핵심 개념, 즉 지역 제안이 없는 단일 패스는 유지되지만 앵커 박스의 사용은 제거됩니다. 셀 다중 객체 감지 기능이 손실되더라도 그리드의 각 셀에 대한 예측을 직접 출력하면 지루하고 종종 부정확한 앵커 상자 매개변수 조정을 피하고 추론 프로세스가 단순화됩니다. 선형 레이어는 분류 및 지역화(위치, 크기 및 각도) 회귀의 각 출력을 처리합니다. 크기만 음수 값을 취하는 것을 방지하기 위해 활성화 함수(ReLU)를 사용합니다. 또한, 본 논문에서는 관련 문헌과 달리 차량의 주행 방향에 대한 사인 성분과 코사인 성분을 독립적으로 예측하고, 이로부터 각도를 추출함으로써 직접 각도 회귀 문제를 피한다.

Feature Ego-Motion Compensation

이 부분에서 저자는 이전 프레임의 좌표계로 표현되는 Convolutional GRU에서 출력된 숨겨진 상태 기능을 처리하는 방법에 대해 논의합니다. 직접 저장하여 다음 예측을 계산하는 데 사용하면 자아 움직임으로 인해 공간 불일치가 발생합니다.

변환에는 다양한 기술을 적용할 수 있습니다. 이상적으로는 수정된 데이터가 네트워크 내에서 변환되지 않고 네트워크에 공급됩니다. 그러나 이는 추론 과정의 각 단계에서 숨겨진 상태를 재설정하고, 이전 포인트 클라우드를 변환하고, 이를 네트워크 전체에 전파해야 하기 때문에 논문에서 제안한 방법이 아닙니다. 이는 비효율적일 뿐만 아니라 RNN 사용 목적에도 맞지 않습니다. 따라서 루프 컨텍스트에서는 기능 수준에서 보상을 수행해야 합니다. 이는 가상 솔루션을 더욱 효율적으로 만들지만 문제를 더욱 복잡하게 만듭니다. 변환된 좌표계에서 특징을 얻기 위해 전통적인 보간 방법을 사용할 수 있습니다.

반면, Chen 외 연구진의 연구에서 영감을 받은 이 논문에서는 컨볼루션 연산과 보조 작업을 사용하여 변환을 수행할 것을 제안합니다. 본 논문에서는 앞서 언급한 작업의 제한된 세부 사항을 고려하여 이 문제에 대한 맞춤형 솔루션을 제안합니다.

논문에서 취한 접근 방식은 추가 컨볼루셔널 레이어를 통해 특징 변환을 수행하는 데 필요한 정보를 네트워크에 제공하는 것입니다. 두 개의 연속 프레임 사이의 상대 변환 행렬, 즉 기능을 성공적으로 변환하는 데 필요한 작업이 먼저 계산됩니다. 그런 다음 여기에서 2D 정보(회전 및 이동 부분)를 추출합니다.

이러한 단순화는 주요 행렬 상수를 피하고 2D(의사 이미지) 영역에서 작동하여 16개 값을 6으로 줄입니다. 그런 다음 매트릭스는 보상할 숨겨진 특징의 모양과 일치하도록 편평화되고 확장됩니다. 첫 번째 차원은 변환해야 하는 프레임 수를 나타냅니다. 이 표현은 숨겨진 기능의 채널 차원에서 각 잠재적인 기둥을 연결하는 데 적합합니다.

마지막으로 숨겨진 상태 기능은 변환 프로세스에 맞게 조정된 2D 컨볼루셔널 레이어에 공급됩니다. 주목해야 할 핵심 측면은 컨볼루션을 수행한다고 해서 변환이 발생한다는 것을 보장하지 않는다는 것입니다. 채널 연결은 단순히 변환이 수행되는 방법에 대한 추가 정보를 네트워크에 제공합니다. 이 경우 보조 학습을 사용하는 것이 적절합니다. 훈련 중에 추가 학습 목표(좌표 변환)가 기본 목표(객체 감지)와 병행하여 추가됩니다. 보조 작업은 보상의 정확성을 보장하기 위해 감독 하에 변환 프로세스를 통해 네트워크를 안내하는 것이 목적으로 설계되었습니다. 네트워크가 기능을 올바르게 변환하는 방법을 학습하면 적용성이 상실됩니다. 따라서 이 작업은 추론 중에 고려되지 않습니다. 다음 섹션에서는 영향을 비교하기 위해 추가 실험을 수행합니다.

Experiments

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

실험 결과에 따르면 TimePillars 모델은 ZOD(Zenseact Open Dataset) 프레임 데이터세트를 처리할 때, 특히 처리 범위가 최대 120미터일 때 우수한 성능을 발휘하는 것으로 나타났습니다. 이 결과는 다양한 모션 변환 방법에서 TimePillars의 성능 차이를 강조하고 다른 방법과 비교합니다.

기본 모델인 PointPillars와 다중 프레임(MF) PointPillars를 비교한 결과 TimePillars가 여러 핵심 성과 지표에서 상당한 개선을 달성했음을 알 수 있습니다. 특히 NuScenes 탐지 점수(NDS)에서는 TimePillars가 더 높은 전체 점수를 보여 탐지 성능과 위치 정확도에 대한 장점을 반영했습니다. 또한 TimePillars는 평균 변환 오류(mATE), 평균 스케일 오류(mASE) 및 평균 방향 오류(mAOE)에서도 더 낮은 값을 달성하여 위치 정확도 및 방향 추정이 더 정확함을 나타냅니다. 특히 주목할 점은 모션 변환 측면에서 TimePillars의 다양한 구현이 성능에 상당한 영향을 미친다는 것입니다. 컨볼루션 기반 모션 변환(Conv 기반)을 사용할 때 TimePillars는 NDS, mATE, mASE 및 mAOE에서 특히 뛰어난 성능을 발휘하여 모션 보상에서 이 방법의 효율성을 입증하고 감지 정확도를 향상시킵니다. 반면, 보간법을 사용한 TimePillars 역시 기준 모델보다 성능이 뛰어나지만 일부 지표에서는 컨볼루션 방법보다 열등합니다. 평균 정밀도(mAP) 결과는 TimePillars가 차량, 자전거 타는 사람 및 보행자를 감지하는 데 탁월한 성능을 발휘한다는 것을 보여줍니다. 특히 자전거 타는 사람 및 보행자와 같이 보다 까다로운 범주를 처리할 때 성능 향상이 더욱 두드러집니다. 처리 주파수(f(Hz)) 측면에서 TimePillar는 단일 프레임 PointPillar만큼 빠르지는 않지만 높은 감지 성능을 유지하면서 다중 프레임 PointPillar보다 빠릅니다. 이는 TimePillars가 실시간 처리를 유지하면서 장거리 감지 및 모션 보상을 효과적으로 수행할 수 있음을 보여줍니다. 즉, TimePillars 모델은 특히 다중 프레임 데이터 처리 및 컨볼루션 기반 모션 변환 기술을 사용할 때 장거리 감지, 모션 보상 및 처리 속도에서 상당한 이점을 나타냅니다. 이러한 결과는 자율주행차용 3D LiDAR 객체 감지 분야에서 TimePillars의 적용 가능성을 강조합니다.

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

위의 실험 결과는 TimePillars 모델이 특히 벤치마크 모델인 PointPillars와 비교하여 다양한 거리 범위에서 객체 감지 성능이 탁월하다는 것을 보여줍니다. 이러한 결과는 0~50m, 50~100m, 100m 이상 등 세 가지 주요 감지 범위로 나뉩니다.

먼저 NuScenes 탐지 점수(NDS)와 평균 정밀도(mAP)가 전반적인 성능 지표입니다. TimePillars는 두 지표 모두에서 PointPillars보다 성능이 뛰어나며 전반적으로 더 높은 감지 기능과 포지셔닝 정확도를 보여줍니다. 특히 TimePillars의 NDS는 0.723으로 mAP 측면에서 PointPillars의 0.657보다 훨씬 높습니다. 또한 TimePillars는 0.570으로 PointPillars의 0.475를 훨씬 능가합니다.

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

다양한 거리 범위 내의 성능 비교에서 TimePillars가 각 범위에서 더 나은 성능을 발휘하는 것을 볼 수 있습니다. 차량 카테고리의 경우 0~50미터, 50~100미터, 100미터 이상 범위에서 TimePillars의 감지 정확도는 각각 0.884, 0.776, 0.591로 동일한 범위의 PointPillars 성능보다 모두 높습니다. 이는 TimePillars가 근거리 및 원거리 모두에서 차량 감지 정확도가 더 높다는 것을 보여줍니다. TimePillars는 또한 취약한 차량(예: 오토바이, 휠체어, 전기 스쿠터 등)을 처리할 때 더 나은 감지 성능을 보여주었습니다. 특히 100m 이상의 범위에서 TimePillars의 감지 정확도는 0.178인 반면 PointPillars는 0.036에 불과해 장거리 감지에 상당한 이점을 보여줍니다. 보행자 감지의 경우 TimePillars는 특히 50~100m 범위에서 0.350의 감지 정확도로 더 나은 성능을 보인 반면 PointPillars는 0.211에 불과했습니다. 더 먼 거리(100미터 이상)에서도 TimePillars는 특정 수준의 감지(정확도 0.032)를 달성하는 반면 PointPillars는 이 범위에서 0을 수행합니다.

이러한 실험 결과는 다양한 거리 범위에서 물체 감지 작업을 처리하는 데 있어서 TimePillars의 탁월한 성능을 강조합니다. 근거리에서든 장거리에서든 TimePillars는 자율주행차의 안전과 효율성에 중요한 보다 정확하고 신뢰할 수 있는 감지 결과를 제공합니다.

Discussion

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

우선 TimePillars 모델의 가장 큰 장점은 장거리 물체 감지에 대한 효율성입니다. 동적 복셀화 및 컨볼루셔널 GRU 구조를 사용함으로써 모델은 특히 장거리 객체 감지에서 희소 LiDAR 데이터를 더 잘 처리할 수 있습니다. 이는 복잡하고 변화하는 도로 환경에서 자율주행차의 안전한 작동에 매우 중요합니다. 또한, 실시간 응용에 필수적인 처리 속도 측면에서도 좋은 성능을 보여준다. 반면 TimePillars는 모션 보상을 위해 컨볼루션 기반 방법을 채택했는데, 이는 기존 방법에 비해 크게 개선되었습니다. 이 접근 방식은 훈련 중 보조 작업을 통해 변환의 정확성을 보장하여 움직이는 객체를 처리할 때 모델의 정확성을 향상시킵니다.

그러나 본 논문의 연구에도 몇 가지 한계가 있습니다. 첫째, TimePillars는 멀리 있는 물체 감지를 잘 처리하는 반면, 이러한 성능 향상은 일부 처리 속도를 희생할 수 있습니다. 모델의 속도는 여전히 실시간 애플리케이션에 적합하지만 단일 프레임 방법에 비해 여전히 감소합니다. 또한 이 백서는 주로 LiDAR 데이터에 초점을 맞추고 카메라나 레이더와 같은 다른 센서 입력을 고려하지 않습니다. 이로 인해 보다 복잡한 다중 센서 환경에서 모델 적용이 제한될 수 있습니다.

즉, TimePillars는 자율주행차용 3D LiDAR 물체 감지, 특히 장거리 감지 및 동작 보상 분야에서 상당한 이점을 보여주었습니다. 다중 센서 데이터 처리의 처리 속도와 제한 사항이 약간 상충됨에도 불구하고 TimePillars는 여전히 이 분야에서 중요한 발전을 이루고 있습니다.

결론

이 연구는 과거의 센서 데이터를 고려하는 것이 현재 정보를 활용하는 것보다 우수하다는 것을 보여줍니다. 이전 주행 환경 정보에 접근하면 LiDAR 포인트 클라우드의 희박한 특성에 대처하고 보다 정확한 예측을 할 수 있습니다. 우리는 순환 네트워크가 후자를 달성하기 위한 수단으로 적합하다는 것을 보여줍니다. 시스템 메모리를 제공하면 광범위한 처리를 통해 더 조밀한 데이터 표현을 생성하는 포인트 클라우드 집계 방법에 비해 더 강력한 솔루션이 됩니다. 우리가 제안한 방법인 TimePillars는 재귀 문제를 해결하는 방법을 구현합니다. 추론 프로세스에 3개의 추가 컨볼루셔널 레이어를 간단히 추가함으로써 기본 네트워크 구성 요소가 중요한 결과를 달성하고 기존 효율성 및 하드웨어 통합 사양을 충족하는 데 충분하다는 것을 보여줍니다. 우리가 아는 한, 이 작업은 새로 도입된 Zenseact 공개 데이터 세트에 대한 3D 객체 감지 작업에 대한 첫 번째 벤치마크 결과를 제공합니다. 우리의 작업이 미래에 더욱 안전하고 지속 가능한 도로를 만드는데 기여할 수 있기를 바랍니다.

위 내용은 TimePillars: 순수한 LiDAR 3D 감지 경로를 어디에서 확장할 수 있습니까? 200m 다이렉트 커버리지!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7511

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다!

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 Apr 26, 2024 am 11:37 AM

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

자율주행의 최초 순수 시각적 정적 재구성 Jun 02, 2024 pm 03:24 PM

순수한 시각적 주석 솔루션은 주로 비전과 동적 주석을 위한 GPS, IMU 및 휠 속도 센서의 일부 데이터를 사용합니다. 물론 대량 생산 시나리오의 경우 순수 비전일 필요는 없습니다. 일부 대량 생산 차량에는 고체 레이더(AT128)와 같은 센서가 장착됩니다. 대량 생산 관점에서 데이터 폐쇄 루프를 만들고 이러한 센서를 모두 사용하면 동적 개체에 라벨을 붙이는 문제를 효과적으로 해결할 수 있습니다. 그러나 우리 계획에는 고체 레이더가 없습니다. 따라서 가장 일반적인 대량 생산 라벨링 솔루션을 소개하겠습니다. 순수한 시각적 주석 솔루션의 핵심은 고정밀 포즈 재구성에 있습니다. 재구성 정확도를 보장하기 위해 SFM(Structure from Motion)의 포즈 재구성 방식을 사용합니다. 하지만 통과

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다. May 08, 2024 am 11:40 AM

위 작성 및 저자 개인적 이해 최근 자율주행은 운전자의 부담을 줄이고 운전 안전성을 높일 수 있다는 점에서 주목을 받고 있다. 비전 기반 3차원 점유 예측은 자율 주행 안전에 대한 비용 효율적이고 포괄적인 조사에 적합한 새로운 인식 작업입니다. 많은 연구에서 객체 중심 인식 작업에 비해 3D 점유 예측 도구의 우수성을 입증했지만, 빠르게 발전하는 이 분야에 대한 리뷰는 여전히 남아 있습니다. 본 논문에서는 먼저 비전 기반 3D 점유 예측의 배경을 소개하고 이 작업에서 직면하는 과제에 대해 논의합니다. 다음으로, 기능 향상, 배포 친화성, 라벨링 효율성이라는 세 가지 측면에서 현재 3D 점유 예측 방법의 현황과 개발 동향을 종합적으로 논의합니다. 마침내

LLM이 모두 완료되었습니다! OmniDrive: 3D 인식 및 추론 계획 통합(NVIDIA 최신) May 09, 2024 pm 04:55 PM

위에 작성됨 및 저자의 개인적 이해: 이 문서는 자율 주행 애플리케이션에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념하고 있습니다. 이는 MLLM을 2D 이해에서 3D 공간으로 확장하는 문제입니다. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다. 현재 다중 모드 대형 언어 모델(예: LLaVA-1.5)은 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 저해상도 이미지 입력(예:)만 처리할 수 있는 경우가 많습니다. 하지만 자율주행 애플리케이션에는

'폐쇄 루프'를 향하여 | PlanAgent: MLLM 기반 자율 주행의 폐쇄 루프 계획을 위한 새로운 SOTA! Jun 08, 2024 pm 09:30 PM

중국과학원 자동화 연구소의 심층 강화 학습 팀은 Li Auto 등과 함께 다중 모드 대형 언어 모델인 MLLM(PlanAgent)을 기반으로 자율 주행을 위한 새로운 폐쇄 루프 계획 프레임워크를 제안했습니다. 이 방법은 장면에 대한 조감도와 그래프 기반 텍스트 프롬프트를 입력으로 취하고, 다중 모드 대형 언어 모델의 다중 모드 이해 및 상식 추론 기능을 활용하여 장면 이해부터 생성까지 계층적 추론을 수행합니다. 수평 및 수직 이동 지침을 작성하고 플래너가 요구하는 지침을 추가로 생성합니다. 이 방법은 대규모의 까다로운 nuPlan 벤치마크에서 테스트되었으며 실험에서는 PlanAgent가 일반 시나리오와 롱테일 시나리오 모두에서 최첨단(SOTA) 성능을 달성하는 것으로 나타났습니다. PlanAgent는 기존의 LLM(Large Language Model) 방식과 비교하여

BEVFusion을 넘어! DifFUSER: 확산모델이 자율주행 멀티태스크 진입(BEV 세분화 + 감지 듀얼 SOTA) Apr 22, 2024 pm 05:49 PM

위 작성 및 저자 개인적 이해 현재 자율주행 기술이 성숙해지고 자율주행 인식 작업에 대한 수요가 증가함에 따라, 3차원 타겟 탐지와 동시에 완성할 수 있는 이상적인 인식 알고리즘 모델에 대한 업계와 학계의 기대가 크다. BEV 공간의 의미론적 분할 작업을 기반으로 합니다. 자율 주행이 가능한 차량의 경우 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서가 장착되어 다양한 방식으로 데이터를 수집합니다. 이러한 방식으로 서로 다른 모달 데이터 간의 보완적인 이점을 완전히 활용할 수 있으므로 서로 다른 양식 간의 데이터의 보완적인 이점을 얻을 수 있습니다. 예를 들어 3D 포인트 클라우드 데이터는 3D 타겟 감지 작업에 대한 정보를 제공할 수 있고 컬러 이미지 데이터는 제공할 수 있습니다. 의미론적 분할 작업에 대한 더 많은 정보를 제공할 수 있습니다. 바늘

See all articles

TimePillars: 순수한 LiDAR 3D 감지 경로를 어디에서 확장할 수 있습니까? 200m 다이렉트 커버리지!

이전에 작성

TimePillars에 대한 자세한 설명

입력 전처리

모델 아키텍처

Feature Ego-Motion Compensation

Experiments

Discussion

결론

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제