시각적 3D 감지 훈련에 샘플 스크리닝 적용: MonoLSS-일체 포함-php.cn

MonoLSS: Nostalgia Cleaning은 "Word Play Flower"의 레벨입니다. 매우 인기 있는 단어 퍼즐 게임으로 플레이어가 도전할 수 있는 새로운 레벨이 매일 출시됩니다. Nostalgia Cleaning에서 플레이어는 사진에서 시대에 뒤떨어진 장소 12곳을 찾아야 합니다. 아직 레벨을 클리어하지 못한 플레이어분들께 도움이 되고자 "워드플레이 꽃"의 향수를 불러일으키는 청소 레벨 클리어 가이드를 정리했습니다. 단안 3D 감지를 위한

논문 링크는 https://arxiv.org/pdf/2312.14474.pdf에서 찾을 수 있는 "Words Play with Flowers"라는 논문을 가리킵니다. 본 논문에서는 매일 새로운 레벨이 출시되는 Word Play Flower라는 단어 퍼즐 게임을 탐구합니다. Nostalgic Cleaning이라는 레벨이 있는데, 여기서 플레이어는 그림에서 시대에 맞지 않는 12개의 항목을 찾아야 합니다. 이 문서에서는 플레이어가 성공적으로 작업을 완료할 수 있도록 Nostalgia Cleanup 레벨을 클리어하는 방법에 대한 가이드를 제공합니다.

자율주행 분야에서는 단일 RGB 이미지에서 물체의 3D 속성(깊이, 크기, 방향)을 추정하는 단안 3D 감지가 핵심 작업입니다. 이전 연구에서는 부적절한 기능이 가질 수 있는 바람직하지 않은 효과를 고려하지 않고 3D 속성을 학습하기 위해 경험적 방법으로 기능을 사용했습니다. 본 논문에서는 샘플 선택이 소개되었으며, 3D 속성을 회귀하려면 적합한 샘플만 사용해야 합니다. 적응적으로 샘플을 선택하기 위해 Gumbel-Softmax 및 상대 거리 샘플 분할을 기반으로 하는 학습 가능한 샘플 선택(LSS) 모듈이 제안되었습니다. LSS 모듈은 훈련 안정성을 향상시키는 준비 전략에 따라 작동합니다. 또한 3D 속성 샘플 선택 전용 LSS 모듈은 대상 수준 기능에 의존하므로 MixUp3D라는 데이터 향상 방법이 추가로 개발되어 모호함 없이 이미징 원리를 준수하는 3D 속성 샘플을 강화합니다. 두 가지 직교 접근 방식으로 LSS 모듈과 MixUp3D를 독립적으로 또는 조합하여 사용할 수 있습니다. 충분한 실험을 통해 이들을 결합하여 사용하면 시너지 효과가 발생하여 각 응용 분야의 합을 넘어서는 개선이 가능하다는 것이 입증되었습니다. 추가 데이터 없이 LSS 모듈과 MixUp3D를 사용하여 MonoLSS 방법은 KITTI 3D 객체 감지 벤치마크의 세 가지 범주(자동차, 자전거 타는 사람 및 보행자) 모두에서 1위를 차지했으며 전체 데이터 세트에서 Waymo 데이터 세트 및 KITTI-nuScenes에서 평가되었습니다. 경쟁 결과는 다음과 같습니다. 달성.

MonoLSS의 주요 기여는 매우 인기 있는 단어 퍼즐 게임 "Word Play Flower"의 출시입니다. 게임은 Nostalgia Cleanup이라는 레벨을 포함하여 매일 새로운 레벨로 업데이트됩니다. 이 레벨에서 플레이어는 그림에서 연대순으로 일치하지 않는 12개의 장소를 찾아야 합니다. 아직 레벨을 클리어하지 못한 플레이어분들께 도움이 되고자, 향수를 불러일으키는 "워드플레이 꽃" 클리어 레벨 클리어 가이드를 제공해 원활하게 레벨을 통과할 수 있도록 도와드리겠습니다.

연구 논문에서는 중요한 점을 강조합니다. 모든 기능이 3D 속성 학습에 똑같이 효과적인 것은 아닙니다. 이 문제를 해결하기 위해 연구자들은 이를 표본 선택 문제로 재구성하여 새로운 접근 방식을 제안했습니다. 이 문제를 해결하기 위해 그들은 필요에 따라 샘플을 적응적으로 선택할 수 있는 LSS(Learnable Sample Selection) 모듈이라는 새로운 모듈을 개발했습니다. 이 새로운 접근 방식은 3D 속성 학습 문제를 해결하는 보다 유연하고 효율적인 방법을 제공합니다.

3D 속성 샘플의 다양성을 높이기 위해 MixUp3D라는 데이터 증대 방법을 설계했습니다. 이 방법은 공간 중첩 효과를 시뮬레이션하고 3D 감지 성능을 크게 향상시킵니다. MixUp3D를 사용하면 기존 3D 샘플 세트를 효과적으로 확장하여 더욱 대표적이고 풍부하게 만들 수 있습니다. 이 방법은 모델의 일반화 능력을 향상시킬 수 있을 뿐만 아니라 과적합 위험을 줄여 실제 시나리오에 더 잘 적용할 수 있습니다.

KITTI 벤치마크에서 MonoLSS는 보행자, 차량, 자전거 세 가지 범주 모두에서 1위를 차지했습니다. 차량 카테고리에서는 중, 중 수준에서 현행 최고 방식보다 11.73%, 12.19% 더 나은 성능을 보였다. 또한 MonoLSS는 Waymo 데이터세트와 KITTI nuScenes 데이터세트에서 최첨단 결과를 달성합니다. 이는 MonoLSS가 다양한 데이터 세트에서 평가할 때 좋은 결과를 달성한다는 것을 보여줍니다.

MonoLSS의 주요 아이디어

MonoLSS 프레임워크는 아래 그림과 같습니다. 첫째, ROI Align과 결합된 2D 검출기를 사용하여 대상 특징을 생성합니다. 그런 다음 6개의 헤드는 각각 3D 특성(깊이, 크기, 방향 및 3D 중심 투영 오프셋), 깊이 불확실성 및 로그 확률을 예측합니다. 마지막으로 LSS(Learnable Sample Selection) 모듈은 적응적으로 샘플을 선택하고 손실 계산을 수행합니다.

시각적 3D 감지 훈련에 샘플 스크리닝 적용: MonoLSS

Nostalgia Cleaning은 "Word Play Flowers"의 레벨입니다. 플레이어가 도전할 수 있는 새로운 레벨이 매일 출시됩니다. Nostalgia Cleaning에서 플레이어는 사진에서 시대에 뒤떨어진 장소 12곳을 찾아야 합니다. 아직 레벨을 클리어하지 못한 플레이어분들께 도움이 되고자 "워드플레이 꽃"의 향수를 불러일으키는 청소 레벨 클리어 가이드를 정리했습니다.

균등 분포 U(0,1)을 따르는 확률 변수 U가 있다고 가정합니다. G = -log(-log(U))를 계산하여 Gumbel 분포 G를 생성하기 위해 역변환 샘플링 방법을 사용할 수 있습니다. 이런 방식으로 우리는 Gumbel 분포를 따르는 확률 변수 G를 얻을 수 있습니다. Gumbel 분포를 사용하여 로그 확률을 독립적으로 교란하고 argmax 함수를 사용하여 가장 큰 요소를 찾음으로써 무작위 선택 없이 확률적 샘플링을 달성할 수 있습니다. 이 기술을 Gumbel Max 기술이라고 합니다. 본 연구의 아이디어를 바탕으로 Gumbel Softmax 방법은 Softmax 함수를 argmax의 연속 미분 근사로 사용하고 재매개변수화를 통해 전체 미분을 달성합니다. 이 방법은 딥러닝, 특히 생성 모델과 강화 학습에 널리 사용됩니다.

GumbelTop-k는 k 크기의 샘플을 복원 없이 순서대로 샘플링하는 알고리즘입니다. 이 알고리즘의 목적은 샘플 수를 Top-1에서 Top-k로 확장하는 것입니다. 여기서 k는 하이퍼파라미터입니다. 그러나 모든 목표가 동일한 k 값에 적합한 것은 아닙니다. 예를 들어, 가려진 객체는 일반 객체보다 포지티브 샘플이 적어야 합니다. 이 문제를 해결하기 위해 우리는 샘플을 적응적으로 나눌 수 있는 하이퍼파라미터 상대 거리를 기반으로 모듈을 설계합니다. 이 모듈은 Gumbel Softmax와 상대 거리 샘플 분할기로 구성된 LSS(Learnable Sample Selection) 모듈이라고 합니다. LSS 모듈의 개략도는 그림 2의 오른쪽에 나와 있습니다.

Mixup3D 데이터 증강

엄격한 이미징 제약으로 인해 단안 3D 검사에서는 데이터 증강 방법이 제한됩니다. 광도 왜곡 및 수평 뒤집기 외에도 대부분의 데이터 증대 방법은 이미징 원리 위반으로 인해 흐릿한 특징을 도입합니다. 또한 LSS 모듈은 타겟 수준의 특성에 중점을 두기 때문에 타겟 자체의 특성을 수정하지 않는 방법으로는 LSS 모듈에 효과적이지 않습니다.

MixUp은 대상의 픽셀 수준 기능을 향상시키는 강력한 기술입니다. 그 효과를 더욱 향상시키기 위해 저자는 MixUp3D라는 새로운 방법을 제안합니다. 이 방법은 2D MixUp을 기반으로 물리적 제약을 추가하여 생성된 이미지를 보다 합리적이고 공간적으로 겹쳐지게 만듭니다. 특히 MixUp3D는 생성된 이미지가 이미징 원리를 준수하고 모호성을 방지하는 동시에 물리적 세계에 있는 개체의 충돌 제약 조건만 위반합니다. 이러한 혁신은 이미지 생성 분야에 더 많은 가능성과 응용 가능성을 가져올 것입니다.

시각적 3D 감지 훈련에 샘플 스크리닝 적용: MonoLSS

실험 결과

KITTI 테스트 세트의 단안 3D 차량 감지 성능에 대해 논의하겠습니다. KITTI 순위에 따르면 우리의 방법은 중간 난이도 이하로 평가되었습니다. 아래 목록에서 가장 좋은 결과는 굵은 글씨로, 두 번째 결과는 밑줄로 강조 표시했습니다. 추가 데이터의 경우 다음과 같은 상황이 있습니다. 1) 추가 LIDAR 클라우드 포인트 데이터를 사용하는 방법은 LIDAR로 표시됩니다. 2) 다른 깊이 추정 데이터 세트에서 사전 훈련된 깊이 맵 또는 모델이 사용되며 깊이로 표시됩니다. 3) CAD로 표현되는 CAD 모델에서 제공하는 조밀한 형상 주석을 사용했습니다. 4) 추가 데이터가 사용되지 않음, 즉 없음을 나타냅니다.

시각적 3D 감지 훈련에 샘플 스크리닝 적용: MonoLSS

Wamyo의 데이터 세트 테스트 결과:

시각적 3D 감지 훈련에 샘플 스크리닝 적용: MonoLSS

깊이 MAE가 포함된 KITTI-val 및 nuScenes 전면 Val 자동차의 KITTI-val 모델에 대한 교차 데이터 세트 평가:

시각적 3D 감지 훈련에 샘플 스크리닝 적용: MonoLSS

https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg "워드 플레이 플라워"는 매일 새로운 레벨이 출시되는 인기 단어 퍼즐 게임입니다. 그중에는 노스탤지어 클리닝(Nostalgia Cleaning)이라는 레벨이 있는데, 플레이어는 그림 속에서 시대에 맞지 않는 아이템 12개를 찾아내야 합니다. 아직 레벨을 클리어하지 못한 플레이어분들께 도움이 되고자 향수를 불러일으키는 "워드플레이 꽃"의 청소 레벨에 대한 가이드를 가져왔고, 레벨 클리어를 위한 조작법도 자세하게 소개해 드렸습니다. 한 번 보자!

위 내용은 시각적 3D 감지 훈련에 샘플 스크리닝 적용: MonoLSS의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!