신호등, 안내 표지판, 신호등을 포함한 정적 객체 감지(SOD)의 경우 대부분의 알고리즘은 데이터 기반 심층 신경망이며 많은 양의 훈련 데이터가 필요합니다. 현재 관행에는 일반적으로 롱테일 사례를 수정하기 위해 LiDAR 스캔 포인트 클라우드 데이터에 대한 다수의 훈련 샘플에 대한 수동 주석이 포함됩니다.
수동 주석은 실제 장면의 가변성과 복잡성을 포착하기 어렵고 종종 폐색, 다양한 조명 조건 및 다양한 시야각을 고려하지 못합니다(그림 1의 노란색 화살표). 전체 프로세스는 긴 링크로 구성되어 있으며 시간이 많이 걸리고 오류가 발생하기 쉬우며 비용이 많이 듭니다(그림 2). 그래서 현재 기업들은 특히 순수한 비전을 기반으로 한 자동 라벨링 솔루션을 찾고 있습니다. 결국 모든 자동차에 LiDAR가 있는 것은 아닙니다.
VRSO+는 주로 SFM, 2D 객체 감지 및 인스턴스 분할 결과의 정보를 사용하는 비전 기반 주석 시스템입니다.
정적 객체의 경우 VRSO는 인스턴스 분할을 통해 핵심 포인트를 추출하고 윤곽선 다양한 관점에서 정적 객체를 통합하고 중복 제거해야 하는 과제와 폐색 문제로 인한 관찰 부족으로 인해 주석 정확도가 향상됩니다. 그림 1에서 Waymo Open 데이터 세트의 수동 주석 결과와 비교하여 VRSO는 더 높은 견고성과 기하학적 정확도를 보여줍니다.
(모두 보셨을 텐데요. 엄지 손가락으로 위로 스와이프하고 상단에 있는 카드를 클릭하여 저를 팔로우해 보세요. 전체 작업은 1.328초만 소요되며, 그 다음에는 모든 유용한 정보를 가져옵니다. 미래에 유용할 경우를 대비해~)
VRSO 시스템은 크게 장면 재구성과 정적 객체 주석 두 부분으로 나뉩니다.
재구성 부분은 초점이 아닌 SFM 알고리즘을 기반으로 이미지 포즈와 희박한 3D 키 포인트를 복원합니다.
의사 코드와 결합된 정적 개체 주석 알고리즘의 일반적인 프로세스는 다음과 같습니다(다음은 단계별로 자세히 설명됩니다).
을 생성하여 전체 비디오 클립에 대한 정적 개체의 3D 상자 매개변수(위치, 방향, 크기)를 초기화합니다. SFM의 각 핵심 포인트에는 정확한 3D 위치와 해당 2D 이미지가 있습니다. 각 2D 인스턴스에 대해 2D 인스턴스 마스크 내의 특징점이 추출됩니다. 그런 다음 해당 3D 키포인트 집합을 3D 경계 상자의 후보로 간주할 수 있습니다.
거리 표지판은 이동(,,), 방향(θ) 및 크기(너비 및 높이)를 포함하여 6자유도를 갖는 공간 방향의 직사각형으로 표현됩니다. 깊이를 고려하면 신호등의 자유도는 7도입니다. 신호등은 신호등과 유사하게 표시됩니다.
삼각측량을 통해 3차원 조건에서 정적 객체의 초기 정점값을 구합니다.
장면 재구성 중 SFM 및 인스턴스 분할을 통해 얻은 3D 경계 상자의 키포인트 수를 확인하여 키포인트 수가 임계값을 초과하는 인스턴스만 안정적이고 유효한 관찰로 간주됩니다. 이러한 경우 해당 2D 경계 상자는 유효한 관찰로 간주됩니다. 여러 이미지의 2차원 관찰을 통해 2차원 경계 상자의 꼭지점을 삼각측량하여 경계 상자의 좌표를 얻습니다.
마스크의 "왼쪽 아래, 왼쪽 위, 오른쪽 위, 오른쪽 위, 오른쪽 아래" 정점을 구분하지 않는 원형 기호의 경우 이러한 원형 기호를 식별해야 합니다. 2D 검출 결과는 원형 객체의 관찰로 사용되며, 2D 인스턴스 분할 마스크는 윤곽선 추출에 사용됩니다. 중심점과 반경은 최소 제곱 피팅 알고리즘을 통해 계산됩니다. 원형 기호의 매개변수에는 중심점(,,), 방향(θ), 반경()이 포함됩니다.
SFM 기반의 추적 특징점 매칭. 3D 경계 상자 정점의 유클리드 거리와 2D 경계 상자 투영 IoU를 기반으로 이러한 개별 인스턴스를 병합할지 여부를 결정합니다. 병합이 완료되면 인스턴스 내의 3D 특징점을 클러스터링하여 더 많은 2D 특징점을 연결할 수 있습니다. 2D 특징점을 추가할 수 없을 때까지 반복적인 2D-3D 연관이 수행됩니다.
직사각형 기호를 예로 들면, 최적화할 수 있는 매개변수는 위치(,,), 방향(θ), 크기(,)이며 총 6도입니다. 자유의. 주요 단계는 다음과 같습니다.
매우 낮은 해상도 및 조명 부족과 같은 까다로운 롱테일 사례도 있습니다.
VRSO 프레임워크는 고정밀 객체에 대해 일관된 3D 주석을 달성하고 감지, 분할 및 SFM 알고리즘을 긴밀하게 통합하고 지능형 운전 주석에서 수동 개입을 제거하며 비교할 수 있는 LiDAR 기반 결과를 제공합니다. 수동 주석으로. 널리 알려진 Waymo Open Dataset을 사용하여 정성적, 정량적 평가를 수행했습니다. 수동 주석에 비해 속도는 약 16배 향상되었으며 최고의 일관성과 정확성을 유지했습니다.
위 내용은 효율성이 16배 증가했습니다! VRSO: 순수한 시각적 정적 객체의 3D 주석으로 데이터 폐쇄 루프를 엽니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!