클라우드에서의 지능형 운전의 3D 재구성 우수 사례-일체 포함-php.cn

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

지능형 운전 기술의 지속적인 발전은 우리의 여행 방식과 교통 시스템을 변화시키고 있습니다. 3차원 재구성은 핵심 기술 중 하나로 지능형 주행 시스템에서 중요한 역할을 한다. 자율주행 기술의 구현 및 개발에는 자동차 자체의 인식 및 재구성 알고리즘 외에도 거대한 클라우드 재구성 기능의 지원이 필요합니다.볼케이노 엔진 멀티미디어 연구소는 강력한 클라우드와 결합된 업계 최고의 자체 개발 3D 재구성 기술을 사용합니다. 클라우드에서의 대규모 재구성, 자동 주석 및 현실적인 시뮬레이션과 같은 시나리오에서 관련 기술을 구현하고 적용하는 데 도움이 되는 플랫폼 리소스 및 기능입니다.

이 기사는 동적 및 정적 장면에서 화산 엔진 멀티미디어 연구소의 3D 재구성 기술의 원리와 실습에 초점을 맞추고 고급 라이트 필드 재구성 기술과 결합되어 클라우드의 지능형 3D 재구성이 지능형 분야에 어떻게 도움이 되는지 모든 사람이 더 잘 이해하고 이해할 수 있도록 돕습니다. 운전, 산업 발전을 돕습니다.

1. 기술적 과제와 어려움

운전 장면 재구성에는 도로 환경의 포인트 클라우드 수준의 3차원 재구성이 필요합니다. 기존의 3차원 재구성 기술 적용 시나리오와 비교할 때 주행 장면 재구성 기술은 다음과 같은 어려움을 안고 있습니다. 차량 작동 프로세스 차량의 환경 요인은 복잡하고 제어할 수 없습니다. 날씨, 조명, 차량 속도, 도로 상태 등이 모두 온보드 센서에서 수집된 데이터에 영향을 미치므로 재구성의 견고성에 문제가 됩니다. 기술.

차량 탑재 센서에는 카메라, 라이더, 밀리미터파 레이더, 관성 항법, GPS 포지셔닝 시스템, 휠 속도계 등이 많이 있습니다. 보다 정확한 재구성 결과를 얻기 위해 여러 센서의 데이터를 융합하는 방법 ? 기술은 과제를 제시합니다.
도로 위의 움직이는 차량, 무동력 차량, 보행자와 같은 동적 개체의 존재는 기존 재구성 알고리즘에 어려움을 가져올 것입니다. 정적 장면 재구성을 방해하는 동적 개체를 제거하고 위치, 크기 및 위치를 추정하는 방법은 무엇입니까? 동시에 동적 개체의 속도도 프로젝트의 어려움 중 하나입니다.
2. 운전 장면 재구성 기술 소개

자율주행 분야의 재구성 알고리즘은 일반적으로 라이다(LiDAR)와 카메라를 주요 기술로 사용하고, GPS와 관성항법 등을 보완한다. LiDAR는 고정밀 거리 측정 정보를 직접 얻고 장면 구조를 신속하게 얻을 수 있습니다. 사전 Lidar-카메라 조인트 보정을 통해 카메라에서 얻은 이미지는 레이저 포인트 클라우드에 색상, 의미 및 기타 정보를 제공할 수 있습니다. 동시에 GPS와 관성 내비게이션은 위치 파악을 돕고 재구성 프로세스 중 기능 저하로 인한 드리프트를 줄일 수 있습니다. 그러나 다선형 라이더는 가격이 비싸 엔지니어링 차량에 주로 사용되며, 양산 차량에는 대규모로 사용하기 어렵다.

이와 관련하여 화산 엔진 멀티미디어 연구소는 장면 내 동적 객체와 정적 객체를 구별하고 복원할 수 있는 정적 장면 재구성, 동적 객체 재구성 및 신경 방사선 필드 재구성 기술을 포함하는 순수 시각적 주행 장면 재구성 기술 세트를 독자적으로 개발했습니다. 정적 장면 장면의 조밀한 포인트 클라우드는 도로 표면, 표지판, 신호등과 같은 주요 요소를 강조하여 후속 4D 주석을 위해 장면에서 움직이는 객체의 위치, 크기, 방향 및 속도를 효과적으로 추정할 수 있습니다. 정적 장면 재구성 기본적으로 신경 방사선 필드는 장면 편집 및 시뮬레이션 렌더링에 사용할 수 있는 자유 시점 로밍을 달성하기 위해 장면을 재구성하고 재현하는 데 사용됩니다. 이 기술 솔루션은 LiDAR에 의존하지 않고 데시미터 수준의 상대 오차를 달성할 수 있어 최소한의 하드웨어 비용으로 LiDAR에 가까운 재구성 효과를 얻을 수 있습니다.

2.1 정적 장면 재구성 기술: 동적 간섭 제거 및 정적 장면 복원

시각적 재구성 기술은 다중 뷰 기하학을 기반으로 하며 재구성할 장면이나 객체가 프레임 간 일관성, 즉 서로 다른 이미지 프레임을 가져야 합니다. 정지 상태에서는 재구성 과정에서 동적 객체를 제거해야 합니다. 장면 내 다양한 요소의 중요도에 따라 밀집된 포인트 클라우드에서 관련 없는 포인트 클라우드를 제거하고 일부 핵심 요소 포인트 클라우드는 유지해야 하므로 이미지를 사전에 의미론적으로 분할해야 합니다.

이와 관련하여

Volcano Engine 멀티미디어 연구소는 AI 기술과 다중 시점 기하학의 기본 원리를 결합하여 강력하고 정확하며 완전한 고급 시각적 재구성 알고리즘 프레임워크를 구축합니다. 재구성 프로세스에는 이미지 전처리, 희소 재구성 및 조밀 재구성의 세 가지 주요 단계가 포함됩니다.

촬영 중 차량 탑재 카메라가 움직이고 있습니다. 노출 시간으로 인해 차량 속도가 증가함에 따라 수집된 이미지에 심각한 모션 블러가 나타납니다. 또한 대역폭과 저장 공간을 절약하기 위해 전송 과정에서 이미지가 되돌릴 수 없을 정도로 손실 압축되어 이미지 품질이 더욱 저하됩니다. 이를 위해 볼케이노 엔진 멀티미디어 연구실에서는 엔드투엔드 신경망을 사용해 이미지의 흐림을 제거함으로써 모션 블러를 억제하면서 이미지 품질을 향상시킬 수 있습니다. 디블러링 전과 후의 비교는 아래 그림에 나와 있습니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

디블러 제거 전(왼쪽) 디블러 제거 후(오른쪽)

화산엔진 멀티미디어 연구실에서는 동적 물체를 구별하기 위해 광학 흐름을 기반으로 한 동적 개체 인식 기술을 사용하여 픽셀 수준의 동적 개체 마스크를 얻을 수 있습니다. . 이후의 정적 장면 재구성 과정에서 동적 개체 영역에 있는 특징점은 제거되고 정적 장면과 개체만 유지됩니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

광 흐름(왼쪽) 움직이는 객체(오른쪽)

희소 재구성 과정에서 카메라의 위치, 방향 및 장면 포인트 클라우드를 동시에 계산해야 합니다. 일반적으로 사용되는 알고리즘에는 SLAM 알고리즘(동시)이 포함됩니다. 현지화 및 매핑) 및 SFM 알고리즘(Structure from Motion, 줄여서 SfM). SFM 알고리즘은 실시간 성능 없이도 더 높은 재구성 정확도를 달성할 수 있습니다. 그러나 기존의 SFM 알고리즘은 일반적으로 각 카메라를 독립된 카메라로 취급하며 차량에는 일반적으로 여러 대의 카메라가 전면, 후면, 왼쪽, 오른쪽에 서로 다른 방향으로 배열되어 있으며 이들 카메라 간의 상대적인 위치는 실제로 고정되어 있습니다(차량을 무시함) ). 진동으로 인한 미묘한 변화). 카메라 간의 상대 위치 제약 조건을 무시하면 각 카메라의 계산된 포즈 오류가 상대적으로 커집니다. 또한, Occlusion이 심할 경우 개별 카메라의 포즈를 계산하기 어려워집니다. 이에 볼케이노 엔진 멀티미디어 연구실에서는 전체 카메라 그룹을 기반으로 한 SFM 알고리즘을 자체 개발했는데, 이는 카메라 간의 사전 상대 포즈 제약 조건을 활용하여 카메라 그룹 전체의 포즈를 계산할 수 있으며, GPS와 관성력을 함께 사용할 수도 있습니다. 내비게이션 결과를 융합하여 카메라 그룹의 중앙 위치를 제한하면 자세 추정의 성공률과 정확도가 효과적으로 향상되고, 서로 다른 카메라 간의 포인트 클라우드 불일치가 개선되며, 포인트 클라우드 레이어링이 줄어듭니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

전통적인 SFM(왼쪽) 카메라군 SFM(오른쪽)

지반의 단일 색상과 질감 부족으로 인해 전통적인 시각 재구성으로는 완전한 지반을 복원하기가 어렵지만, 차선, 화살표, 텍스트/로고 등의 핵심 요소가 있습니다. 따라서 화산엔진 멀티미디어 연구실에서는 지면에 맞는 2차 곡면을 사용하여 지면 면적의 깊이 추정 및 포인트 클라우드 융합을 지원합니다. 실제 도로 표면은 종종 이상적인 평면이 아니기 때문에 평면 피팅과 비교하여 2차 표면이 실제 도로 장면에 더 적합합니다. 다음은 평면방정식과 2차 곡면방정식을 이용하여 지반에 맞게 적용했을 때의 효과를 비교한 것입니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

평면 방정식(왼쪽) 2차 표면 방정식(오른쪽)

레이저 포인트 클라우드를 참값으로 간주하고 여기에 시각적 재구성 결과를 중첩하면 재구성된 포인트 클라우드의 정확도를 직관적으로 측정할 수 있습니다. . 아래 그림에서 볼 수 있듯이 재구성된 포인트 클라우드와 실제 포인트 클라우드 사이의 적합도는 매우 높습니다. 측정 후 재구성 결과의 상대 오차는 약 15cm입니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

화산엔진 멀티미디어 연구소 재구성 결과(색상)와 실제 포인트 클라우드(흰색)

다음은 화산 엔진 멀티미디어 연구소 영상 재구성 알고리즘과 주류 상용 재구성 소프트웨어의 효과를 비교한 것입니다. 상용 소프트웨어와 비교하여 볼케이노 엔진 멀티미디어 연구소가 자체 개발한 알고리즘은 도로 표지판, 신호등, 전신주, 차선 및 화살표를 더 훌륭하고 완벽하게 재구성하는 것을 볼 수 있습니다. 그러나 상용 소프트웨어의 재구성된 포인트 클라우드는 매우 드물고 넓은 영역에서 도로 표면이 누락되었습니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

주류 상용 소프트웨어(왼쪽) 화산엔진 멀티미디어 연구실 알고리즘(오른쪽)

2.2 동적 재구성 기술:

이미지에 객체에 3D 주석을 추가하는 것은 매우 어려우며 차량에 시각 센서만 있는 경우 대상 객체의 완전한 포인트 클라우드를 얻는 것이 매우 어렵습니다. 현장에서. 특히 동적 객체의 경우 기존 3D 재구성 기술로는 조밀한 포인트 클라우드를 얻을 수 없습니다. 움직이는 객체의 표현과 4D Annotation을 제공하기 위해 3D Bounding Box(이하 3D Bbox)를 사용하여 동적 객체를 표현하고, 3D Bbox에서는 각 장면 내 동적 객체의 자세, 크기, 속도 등을 표현합니다. 자체 개발한 동적 재구성 알고리즘 등을 통해 획득하여 동적 객체 재구성 기능을 보완합니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

동적 재구성 파이프라인

차량이 수집한 각 이미지 프레임에 대해 먼저 장면의 동적 대상을 추출하고 3D BBox의 초기 제안을 생성합니다. 2D 대상 감지를 사용하는 방법과 이를 통해. 카메라 포즈 해당 3D bbox를 추정하고 3D 타겟 감지를 직접 사용합니다. 두 가지 방법은 서로 다른 데이터에 대해 유연하게 선택할 수 있으며 2D 감지는 일반화가 우수하고 3D 감지는 더 나은 초기 값을 얻을 수 있습니다. 동시에, 이미지의 동적 영역 내부의 특징점이 추출됩니다. 단일 프레임 이미지의 초기 3D bbox 제안 및 특징점을 얻은 후 여러 프레임 간의 데이터 상관 관계를 설정합니다. 자체 개발한 다중 타겟 추적 알고리즘을 통해 객체 매칭을 설정하고 특징 매칭 기술을 통해 이미지 특징을 일치시킵니다. 매칭 관계를 획득한 후 공통 뷰 관계를 갖는 이미지 프레임을 로컬 맵으로 생성하고 전역적으로 일관된 대상 bbox 추정을 해결하기 위해 최적화 문제를 구성합니다. 구체적으로, 특징점 매칭 및 동적 삼각 측량 기술을 통해 동적 3D 점을 복원하고, 객체, 3D 점 및 카메라 간의 관찰을 공동으로 최적화하여 최적 추정 동적 객체 3D bbox를 얻습니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

2d 생성 3d(왼쪽에서 두 번째) 3d 대상 감지 예

2.3 NeRF재구성: 사실적인 렌더링, 자유로운 관점

암시적 재구성을 위해 신경망 사용 , A를 사용하여 미분 렌더링 모델은 기존 뷰에서 새로운 관점으로 이미지를 렌더링하는 방법을 학습하여 사실적인 이미지 렌더링, 즉 NeRF(Neural Radiation Field) 기술을 구현합니다. 동시에 암시적 재구성은 편집 가능하고 연속적인 공간을 쿼리하는 특성을 가지며 자율 주행 시나리오에서 자동 주석 및 시뮬레이션 데이터 구성과 같은 작업에 사용될 수 있습니다. NeRF 기술을 사용한 장면 재구성은 매우 중요합니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례

화산엔진 멀티미디어 연구실은 신경방사선장 기술과 대규모 장면 모델링 기술을 결합하고 있습니다. 특정 실습에서는 데이터가 먼저 처리됩니다. 자체 개발한 동적 및 정적 분할, 그림자 감지 및 기타 알고리즘을 사용하여 장면의 동적 개체가 일치하지 않는 영역에 아티팩트를 발생시킵니다. 형상이 추출되고 마스크가 생성되는 동시에 비디오 인페인팅 알고리즘을 사용하여 제거된 영역을 복구합니다. 자체 개발한 3D 재구성 기능을 사용하여 카메라 매개변수 추정, 희소하고 조밀한 포인트 클라우드 생성을 포함하여 장면의 고정밀 기하학적 재구성이 수행됩니다. 또한, 단일 훈련 자원 소모를 줄이기 위해 시나리오를 분할하고 분산 훈련 및 유지 관리를 수행할 수 있습니다. 신경 방사선 현장 훈련 과정에서 경계가 없는 대규모 실외 장면에 대해 팀은 훈련 중 포즈를 동시에 최적화하여 재구성 정확도를 향상시키는 등 이 장면의 새로운 관점 생성 효과를 개선하기 위해 몇 가지 최적화 전략을 사용했습니다. 해시 코딩은 모델 훈련 속도를 향상시키고, 모양 코딩은 서로 다른 시간에 수집된 장면의 모양 일관성을 향상시키는 데 사용되며, mvs 밀집 깊이 정보는 기하학적 정확도를 향상시키는 데 사용됩니다. 팀은 HaoMo Zhixing과 협력하여 단일 채널 인수 및 다중 채널 병합 NeRF 재구성을 완료했습니다. 관련 결과는 Haomo AI Day에 발표되었습니다.

클라우드에서의 지능형 운전의 3D 재구성 우수 사례