SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?-일체 포함-php.cn

제안된 방법

고품질 기능 생성

Detector Training

Polar Sampling

Polar Grouping

Polar Pasting

Deep Fusion

실험 비교 분석

집

기술 주변기기

일체 포함

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

王林

Sep 28, 2023 pm 09:41 PM

자율주행 기차

라이다 카메라 융합 기반의 3D 감지는 자율주행의 핵심 과제입니다. 최근 몇 년 동안 많은 LiDAR 카메라 융합 방법이 등장하여 좋은 성능을 얻었지만 이러한 방법에는 항상 잘 설계되고 효과적으로 감독되는 융합 프로세스가 부족합니다.

이 문서에서는 레이저 레이더-카메라 융합을 제공하는 SupFusion이라는 새로운 훈련 전략을 소개합니다. 보조 기능 수준 감독을 통해 탐지 성능을 크게 향상시킵니다. 이 방법에는 희소 대상을 암호화하고 보조 모델을 훈련하여 감독을 위한 고품질 기능을 생성하기 위한 Polar Sampling 데이터 증대 방법이 포함됩니다. 이러한 기능은 LiDAR 카메라 융합 모델을 훈련하고 융합된 기능을 최적화하여 고품질 기능 생성을 시뮬레이션하는 데 사용됩니다. 또한 SupFusion 전략을 사용하는 이전 융합 방법에 비해 지속적으로 우수한 성능을 달성하는 간단하면서도 효과적인 심층 융합 모듈을 제안합니다. 본 논문의 방법에는 다음과 같은 장점이 있습니다. 첫째, SupFusion은 추가 추론 비용을 늘리지 않고도 LiDAR 카메라의 감지 성능을 향상시킬 수 있는 보조 기능 수준 감독을 도입합니다. 둘째, 제안된 심층 융합은 탐지기의 성능을 지속적으로 향상시킬 수 있습니다. 제안된 SupFusion 및 심층 융합 모듈은 플러그 앤 플레이 방식이며, 본 논문에서는 광범위한 실험을 통해 그 효과를 입증합니다. 여러 LiDAR 카메라를 기반으로 한 3D 감지에 대한 KITTI 벤치마크에서 약 2%의 3D mAP 개선이 달성되었습니다!

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

그림 1: 상단, 이전 LiDAR 카메라 3D 감지 모델, 융합 모듈은 감지 손실을 통해 최적화되었습니다. 하단: 본 글에서 제안하는 SupFusion은 보조 모델이 제공하는 고품질 기능을 통해 보조 감독을 도입합니다.

LiDAR 카메라 융합을 기반으로 한 3D 감지는 자율 주행 및 로봇 공학에서 중요하고 어려운 작업입니다. 이전 방법에서는 항상 카메라 입력을 내부 및 외부 매개변수를 통해 LiDAR BEV 또는 복셀 공간에 투영하여 LiDAR와 카메라 기능을 정렬합니다. 그런 다음 최종 탐지를 위한 융합된 특징을 얻기 위해 간단한 연결 또는 합산이 사용됩니다. 또한 일부 딥러닝 기반 융합 방법은 유망한 성능을 달성했습니다. 그러나 이전 융합 방법은 감지 손실을 통해 항상 3D/2D 특징 추출 및 융합 모듈을 직접 최적화하므로 특징 수준에서 신중한 설계와 효과적인 감독이 부족하여 성능이 제한됩니다.

최근 몇 년 동안 증류 방법은 3D 감지를 위한 기능 수준 감독에서 큰 개선을 보였습니다. 일부 방법은 카메라 입력을 기반으로 깊이 정보를 추정하기 위해 2D 백본을 안내하는 LiDAR 기능을 제공합니다. 또한 일부 방법은 LiDAR 백본을 감독하여 LiDAR 입력에서 전역 및 상황별 표현을 학습하는 LiDAR 카메라 융합 기능을 제공합니다. 보다 강력하고 고품질 기능을 시뮬레이션하여 기능 수준의 보조 감독을 도입함으로써 감지기는 한계 개선을 촉진할 수 있습니다. 이에 영감을 받아 LiDAR 카메라 기능 융합을 처리하는 자연스러운 솔루션은 더 강력하고 고품질의 기능을 제공하고 LiDAR 카메라 3D 감지를 위한 보조 감독을 도입하는 것입니다!

LiDAR 카메라 기반 융합 3D 감지 성능을 향상시키기 위해 이 기사에서는 SupFusion이라는 감독 LiDAR 카메라 융합 방법을 제안합니다. 이 방법은 고품질 기능을 생성하고 융합 및 기능 추출 프로세스에 대한 효과적인 감독을 제공함으로써 이를 달성합니다. 먼저, 고품질 기능을 제공하기 위해 보조 모델을 훈련합니다. 더 큰 모델이나 추가 데이터를 활용하는 이전 방법과 달리 Polar Sampling이라는 새로운 데이터 증대 방법을 제안합니다. Polar Sampling은 희박한 LiDAR 데이터에서 대상의 밀도를 동적으로 향상시켜 대상을 더 쉽게 감지하고 정확한 감지 결과와 같은 특징 품질을 향상시킵니다. 그런 다음 LiDAR 카메라 융합을 기반으로 탐지기를 훈련하고 보조 기능 수준 감독을 도입합니다. 이 단계에서는 원시 LiDAR 및 카메라 입력을 3D/2D 백본 및 융합 모듈에 공급하여 융합된 기능을 얻습니다. 융합된 특징은 최종 예측을 위해 감지 헤드에 공급되는 반면, 보조 감독은 융합된 특징을 고품질 특징으로 모델링합니다. 이러한 기능은 사전 훈련된 보조 모델과 향상된 LiDAR 데이터를 통해 획득됩니다. 이러한 방식으로 제안된 기능 수준 감독을 통해 융합 모듈은 보다 강력한 기능을 생성하고 감지 성능을 더욱 향상시킬 수 있습니다. LiDAR와 카메라의 기능을 보다 효과적으로 융합하기 위해 적층된 MLP 블록과 동적 융합 블록으로 구성된 간단하고 효과적인 딥 퓨전 모듈을 제안합니다. SupFusion은 심층 융합 모듈의 기능을 완전히 활용하고 감지 정확도를 지속적으로 향상시킬 수 있습니다!

이 기사의 주요 기여:

주로 고품질 특징 생성 프로세스로 구성된 새로운 지도 융합 훈련 전략인 SupFusion을 제안하고, 강력한 융합 특징 추출과 정확한 3D 검출을 위한 보조 특징 수준 지도 손실을 최초로 제안합니다.
SupFusion에서 고품질 기능을 얻기 위해 희소 대상을 암호화하는 "Polar Sampling"이라는 데이터 증대 방법이 제안됩니다. 또한 탐지 정확도를 지속적으로 향상시키기 위한 효과적인 심층 융합 모듈을 제안합니다.
다양한 융합 전략을 사용하는 다중 검출기를 기반으로 광범위한 실험을 수행했으며 KITTI 벤치마크에서 약 2%의 mAP 개선을 얻었습니다.

제안된 방법

고품질 특징 생성 과정은 아래 그림과 같습니다. 주어진 LiDAR 샘플에 대해 희소 대상은 Polar Pasting으로 암호화되고 Polar Pasting은 추출할 방향과 회전을 계산합니다. 데이터베이스에서 밀도가 높은 대상을 쿼리하고 붙여넣어 희박한 대상에 대한 추가 포인트를 추가합니다. 이 논문에서는 먼저 향상된 데이터로 보조 모델을 훈련하고 강화된 LiDAR 데이터를 보조 모델에 공급하여 수렴 후 고품질 기능 f*를 생성합니다.

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

고품질 기능 생성

SupFusion에서 기능 수준 감독을 제공하기 위해 그림 3과 같이 증강 데이터에서 고품질 기능을 캡처하는 보조 모델이 채택되었습니다. 첫째, 보조 모델은 고품질 기능을 제공하도록 훈련됩니다. D의 모든 샘플에 대해 희소 라이더 데이터는 극성 그룹화에서 생성된 점 세트를 추가하여 대체 대상을 암호화하는 극성 붙여넣기를 통해 향상된 데이터를 얻기 위해 증가됩니다. 그런 다음 보조 모델이 수렴된 후 강화된 샘플을 최적화된 보조 모델에 입력하여 LiDAR 카메라 3D 감지 모델 훈련을 위한 고품질 기능을 캡처합니다. 주어진 LiDAR 카메라 감지기에 더 잘 적용하고 구현을 더 쉽게 만들기 위해 여기서는 LiDAR 분기 감지기를 보조 모델로 채택하기만 하면 됩니다!

Detector Training

특정 LiDAR 카메라 감지기의 경우 모델은 기능 수준에서 제안된 보조 감독을 사용하여 학습됩니다. 샘플, 이 주어지면 LiDAR와 카메라가 먼저 3D 및 2D 인코더에 입력되어 해당 특징을 캡처하고 이러한 특징은 융합 모델에 입력되어 융합된 특징을 생성하고 감지로의 흐름에서 최종 예측을 합니다. 너의 머리. 또한 제안된 보조 감독은 사전 훈련된 보조 모델과 향상된 LiDAR 데이터에서 생성된 고품질 기능을 사용하여 융합된 기능을 시뮬레이션하는 데 사용됩니다. 위 프로세스는 다음과 같이 공식화될 수 있습니다.

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

Polar Sampling

본 논문에서는 희소 문제를 해결하기 위해 제안된 SupFusion에 Polar Sampling이라는 새로운 데이터 향상 방법을 도입합니다. 문제로 인해 감지 오류가 발생하는 경우가 많습니다. 이를 위해 우리는 밀집된 타겟을 처리하는 방법과 유사하게 LiDAR 데이터에서 희소 타겟에 대한 밀집 처리를 수행합니다. 극좌표 샘플링은 극좌표 그룹화와 극좌표 붙여넣기의 두 부분으로 구성됩니다. 극좌표 그룹핑에서는 희박한 타겟을 더 조밀하게 만들기 위해 극좌표 붙여넣기에 사용되는 밀집된 타겟을 저장하는 데이터베이스를 주로 구축합니다

라이다 센서의 특성을 고려하면 수집된 포인트 클라우드 데이터에는 자연스럽게 특정한 특징이 있습니다. 밀도 분포. 예를 들어, 물체의 표면에는 LiDAR 센서를 향한 더 많은 지점이 있고 반대편에는 더 적은 지점이 있습니다. 밀도 분포는 주로 방향과 회전의 영향을 받는 반면 점의 밀도는 주로 거리에 따라 달라집니다. LiDAR 센서에 더 가까운 물체일수록 점 밀도가 더 높습니다. 이에 착안하여 본 논문의 목표는 희소 표적의 방향과 회전에 따라 장거리 희소 표적과 단거리 밀집 표적을 조밀화하여 밀도 분포를 유지하는 것이다. 장면의 중심과 특정 타겟을 기준으로 전체 장면과 타겟에 대한 극좌표계를 구축하고, 라이더 센서의 양의 방향을 0도로 정의하여 해당 방향과 회전을 측정합니다. 그런 다음 유사한 밀도 분포(예: 비슷한 방향 및 회전)를 가진 타겟을 수집하고 극성 그룹의 각 그룹에 대해 조밀한 타겟을 생성하고 이를 극성 페이스트에서 밀도가 낮은 스파스 타겟에 사용합니다.

Polar Grouping

그림 4에 표시된 대로 , 여기에는 Polar Grouping의 방향과 회전에 따라 생성된 밀집 물체 점 집합 l을 저장하기 위한 데이터베이스 B가 구축되며, 이는 그림 4에서 α와 β로 기록됩니다!

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

먼저 전체 데이터 세트를 검색하고 위치별로 모든 대상의 극각을 계산하고 벤치마크에서 회전을 제공합니다. 둘째, 극각을 기준으로 대상을 그룹으로 나눕니다. 방향과 회전을 N개의 그룹으로 수동으로 나누고, 임의의 목표점 세트 l에 대해 인덱스에 따라 해당 그룹에 넣을 수 있습니다.

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

Polar Pasting

그림 2에서 볼 수 있듯이 Polar Pasting은 희소 라이더 데이터를 향상하여 보조 모델을 훈련하고 고품질 기능을 생성하는 데 사용됩니다. LiDAR 샘플 ,,,,에 대상이 포함되어 있으면 모든 대상에 대해 그룹화 프로세스와 동일한 방향 및 회전이 계산될 수 있으며 밀도가 높은 대상은 E.q에서 얻을 수 있는 레이블 및 인덱스에 따라 B에서 쿼리됩니다. 향상된 샘플의 경우 6개 모든 대상이 강화된 통계를 얻습니다.

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

Deep Fusion

향상된 LiDAR 데이터로 생성된 고품질 특징을 시뮬레이션하기 위해 융합 모델은 카메라 입력의 풍부한 색상과 상황별 특징에서 희소 대상의 누락된 정보를 추출하도록 설계되었습니다. 이를 위해 본 논문에서는 이미지 특징을 활용하고 LiDAR 시연을 완료하기 위한 심층 융합 모듈을 제안합니다. 제안된 딥퓨전은 크게 3D 학습기와 2D-3D 학습기로 구성된다. 3D 학습자는 3D 렌더링을 2D 공간으로 전송하는 데 사용되는 간단한 컨벌루션 레이어입니다. 그런 다음 2D 기능과 3D 렌더링(예: 2D 공간)을 연결하기 위해 2D-3D 학습자를 사용하여 LiDAR 카메라 기능을 융합합니다. 마지막으로, 융합된 기능은 MLP 및 활성화 기능에 의해 가중치가 부여되며, 이는 딥 퓨전 모듈의 출력으로 원래 LiDAR 기능에 다시 추가됩니다. 2D-3D 학습자는 깊이 K의 누적된 MLP 블록으로 구성되며 카메라 기능을 활용하여 희소 대상의 LiDAR 표현을 완성하여 밀도가 높은 LiDAR 대상의 고품질 기능을 시뮬레이션하는 방법을 학습합니다.

실험 비교 분석

실험 결과(mAP@R40%). 여기에는 쉬움, 중간(모드), 하드 케이스의 세 가지 범주와 전반적인 성능이 나열되어 있습니다. 여기서 L, LC, LC*는 해당 LiDAR 감지기, LiDAR 카메라 융합 감지기 및 본 논문 제안의 결과를 나타냅니다. Δ는 개선을 나타냅니다. 최상의 결과는 굵게 표시되며, 여기서 L은 보조 모델이 될 것으로 예상되며 증강 검증 세트에서 테스트됩니다. MVXNet은 mmDetection3d를 기반으로 다시 구현되었습니다. PV-RCNN-LC와 Voxel RCNN LC는 VFF의 오픈소스 코드를 기반으로 재구현되었습니다.

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

재작성된 내용: 전반적인 성능. Table 1의 비교 결과에 따르면, 3개의 디텍터를 기반으로 한 3DmAP@R40의 비교는 각 카테고리와 난이도별 전반적인 성능을 보여준다. 추가 카메라 입력을 도입함으로써 LiDAR 카메라 방식(LC)이 LiDAR 기반 감지기(L)보다 성능이 더 우수하다는 것을 명확하게 관찰할 수 있습니다. 극성 샘플링을 도입함으로써 보조 모델(L†)은 향상된 검증 세트(예: 90% 이상의 mAP)에서 뛰어난 성능을 보여줍니다. 고품질 기능을 갖춘 보조 감시와 제안된 심층 융합 모듈을 통해 우리 제안은 감지 정확도를 지속적으로 향상시킵니다. 예를 들어, 기준(LC) 모델과 비교하여 우리 제안은 중간 타겟과 하드 타겟에서 각각 +1.54% 및 +1.24% 3D mAP 개선을 달성합니다. 또한 SECOND-LC를 기반으로 nuScenes 벤치마크 실험도 진행했는데, Table 2에서 볼 수 있듯이 NDS와 mAP가 각각 +2.01%, +1.38%

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

클래스 인식 개선 분석을 했습니다. 기본 모델과 비교하여 SupFusion 및 심층 융합은 전체 성능을 향상시킬 뿐만 아니라 보행자를 포함한 각 범주의 감지 성능도 향상시킵니다. 세 가지 범주(예: 중간 사례)의 평균 향상을 비교하면 다음과 같은 관찰이 가능합니다. 가장 큰 개선폭(+2.41%)을 보였으며, 보행자와 자동차는 각각 +1.35%, +0.86%의 개선을 보였습니다. 그 이유는 분명합니다. (1) 자동차는 보행자나 자전거 타는 사람보다 쉽게 발견하고 최상의 결과를 얻을 수 있으므로 개선하기가 더 어렵습니다. (2) 자전거 운전자는 보행자에 비해 더 많은 개선 효과를 얻습니다. 보행자는 그리드가 아니고 자전거 운전자보다 밀도가 낮은 목표물을 생성하므로 성능 개선 효과가 낮기 때문입니다!

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

원본 콘텐츠를 보려면 다음 링크를 클릭하세요: https://mp.weixin.qq.com/s/vWew2p9TrnzK256y-A4UFw

위 내용은 SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7677

Cakephp 튜토리얼

1393

C# 튜토리얼

1207

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! Apr 03, 2024 pm 12:04 PM

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

안녕하세요, 일렉트릭 아틀라스입니다! 보스턴 다이나믹스 로봇 부활, 180도 이상한 움직임에 겁먹은 머스크 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

엔드투엔드(End-to-End)와 차세대 자율주행 시스템, 그리고 엔드투엔드 자율주행에 대한 몇 가지 오해에 대해 이야기해볼까요? Apr 15, 2024 pm 04:13 PM

지난 달에는 몇 가지 잘 알려진 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSDV12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다. End-to-End 자율주행 시스템을 어떻게 정의하고, End-to-End 해결을 위해 어떤 문제가 예상되나요? 가장 전통적인 정의에 따르면, 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 다양한 센서(카메라/LiDAR)로부터 데이터를 입력받아

초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. Apr 29, 2024 pm 06:55 PM

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 Apr 26, 2024 am 11:37 AM

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

Sora 'Ke Ling'의 Kuaishou 버전이 테스트용으로 공개되었습니다. 120초가 넘는 비디오를 생성하고 물리학을 더 잘 이해하며 복잡한 움직임을 정확하게 모델링할 수 있습니다. Jun 11, 2024 am 09:51 AM

무엇? 주토피아는 국내 AI로 현실이 되는 걸까? 영상과 함께 노출된 것은 '켈링'이라는 국산 대형 영상세대 신형 모델이다. Sora는 유사한 기술 경로를 사용하고 자체 개발한 여러 기술 혁신을 결합하여 크고 합리적인 움직임뿐만 아니라 물리적 세계의 특성을 시뮬레이션하고 강력한 개념적 결합 능력과 상상력을 갖춘 비디오를 제작합니다. 데이터에 따르면 Keling은 최대 1080p의 해상도로 30fps에서 최대 2분의 초장 영상 생성을 지원하며 다양한 화면비를 지원합니다. 또 다른 중요한 점은 Keling이 실험실에서 공개한 데모나 비디오 결과 시연이 아니라 단편 비디오 분야의 선두주자인 Kuaishou가 출시한 제품 수준 애플리케이션이라는 점입니다. 더욱이 백지 작성이 아닌 실용성에 중점을 두고, 출시되자마자 온라인에 진출하는 데 중점을 두고 있다. 콰이잉에서는 커링의 대형 모델이 출시됐다.

nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다!

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

See all articles

SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?

제안된 방법

고품질 기능 생성

Detector Training

Polar Sampling

Polar Grouping

Polar Pasting

Deep Fusion

실험 비교 분석

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제