사진 2장만 , 추가 데이터를 측정할 필요가 없습니다. -
Dangdang, 완전한 3D 곰이 있습니다:
DUSt3R이라는 새로운 도구는 얼마 지나지 않아 매우 인기가 있습니다. 출시되어 GitHub 인기 목록에서 2위를 차지했습니다.
A 네티즌은 실제로 테스트하고 사진 두 장을 찍어 전체 과정을 2초도 채 걸리지 않았습니다!
(3D 영상 외에 깊이 영상, 신뢰도 영상, 포인트 클라우드 영상도 동시에 제공 가능)
이 친구는 너무 놀라서 이렇게 말했습니다.
모두들잊으세요 먼저 소라에 대해서 뭐, 이게 바로 우리가 실제로 보고 만질 수 있는 거거든요.
실험에 따르면 DUSt3R은 단안/다중 깊이 추정 및 상대 포즈 추정의 세 가지 작업에서 SOTA를 달성하는 것으로 나타났습니다.
작가팀(핀란드 알토대학교 + 네이버랩스 인공지능연구소 유럽지부 소속)의 '선언문'도 추진력이 넘칩니다.
우리는 세상을 더 이상 3D 비주얼로 해결하기 어렵지 않게 만들고 싶습니다. 작업.
그럼 어떻게 됐나요?
다시점 스테레오 재구성(MVS) 작업의 경우 첫 번째 단계는 내부 및 외부 매개변수를 포함한 카메라 매개변수를 추정하는 것입니다.
이 작업은 지루하고 번거롭지만 3차원 공간에서 이후의 픽셀 삼각 측량에 필수적이며 더 나은 성능을 제공하는 거의 모든 MVS 알고리즘에서 분리할 수 없는 부분입니다.
이 기사의 연구에서 저자 팀이 소개한 DUSt3R은 완전히 다른 접근 방식을 채택했습니다.
It카메라 보정이나 시점 포즈에 대한 사전 정보가 필요하지 않으며 임의 이미지의 조밀하거나 제약 없는 3D 재구성을 완료할 수 있습니다.
여기에서 팀은 쌍안 재구성 문제를 점 플롯 회귀로 공식화하여 단안 및 양안 재구성 상황을 통합합니다.
2개 이상의 입력 이미지가 제공되는 경우 모든 포인트 이미지 쌍은 간단하고 효과적인 전역 정렬 전략을 통해 공통 참조 프레임으로 표현됩니다.
아래 그림과 같이 알 수 없는 카메라 포즈와 본질적인 특징을 가진 일련의 사진이 주어지면 DUSt3R은 해당 포인트 맵 세트를 출력합니다. 이를 통해 일반적으로 동시에 추정하기 어려운 다양한 기하학적 양을 직접 복구할 수 있습니다. 카메라 매개변수, 픽셀 대응, 깊이 맵 및 완전히 일관된 3D 재구성 효과.
(저자는 DUSt3R이 단일 입력 이미지에도 적합함을 상기시킵니다.)
특정 네트워크 아키텍처 측면에서 DUSt3R은 표준 Transformer 인코더 및 디코더를 기반으로 하며, 이는 by CroCo (3D 비전 작업을 위한 자기 감독 사전 훈련에 대한 교차 연구를 통해 에서 영감을 얻어 단순 회귀 손실을 사용하여 훈련했습니다.
아래 그림과 같이 장면의 두 가지 보기 (I1, I2)는 먼저 공유 ViT 인코더를 사용하여 Siamese 방식으로 인코딩됩니다.
결과 토큰 표현(F1 및 F2)은 두 개의 Transformer 디코더로 전달되며, 이는 교차 관심을 통해 지속적으로 정보를 교환합니다.
마지막으로 두 개의 회귀 헤드는 두 개의 해당 포인트 맵과 관련 신뢰도 맵을 출력합니다. 핵심은 두 점 플롯이 첫 번째 이미지의 동일한 좌표계로 표현되어야 한다는 것입니다.실험에서는 먼저 7Scenes(실내 장면 7개) 및 Cambridge Landmarks(야외 장면 8개) 데이터 세트에 대한 절대 포즈 추정 작업에서 DUSt3R의 성능을 평가했습니다. 회전 오류 (값이 작을수록 좋음) .
저자는 기존의 다른 특징 매칭 및 엔드투엔드 방법과 비교할 때 DUSt3R의 성능이 놀랍다고 말했습니다.
첫째, 시각적 포지셔닝 훈련을 받은 적이 없고, 두 번째로 훈련 과정에서 쿼리 이미지와 데이터베이스 이미지를 접한 적이 없기 때문입니다.
두 번째는 10개의 무작위 프레임에서 수행되는 다중 뷰 포즈 회귀 작업입니다. 결과 DUST3R은 두 데이터 세트 모두에서 최상의 결과를 얻었습니다.
단안 깊이 추정 작업에서 DUSt3R은 자체 감독 기준보다 성능이 뛰어나고 가장 발전된 감독 기준과 동등한 성능으로 실내 및 실외 장면도 잘 포착할 수 있습니다.
DUST3R은 다중 뷰 깊이 추정에서도 좋은 성능을 발휘합니다.
다음은 두 그룹이 제공한 3D 재구성 효과입니다. 느낌을 주기 위해 두 개의 이미지만 입력됩니다.
(1)
(2)
이에 대해 일부 네티즌들은 이 방식이 거기서는 '객관적인 측정'이 아니라 좀 더 AI처럼 행동한다는 의미라는 반응을 보였다.
또한, 어떤 사람들은
입력 이미지를 두 대의 카메라로 촬영할 때 이 방법이 여전히 작동하는지궁금하십니까? 일부 네티즌들이 실제로 시도해 보았는데, 그 대답은
yes!
Portal:
[1] Paper https://arxiv.org/abs/2312.14132
[2] 코드 https://github.com/naver/dust3r
위 내용은 2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!