NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!
2D 이미지의 3D 재구성은 항상 CV 분야의 하이라이트였습니다.
이 문제를 극복하기 위해 다양한 모델이 개발되었습니다.
오늘 싱가포르 국립대학교의 학자들은 이 오랜 문제를 해결하기 위해 공동으로 논문을 발표하고 새로운 프레임워크인 Anything-3D를 개발했습니다.
문서 주소: https://arxiv.org/pdf/2304.10261.pdf
Meta의 "모든 것을 분할" 모델의 도움으로 Anything-3D는 분할된 모든 객체를 직접 생성합니다. 살아 있는 .
또한 Zero-1-to-3 모델을 사용하면 다양한 각도에서 코기들을 얻을 수 있습니다.
캐릭터를 3D로 재구성할 수도 있습니다.
이것은 진정한 혁신이라고 할 수 있습니다.
무엇이든 3D로!
현실 세계에서는 다양한 사물과 환경이 다양하고 복잡합니다. 따라서 제한 없이 단일 RGB 이미지에서 3D 재구성을 수행하는 데는 많은 어려움이 따릅니다.
여기서 싱가포르 국립 대학교의 연구원들은 일련의 시각적 언어 모델과 SAM(Segment-Anything) 개체 분할 모델을 결합하여 다기능의 안정적인 시스템인 Anything-3D를 생성했습니다.
단일한 관점에서 3D 재구성 작업을 완료하는 것이 목적입니다.
그들은 BLIP 모델을 사용하여 텍스처 설명을 생성하고, SAM 모델을 사용하여 이미지에서 개체를 추출한 다음 텍스트 → 이미지 확산 모델 Stable Diffusion을 사용하여 개체를 Nerf(신경 방사선장)에 배치합니다.
이후 실험에서 Anything-3D는 강력한 3차원 재구성 기능을 보여주었습니다. 정확할 뿐만 아니라 다양한 응용 분야에 적용할 수 있습니다.
Anything-3D는 기존 방식의 한계를 해결하는 데 확실한 효과가 있습니다. 연구원들은 다양한 데이터 세트에 대한 테스트와 평가를 통해 이 새로운 프레임워크의 장점을 입증했습니다.
위 사진에는 '혀를 내밀고 수천 마일을 달리는 코기', '고급 자동차에 몸을 맡기는 은빛 날개 여신상', '들판의 갈색 소'가 보입니다. 머리에 파란색 밧줄을 달고 있다."
Anything-3D 프레임워크가 어떤 환경에서든 촬영한 싱글 뷰 이미지를 능숙하게 3D 형태로 복원하고 텍스처를 생성할 수 있다는 예비 시연입니다.
이 새로운 프레임워크는 카메라 관점과 개체 속성의 큰 변화에도 불구하고 항상 매우 정확한 결과를 제공합니다.
2D 이미지에서 3D 물체를 재구성하는 것은 컴퓨터 비전 분야의 핵심 주제이며, 로봇공학, 자율주행, 증강현실, 가상현실, 3D 프린팅 등 분야에 큰 영향을 미친다는 사실을 꼭 아셔야 합니다.
최근 몇 년 동안 좋은 진전이 있었지만 구조화되지 않은 환경에서 단일 이미지 객체 재구성 작업은 여전히 시급히 해결해야 할 매우 매력적인 문제입니다.
현재 연구자들은 단일 2차원 이미지에서 하나 이상의 객체에 대한 3차원 표현을 생성하는 임무를 맡고 있습니다. 표현 방법에는 포인트 클라우드, 그리드 또는 볼륨 표현이 포함됩니다.
그러나 이 문제는 근본적으로 사실이 아닙니다.
2차원 투영으로 인해 발생하는 본질적인 모호성으로 인해 물체의 3차원 구조를 명확하게 결정하는 것은 불가능합니다.
모양, 크기, 질감 및 외관의 큰 차이와 함께 자연 환경에서 물체를 재구성하는 것은 매우 복잡합니다. 또한 실제 이미지의 객체는 종종 가려져 있어 가려진 부분을 정확하게 재구성하는 데 방해가 됩니다.
동시에 조명, 그림자 등의 변수도 물체의 모양에 큰 영향을 미칠 수 있으며, 각도와 거리의 차이도 2D 투영에 큰 변화를 가져올 수 있습니다.
어려움은 그만, 이제 Anything-3D가 등장할 시간입니다.
논문에서 연구진은 시각적 언어 모델과 객체 분할 모델을 통합하여 2D 객체를 쉽게 3D로 변환하는 획기적인 시스템 프레임워크를 자세히 소개했습니다.
이렇게 하면 강력한 기능과 강력한 적응성을 갖춘 시스템이 가능해집니다. 단일 뷰 재구성? 쉽습니다.
연구원들은 두 모델을 결합하면 주어진 이미지의 3차원 질감과 기하학을 검색하고 결정하는 것이 가능하다고 말합니다.
Anything-3D는 BLIP 모델(Bootstrapping Language-Image Model)을 사용하여 이미지의 텍스트 설명을 사전 학습한 다음 SAM 모델을 사용하여 객체의 분포 영역을 식별합니다.
다음으로 분할된 개체와 텍스트 설명을 사용하여 3D 재구성 작업을 수행합니다.
즉, 본 논문에서는 사전 학습된 2D 텍스트 → 이미지 확산 모델을 활용하여 이미지의 3D 합성을 수행합니다. 또한 연구진은 이미지 전용 Nerf를 훈련시키기 위해 분별 증류를 사용했습니다.
위 그림은 3D 이미지를 생성하는 전체 과정입니다. 왼쪽 상단 모서리는 2D 원본 이미지입니다. 먼저 SAM을 통해 코기를 분할한 다음 BLIP을 통해 텍스트 설명을 생성한 다음 분수 증류를 사용하여 Nerf를 생성합니다.
다양한 데이터 세트에 대한 엄격한 실험을 통해 연구원들은 이 접근 방식의 효율성과 적응성을 입증하는 동시에 정확성, 견고성 및 일반화 기능 측면에서 기존 방법을 능가했습니다.
연구원들은 또한 자연 환경에서 3D 객체 재구성의 기존 과제에 대해 포괄적이고 심층적인 분석을 수행하고 새로운 프레임워크가 이러한 문제를 어떻게 해결할 수 있는지 탐구했습니다.
궁극적으로 기본 모델에 제로 거리 비전과 언어 이해 기능을 통합함으로써 새로운 프레임워크는 다양한 실제 이미지에서 개체를 재구성하고 정확하고 복잡하며 널리 적용 가능한 3D 표현을 생성할 수 있습니다.
Anything-3D는 3D 객체 재구성 분야의 획기적인 발전이라고 할 수 있습니다.实 아래에 더 많은 예가 나와 있습니다.
멋진 검정색 인테리어 Xiaobai Porsche, 밝은 주황색 굴착기 크레인, 녹색 모자 작은 노란색 고무 오리
시대 눈물 바랜 대포, 돼지 귀여운 미니 돼지 저금통 , cinnabar red four-legged highchair
이 새로운 프레임워크는 단일 뷰 이미지에서 영역을 대화형으로 식별하고 최적화된 텍스트 임베딩으로 2D 개체를 나타낼 수 있습니다. 궁극적으로 3D 인식 분별 증류 모델은 고품질 3D 개체를 효율적으로 생성하는 데 사용됩니다.
결론적으로 Anything-3D는 단일 보기 이미지에서 자연스러운 3D 객체를 재구성할 수 있는 잠재력을 보여줍니다.
연구원들은 새로운 프레임워크의 3D 재구성 품질이 더욱 완벽해질 수 있다고 말하며, 연구원들은 생성 품질 향상을 위해 끊임없이 노력하고 있습니다.
또한 연구원들은 새로운 뷰 합성, 오류 재구성 등 3D 데이터 세트에 대한 정량적 평가가 현재 제공되지 않지만 향후 반복 작업에 포함될 것이라고 밝혔습니다.
동시에 연구원의 궁극적인 목표는 이 프레임워크를 확장하여 희소 뷰에서 객체 복구를 포함하여 보다 실용적인 상황에 적응하는 것입니다.
저자 소개
Wang은 현재 싱가포르 국립대학교(NUS) ECE학과의 임기 조교수입니다.
싱가포르국립대학교에 입사하기 전 그는 Stevens Institute of Technology의 CS학과 조교수로 재직했습니다. Stevens에 합류하기 전에 저는 일리노이 대학교 Urbana-Champaign의 Beckman Institute에서 Thomas Huang 교수의 이미지 형성 그룹에서 박사후 연구원으로 일했습니다.
Wang은 Pascal Fua 교수의 지도 하에 Ecole Polytechnique Fédérale de Lausanne(EPFL)의 컴퓨터 비전 연구소에서 박사 학위를 받았으며, 2010년 홍콩 폴리테크닉 대학교에서 컴퓨터 과학 분야에서 일류 우등 학사 학위를 받았습니다. .
위 내용은 NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이 AI 지원 프로그래밍 도구는 급속한 AI 개발 단계에서 유용한 AI 지원 프로그래밍 도구를 많이 발굴했습니다. AI 지원 프로그래밍 도구는 개발 효율성을 높이고, 코드 품질을 향상시키며, 버그 발생률을 줄일 수 있습니다. 이는 현대 소프트웨어 개발 프로세스에서 중요한 보조자입니다. 오늘 Dayao는 4가지 AI 지원 프로그래밍 도구(모두 C# 언어 지원)를 공유하겠습니다. 이 도구가 모든 사람에게 도움이 되기를 바랍니다. https://github.com/YSGStudyHards/DotNetGuide1.GitHubCopilotGitHubCopilot은 더 빠르고 적은 노력으로 코드를 작성하는 데 도움이 되는 AI 코딩 도우미이므로 문제 해결과 협업에 더 집중할 수 있습니다. 힘내

위에 작성 및 저자의 개인적인 이해: 현재 전체 자율주행 시스템에서 인식 모듈은 중요한 역할을 합니다. 자율주행 시스템의 제어 모듈은 적시에 올바른 판단과 행동 결정을 내립니다. 현재 자율주행 기능을 갖춘 자동차에는 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등 다양한 데이터 정보 센서가 장착되어 다양한 방식으로 정보를 수집하여 정확한 인식 작업을 수행합니다. 순수 비전을 기반으로 한 BEV 인식 알고리즘은 하드웨어 비용이 저렴하고 배포가 용이하며, 출력 결과를 다양한 다운스트림 작업에 쉽게 적용할 수 있어 업계에서 선호됩니다.

앞에 적힌 프로젝트 링크: https://nianticlabs.github.io/mickey/ 두 장의 사진이 주어지면 사진 간의 대응 관계를 설정하여 두 장의 사진 사이의 카메라 포즈를 추정할 수 있습니다. 일반적으로 이러한 대응은 2D에서 2D로 이루어지며 추정된 포즈는 규모에 따라 결정되지 않습니다. 언제 어디서나 즉각적인 증강 현실과 같은 일부 애플리케이션은 규모 측정항목의 포즈 추정이 필요하므로 규모를 복구하기 위해 외부 깊이 추정기에 의존합니다. 본 논문에서는 3차원 카메라 공간에서 메트릭 일치성을 예측할 수 있는 키포인트 매칭 프로세스인 MicKey를 제안합니다. 이미지 전반에 걸쳐 3D 좌표 매칭을 학습함으로써 측정 기준을 추론할 수 있습니다.

세계 최초의 AI 프로그래머 데빈(Devin)이 태어난 지 한 달도 채 안 된 2022년 3월 3일, 프린스턴 대학의 NLP팀은 오픈소스 AI 프로그래머 SWE-에이전트를 개발했습니다. GPT-4 모델을 활용하여 GitHub 리포지토리의 문제를 자동으로 해결합니다. SWE-bench 테스트 세트에서 SWE-agent의 성능은 Devin과 유사하며 평균 93초가 걸리고 문제의 12.29%를 해결합니다. SWE-agent는 전용 터미널과 상호 작용하여 파일 내용을 열고 검색하고, 자동 구문 검사를 사용하고, 특정 줄을 편집하고, 테스트를 작성 및 실행할 수 있습니다. (참고: 위 내용은 원문 내용을 약간 조정한 것이지만 원문의 핵심 정보는 그대로 유지되며 지정된 단어 수 제한을 초과하지 않습니다.) SWE-A

Go 언어 개발 모바일 애플리케이션 튜토리얼 모바일 애플리케이션 시장이 지속적으로 성장함에 따라 점점 더 많은 개발자가 Go 언어를 사용하여 모바일 애플리케이션을 개발하는 방법을 모색하기 시작했습니다. 간단하고 효율적인 프로그래밍 언어인 Go 언어는 모바일 애플리케이션 개발에서도 강력한 잠재력을 보여주었습니다. 이 기사에서는 Go 언어를 사용하여 모바일 애플리케이션을 개발하는 방법을 자세히 소개하고 독자가 빠르게 시작하고 자신의 모바일 애플리케이션 개발을 시작할 수 있도록 특정 코드 예제를 첨부합니다. 1. 준비 시작하기 전에 개발 환경과 도구를 준비해야 합니다. 머리

가장 인기 있는 다섯 가지 Go 언어 라이브러리 요약: Go 언어는 탄생 이후 광범위한 관심과 적용을 받아왔습니다. 새롭게 떠오르는 효율적이고 간결한 프로그래밍 언어인 Go의 급속한 발전은 풍부한 오픈 소스 라이브러리의 지원과 불가분의 관계입니다. 이 기사에서는 인기 있는 Go 언어 라이브러리 5개를 소개합니다. 이러한 라이브러리는 Go 개발에서 중요한 역할을 하며 개발자에게 강력한 기능과 편리한 개발 경험을 제공합니다. 동시에 이러한 라이브러리의 용도와 기능을 더 잘 이해하기 위해 구체적인 코드 예제를 통해 설명하겠습니다.

위에 작성됨 및 저자의 개인적 이해: 이 문서는 자율 주행 애플리케이션에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념하고 있습니다. 이는 MLLM을 2D 이해에서 3D 공간으로 확장하는 문제입니다. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다. 현재 다중 모드 대형 언어 모델(예: LLaVA-1.5)은 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 저해상도 이미지 입력(예:)만 처리할 수 있는 경우가 많습니다. 하지만 자율주행 애플리케이션에는

포인트의 집합체인 포인트 클라우드는 3차원 재구성, 산업검사, 로봇 운용 등을 통해 사물의 3차원(3D) 표면정보 획득과 생성에 변화를 가져올 것으로 기대된다. 가장 어렵지만 필수적인 프로세스는 포인트 클라우드 등록, 즉 서로 다른 두 좌표에서 얻은 두 포인트 클라우드를 정렬하고 일치시키는 공간 변환을 얻는 것입니다. 본 리뷰에서는 포인트 클라우드 등록의 개요와 기본 원리를 소개하고, 다양한 방법을 체계적으로 분류 및 비교하며, 포인트 클라우드 등록에 존재하는 기술적 문제를 해결하고, 현장 외부의 학술 연구자와 엔지니어에게 지침을 제공하고 통일된 비전에 대한 논의를 촉진하고자 합니다. 포인트 클라우드 등록을 위해. 일반적인 포인트 클라우드 획득 방법은 능동(Active) 방식과 수동(Passive) 방식으로 구분되며, 센서에 의해 능동적으로 획득되는 포인트 클라우드는 나중에 재구성되는 방식이다.
