목차
3D-VLA 기본 모델
실험 결과
다중 모드 대상 생성
기술 주변기기 일체 포함 Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

Mar 25, 2024 pm 04:10 PM
ai 3d

최근 연구에서 비전-언어-액션(VLA, 비전-언어-액션) 모델의 입력은 보다 일반적인 3D 물리적 세계를 통합하지 않고 기본적으로 2D 데이터입니다.
또한 기존 모델은 세계의 역동성과 행동과 역동성의 관계를 무시하고 "인식된 행동의 직접 매핑"을 학습하여 행동 예측을 수행합니다.
반면 인간은 생각할 때 미래 시나리오에 대한 상상을 설명하고 다음 행동을 계획할 수 있는 세계 모델을 도입합니다.
이를 위해 University of Massachusetts Amherst, MIT 및 기타 기관의 연구자들은 새로운 차원의 구체화된 기초 모델을 도입하여 생성된 세계 모델을 기반으로 3D 인식을 원활하게 연결할 수 있는 3D-VLA 모델을 제안했습니다. 추론과 행동.
Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

프로젝트 홈페이지: https://vis-www.cs.umass.edu/3dvla/

논문 주소: https://arxiv.org/abs/2403.09631

구체적으로 3D-VLA는 3D 기반 LLM(대형 언어 모델)을 기반으로 구축되었으며 구현된 환경에 참여할 수 있는 상호 작용 토큰 세트를 도입합니다.

Qianchuang 팀은 일련의 구체화된 확산 모델을 훈련하고 모델에 생성 기능을 주입한 다음 이를 LLM에 정렬하여 대상 이미지와 포인트 클라우드를 예측했습니다.

3D-VLA 모델을 훈련하기 위해 기존 로봇 데이터세트에서 대량의 3D 관련 정보를 추출하고 거대한 3D 구현 명령 데이터세트를 구축했습니다.

연구 결과에 따르면 3D-VLA는 구현된 환경에서 추론, 다중 모드 생성 및 계획 작업을 처리하는 데 탁월한 성능을 발휘하여 실제 시나리오에서의 잠재적인 적용 가치를 강조합니다.

3D Embodied Instruction Tuning Dataset

인터넷에 있는 수십억 규모의 데이터 세트로 인해 VLM은 여러 작업에서 뛰어난 성능을 입증했으며 수백만 개의 비디오 동작 데이터 세트는 로봇 제어를 위한 구체적인 VLM의 토대를 마련합니다. .

그러나 대부분의 현재 데이터 세트는 로봇 작업에 대한 충분한 깊이나 3D 주석 및 정밀한 제어를 제공할 수 없습니다. 이를 위해서는 데이터 세트에 3D 공간 추론 및 상호 작용 콘텐츠가 포함되어야 합니다. 3차원 정보가 부족하면 "가장 먼 컵을 가운데 서랍에 넣으세요"와 같이 3차원 공간 추론이 필요한 지시를 로봇이 이해하고 실행하기가 어렵습니다.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

이 격차를 해소하기 위해 연구원들은 모델을 훈련하는 데 충분한 "3D 관련 정보"와 "해당 텍스트 지침"을 제공하는 대규모 3D 명령 튜닝 데이터 세트를 구축했습니다.

연구원들은 기존의 구현된 데이터 세트에서 3D 언어 동작 쌍을 추출하고 포인트 클라우드, 깊이 맵, 3D 경계 상자, 로봇의 7D 동작 및 텍스트 설명에 대한 주석을 얻는 파이프라인을 설계했습니다.

3D-VLA 기본 모델

3D-VLA는 구현된 환경에서 3차원 추론, 목표 생성 및 의사결정에 사용되는 세계 모델입니다.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

먼저 3D-LLM 위에 백본 네트워크를 구축하고 일련의 상호 작용 토큰을 추가하여 모델의 3D 세계와 상호 작용하는 능력을 더욱 강화한 다음 확산 모델을 사전 훈련하고 투영을 사용합니다. LLM과 확산 모델을 정렬하여 3D-VLA

백본 네트워크

에 타겟 생성 기능을 주입합니다. 첫 번째 단계에서 연구원들은 3D-LLM 방법을 따라 3D-VLA 기본 모델을 개발했습니다. 수집된 데이터 세트가 도달하지 못했습니다. 다중 모드 LLM을 처음부터 교육하는 데 필요한 10억 수준 규모에는 시각적 기능을 사전 교육된 VLM에 원활하게 통합할 수 있도록 멀티뷰 기능을 사용하여 3D 장면 기능을 생성해야 합니다. 적응을 위해.

동시에 3D-LLM의 훈련 데이터 세트에는 특정 설정과 직접적으로 일치하지 않는 객체와 실내 장면이 주로 포함되어 있으므로 연구자들은 사전 훈련 모델로 BLIP2-PlanT5XL을 사용하기로 결정했습니다.

훈련 과정에서 토큰의 입력 및 출력 임베딩과 Q-Former의 가중치를 고정 해제합니다.

상호작용 토큰

환경 내 3D 장면과 상호 작용에 대한 모델의 이해를 높이기 위해 연구원들은 새로운 상호 작용 토큰 세트를 도입했습니다

먼저, 구문 분석된 문장의 개체 명사(예: <)를 포함하여 개체 토큰이 입력에 추가되었습니다. ; obj> 초콜릿 바 [loc tokens] 모델이 조작되거나 언급되는 객체를 더 잘 포착할 수 있도록 합니다.

두 번째로, 공간 정보를 언어로 더 잘 표현하기 위해 연구원들은 AABB 형태의 6개 마커를 사용하여 3차원 경계 상자를 나타내는 위치 토큰 세트 를 설계했습니다.

셋째, 동적 인코딩을 더 잘 수행하기 위해 프레임워크에 이 도입되어 정적 장면 삽입을 포함합니다. 장면 토큰을 결합하면 3D-VLA가 동적 장면을 이해할 수 있고 인터레이스된 3D 장면과 텍스트의 입력을 관리합니다.

로봇 동작을 나타내는 특수 마커 세트를 확장하여 아키텍처가 더욱 향상되었습니다. 로봇의 동작에는 7개의 자유도가 있으며, , 과 같은 개별 토큰은 팔의 미리 결정된 절대 위치, 회전 및 그리퍼 개방을 나타내는 데 사용됩니다. 각 작업은 토큰으로 구분됩니다.

목표 생성 기능 주입

인간은 장면의 최종 상태를 사전 시각화하여 행동 예측이나 의사 결정의 정확성을 높일 수 있습니다. 이는 세계 모델 구축의 핵심 측면이기도 합니다. 예비 실험에서 연구자들은 현실적인 최종 상태를 제공하면 모델의 추론 및 계획 능력을 향상시킬 수 있다는 사실도 발견했습니다.

그러나 이미지, 깊이 및 포인트 클라우드를 생성하기 위해 MLLM을 훈련시키는 것은 간단하지 않습니다.

우선, 비디오 확산 모델은 "오픈"의 미래 프레임을 생성하는 활주로와 같은 구현된 장면에 맞게 맞춤화되지 않았습니다. 서랍"을 사용하면 장면에서 뷰 변경, 개체 변형, 이상한 텍스처 교체, 레이아웃 왜곡 등의 문제가 발생합니다.

그리고 다양한 모드의 확산 모델을 어떻게 하나의 기본 모델로 통합할지는 여전히 어려운 문제입니다.

그래서 연구진이 제안한 새로운 프레임워크는 먼저 이미지, 깊이, 포인트 클라우드 등 다양한 형태를 기반으로 특정 확산 모델을 사전 학습한 다음 확산 모델의 디코더를 3D-VLA의 임베딩 공간에 정렬합니다. 정렬 단계에서.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

실험 결과

3D-VLA는 3D 세계에서 추론 및 위치 파악을 수행하고 다중 모드 대상 콘텐츠를 상상하며 로봇 작업을 생성할 수 있는 다목적 3D 기반 생성 세계 모델입니다. 액션, 연구원 주로 3D 추론 및 현지화, 다중 모드 목표 생성 및 구체화된 행동 계획의 세 가지 측면에서 3D-VLA를 평가했습니다.

3D 추론 및 위치 파악

3D-VLA는 언어 추론 작업에서 모든 2D VLM 방법보다 성능이 뛰어납니다. 연구자들은 이를 3D 정보의 활용으로 인해 보다 정확한 추론 공간 정보를 제공할 수 있다고 생각합니다.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

또한 데이터 세트에는 3D 위치 지정 주석 세트가 포함되어 있으므로 3D-VLA는 관련 개체를 찾는 방법을 학습하여 모델이 추론을 위해 주요 개체에 더 집중할 수 있도록 도와줍니다.

연구원들은 3D-LLM이 이러한 로봇 추론 작업에서 제대로 수행되지 않는다는 사실을 발견했으며, 이는 로봇 관련 3D 데이터 세트를 수집하고 교육할 필요성을 보여줍니다.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

그리고 3D-VLA는 위치 파악 성능에서 2D 기준 방법보다 훨씬 더 나은 성능을 발휘했습니다. 또한 이 발견은 주석 프로세스의 효율성에 대한 설득력 있는 증거를 제공하여 모델이 강력한 3D 위치 지정 기능을 얻는 데 도움이 됩니다.

다중 모드 대상 생성

로봇 공학 영역으로의 제로 샷 전송을 위한 기존 생성 방법과 비교할 때 3D-VLA는 대부분의 측정 항목에서 더 나은 성능을 달성하여 "로봇 응용 분야를 위해 특별히 설계된" 사용을 확인합니다. 세계 모델을 훈련하기 위한 데이터 세트를 설계합니다.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

Instruct-P2P*와의 직접적인 비교에서도 3D-VLA는 일관되게 더 나은 성능을 발휘하며, 결과에 따르면 대규모 언어 모델을 3D-VLA에 통합하면 로봇 작동 지침을 보다 포괄적이고 깊이 이해할 수 있으므로 결과적으로 성능이 향상됩니다. 목표 이미지 생성 성능.

또한 입력 프롬프트에서 예측 경계 상자를 제외하면 약간의 성능 저하가 관찰되어 모델이 전체 장면을 이해하는 데 도움이 될 수 있는 중간 예측 경계 상자를 사용하는 효과를 확인하여 모델이 통합할 수 있도록 합니다. 주어진 명령에서 언급된 특정 개체에 더 많은 주의가 할당되어 궁극적으로 최종 대상 이미지를 상상하는 능력이 향상됩니다.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

포인트 클라우드에서 생성된 결과를 비교하면 중간 예측 경계 상자가 있는 3D-VLA가 가장 잘 수행되어 지침과 장면을 이해하는 맥락에서 대규모 언어 모델과 정확한 객체 위치 파악의 결합이 중요함을 확인했습니다.

Embodied Action Planning

3D-VLA는 RLBench 동작 예측의 대부분 작업에서 기준 모델의 성능을 능가하여 계획 기능을 보여줍니다.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

기본 모델은 과거 관찰, 객체 상태 및 현재 상태 정보를 사용해야 하는 반면 3D-VLA 모델은 개방 루프 제어를 통해서만 실행된다는 점에 주목할 가치가 있습니다.

Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함

또한, 3D-VLA는 픽업 컵 작업에서도 좋은 결과를 얻었습니다. 연구원들은 이러한 이점을 물체를 찾는 능력에 기인했습니다. 관심을 갖고 목표 상태를 상상하며 행동 추론을 위한 풍부한 정보를 제공합니다.

위 내용은 Sora의 3D 버전이 나오나요? UMass, MIT 등이 3D 세계 모델을 제안하고, 구현된 지능형 로봇이 새로운 이정표를 달성함의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? Apr 07, 2025 pm 09:39 PM

표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

Laravel 's geospatial : 대화식지도의 최적화 및 많은 양의 데이터 Laravel 's geospatial : 대화식지도의 최적화 및 많은 양의 데이터 Apr 08, 2025 pm 12:24 PM

7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

MySQL을 해결하는 방법을 시작할 수 없습니다 MySQL을 해결하는 방법을 시작할 수 없습니다 Apr 08, 2025 pm 02:21 PM

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

vue.js 문자열 유형 배열을 객체 배열로 변환하는 방법은 무엇입니까? vue.js 문자열 유형 배열을 객체 배열로 변환하는 방법은 무엇입니까? Apr 07, 2025 pm 09:36 PM

요약 : vue.js 문자열 배열을 객체 배열로 변환하는 다음 방법이 있습니다. 기본 메소드 : 정기적 인 형식의 데이터에 맞게 맵 함수를 사용하십시오. 고급 게임 플레이 : 정규 표현식을 사용하면 복잡한 형식을 처리 할 수 ​​있지만 신중하게 작성하고 고려해야합니다. 성능 최적화 : 많은 양의 데이터를 고려하면 비동기 작업 또는 효율적인 데이터 처리 라이브러리를 사용할 수 있습니다. 모범 사례 : 명확한 코드 스타일, 의미있는 변수 이름과 주석을 사용하여 코드를 간결하게 유지하십시오.

Vue Axios의 시간 초과를 설정하는 방법 Vue Axios의 시간 초과를 설정하는 방법 Apr 07, 2025 pm 10:03 PM

vue axios의 타임 아웃을 설정하려면 axios 인스턴스를 생성하고 시간 초과 옵션을 지정할 수 있습니다. 글로벌 설정에서 : vue.prototype. $ axios = axios.create ({timeout : 5000}); 단일 요청 : this. $ axios.get ( '/api/user', {timeout : 100000}).

설치 후 MySQL을 사용하는 방법 설치 후 MySQL을 사용하는 방법 Apr 08, 2025 am 11:48 AM

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

원격 선임 백엔드 엔지니어 (플랫폼)에는 원이 필요합니다 원격 선임 백엔드 엔지니어 (플랫폼)에는 원이 필요합니다 Apr 08, 2025 pm 12:27 PM

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

MySQL 설치 후 데이터베이스 성능을 최적화하는 방법 MySQL 설치 후 데이터베이스 성능을 최적화하는 방법 Apr 08, 2025 am 11:36 AM

MySQL 성능 최적화는 설치 구성, 인덱싱 및 쿼리 최적화, 모니터링 및 튜닝의 세 가지 측면에서 시작해야합니다. 1. 설치 후 innodb_buffer_pool_size 매개 변수와 같은 서버 구성에 따라 my.cnf 파일을 조정해야합니다. 2. 과도한 인덱스를 피하기 위해 적절한 색인을 작성하고 Execution 명령을 사용하여 실행 계획을 분석하는 것과 같은 쿼리 문을 최적화합니다. 3. MySQL의 자체 모니터링 도구 (showprocesslist, showstatus)를 사용하여 데이터베이스 건강을 모니터링하고 정기적으로 백업 및 데이터베이스를 구성하십시오. 이러한 단계를 지속적으로 최적화함으로써 MySQL 데이터베이스의 성능을 향상시킬 수 있습니다.

See all articles