AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
기계식 시계를 집어들면 앞면에서 다이얼과 핸즈, 측면에서 보면 크라운과 브레이슬릿이 보입니다. 시계 뒷면을 보면 복잡한 기어와 움직임을 볼 수 있습니다. 각 관점은 조작되는 개체의 전체적인 3차원 보기를 이해하기 위해 결합된 다양한 정보를 제공합니다. 로봇이 실제 생활에서 복잡한 작업을 수행하는 방법을 배우도록하려면 먼저 로봇이 작동 개체와 작동 개체의 속성을 이해하도록 해야 하며 해당 세 가지를 이해해야 합니다. -위치, 모양, 객체 간의 폐색 관계, 객체와 환경 간의 관계 등을 포함한 차원 작업 공간 둘째, 로봇은 자연어 지시를 이해하고 장기적인 계획을 수행하며 미래 행동을 효율적으로 실행해야 합니다. 환경 인식부터 행동 예측에 이르기까지 로봇에 능력을 갖추는 것은 어렵습니다. 최근 China Telecom 인공 지능 연구소(TeleAI)의 Li Xuelong 교수 는 청화대학교 상하이 인공 지능 연구소 및 기타 부서와 협력하여 "지각-기억-사고"에 대한 인간의 인지를 시뮬레이션했습니다. 상상" 그 과정에서, 로봇이 복잡한 작업을 학습할 수 있는 실현 가능한 솔루션을 제공하는 다시점 융합에 의해 구동되는 보편적인 구현된 작업 알고리즘이 제안되었습니다. 이 논문은 International Machine Learning Conference ICML 2024에서 승인되어 보편적인 3차원 구체화 전략 구축을 위한 기반. SAM-E 영상 소개는 다음과 같습니다. 최근 몇 년 동안 이미지를 이해하는 비주얼 베이직 모델의 능력이 급속도로 발전했습니다. 그러나 3차원 공간을 이해하는 데에는 여전히 많은 어려움이 있습니다. 구현된 에이전트가 3차원 작동 장면을 이해하고 3차원 공간에서 다양하고 복잡한 작동 작업을 완료할 수 있도록 돕기 위해 대형 시각적 모델을 사용할 수 있습니까? "지각-기억-사고-상상"의 인지 과정에서 영감을 받아 이 논문은 시각적 분할 모델 Segment Anything(SAM)을 기반으로 하는 새로운 구체 기본 모델 SAM-E를 제안합니다. perception
" 기능을 갖추고 있으며 SAM의 고유한 분할 구조를 언어 지시의 특정 작업에 적용하고 모델이 텍스트 지시를 구문 분석하여 장면에 주의를 기울일 수 있도록 합니다. . 조작 개체.
이후, 로봇 팔을 입체적으로 이해하기 위한 객체 "memory
"와 동작 "think"을 달성하기 위해 깊이 특성, 이미지 특성 및 명령 특성을 융합하고 정렬하도록 다중 뷰 변환기를 설계합니다. 운영 공간.
마지막으로, 여러 시간 단계에서 동작 시퀀스를 모델링하고, 동작 지침을 "상상"하고, 3차원 장면 인식에서 구현된 동작까지 실현하기 위한
새로운 동작 시퀀스 예측 네트워크가 제안되었습니다. 출력 .
- 논문 이름: SAM-E: 구체화된 조작을 위한 시퀀스 모방을 통한 시각적 기반 모델 활용
- 논문 링크: https://sam-embodied.github.io/static/SAM-E.pdf
- 프로젝트 주소 : https://sam-embodied.github.io/
디지털 시대의 물결 속에서 , 인공지능과 함께 지능기술의 급속한 발전과 함께 우리는 점차 새로운 시대, 즉 구체화된 지능의 시대를 맞이하고 있습니다. 지능형 에이전트에게 신체와 현실 세계와 직접 상호 작용할 수 있는 능력을 부여하는 것은 현재 연구의 핵심 방향 중 하나가 되었습니다. 이 목표를 달성하려면 에이전트는 주변 환경을 정확하게 이해할 수 있도록 강력한 3차원 인식 능력을 갖추어야 합니다. 복잡한 3차원 공간에 직면했을 때 기존의 2차원 인식 방법으로는 부족합니다. 학습을 통해 체화된 에이전트가 3차원 공간의 정확한 모델링 능력을 어떻게 습득할 수 있는지가 해결해야 할 핵심 문제가 되었습니다. 긴급하게. 기존 작업은 정면도, 평면도, 측면도 등 다양한 관점에서 3차원 공간을 복원하고 재구성합니다. 그러나 필요한 컴퓨팅 리소스가 상대적으로 크고 다양한 시나리오에서 일반화 능력이 떨어집니다. . 이 문제를 해결하기 위해 이 작업에서는
대형 시각적 모델의 강력한 일반화 능력을 체화된 에이전트의 3차원 인식 분야에 적용하는 새로운 접근 방식을 탐구합니다. SAM-E는 시각적 인식에 대한 강력한 일반화 능력을 갖춘 일반 시각적 대형 모델 SAM을 사용하도록 제안합니다. 구현된 장면의 효율적인 미세 조정을 통해 특징 추출 기능, 인스턴스 분할 기능, 복잡한 장면이 가능합니다. 이해 및 기타 기능이 구현된 장면으로 효과적으로 전달됩니다.
SAM 기본 모델의 성능을 더욱 최적화하기 위해 단일 동작의 예측을 캡처할 수 있을 뿐만 아니라 연속 동작과 동작 사이의 내부 연결을 깊이 이해할 수 있는 동작 시퀀스 네트워크의 개념이 도입되었습니다. 작업 간의 타이밍 정보를 완전히 마이닝하여 구현된 장면을 이해하고 적응하는 기본 모델의 능력을 더욱 향상시킵니다. 그림 1. SAM-E 전체 프레임워크
SAM-E 방법의 핵심 관점은 주로 두 가지 측면을 포함합니다.
SAM의 프롬프트 중심 구조를 사용하는 강력한 기본 모델은 작업 언어 명령에 따라 일반화 성능이 뛰어납니다. LoRA 미세 조정 기술을 통해 모델이 특정 작업에 맞게 조정되어 성능이 더욱 향상됩니다. 순차 동작 모델링 기술을 채택하여 동작 시퀀스의 타이밍 정보를 캡처하고 작업의 동적 변화를 더 잘 이해하며 적시에 로봇의 전략과 실행 방법을 조정하여 높은 실행 효율성을 유지합니다. 로봇.
- SAM-E의 핵심은 강력한 시각적 인코더와 경량 디코더를 포함하여 작업 지시 프롬프트에 의해 구동되는 네트워크 구조입니다.
구현된 장면에서- 작업 "프롬프트"는 자연어의 형태로 제공됩니다. 작업 설명 지침으로 시각적 인코더는 작업 관련 기능을 추출하기 위해 프롬프트 지각 기능을 발휘합니다. 정책 네트워크는 디코더 역할을 하며 융합된 시각적 임베딩 및 언어 지침을 기반으로 작업을 출력합니다. 훈련 단계에서 SAM-E는 효율적인 미세 조정을 위해 LoRA를 사용합니다
. 이는 훈련 매개변수를 크게 줄이고 기본 비전 모델이 특정 작업에 빠르게 적응할 수 있도록 해줍니다.
SAM-E는 다관점 Transformer 네트워크를 도입하여 다양한 관점의 시각적 입력을 융합하고 3차원 공간을 깊이 이해합니다. 그 작업은 View-wise Attention과 Cross-view Attention의 두 단계로 나뉩니다. 먼저 다중 뷰 기능에 대해 각각 Intra-View Attention 처리를 수행한 다음 하이브리드 뷰 Attention을 위해 다중 뷰와 언어 설명을 융합하여 다중 뷰 정보 융합 및 이미지-언어 정렬을 달성합니다. 로봇 팔 실행 중에 엔드 이펙터의 위치와 회전은 일반적으로 지속적이고 부드러운 변화 추세를 보여줍니다. 이 기능을 사용하면 인접한 작업 간의 긴밀한 연결과 연속성이 가능합니다. 이러한 관찰을 바탕으로 인접한 동작 간의 본질적인 상관 관계를 완전히 활용하고 동작 시퀀스의 효과적인 모방 학습을 달성하는 것을 목표로 하는 새로운 시간 평활화 가설이 제안되었습니다.
구체적으로 SAM-E 프레임워크는 시퀀스 모델링 기술을 통해 액션 시퀀스의 패턴과 관계를 포착하고, 액션 예측을 위한 암묵적인 사전 지식을 제공하며, 액션의 연속성을 제한함으로써 액션의 정확성과 일관성을 크게 향상시킵니다. 예측.
실제 응용 분야에서 SAM-E는 후속 다단계 작업을 하나의 작업 예측으로 실행할 수 있도록 하여 실행 효율성을 크게 향상시킵니다. ㅋㅋ ~ ~ 그림 4. 동작 순서 예측 네트워크
로봇 팔 작업의 도전적인 모음인 RLBench는 다중 뷰 관찰 하에서 3D 작업 작업을 종합적으로 평가합니다. SAM-E 모델은 여러 측면에서 다른 기존 방법보다 훨씬 뛰어납니다.
다중 작업 시나리오
에서 SAM-E 모델은 임무 성공률을 크게 향상시킵니다.
소수의 샘플을 새로운 작업으로 마이그레이션하는 상황에 직면할 때, SAM-E는 강력한 일반화 성능과 효율적인 실행 효율성으로 새로운 작업의 성능을 효과적으로 향상시킬 수 있습니다. ✨ㅋㅋ 그림 6. 3차원 작업 예제
또한, 액션 시퀀스 모델링은 SAM의 실행 효율성을 크게 향상시킵니다. E, 그리고 동시에 전략 실행 단계에서는 단일 동작, 동작 시퀀스 실행 모델 추론 횟수가 크게 줄어들고 테스트 중에 하나의 모델 추론을 통해 해당 작업을 완료할 수도 있습니다. ㅋㅋㅋ
두 대의 3인칭 카메라를 사용하여 5가지 실제 작업에 대한 실시간 추론 기능을 갖춘 다중 관점 입력을 캡처합니다.
요약
이 작품은 구현된 연산 알고리즘을 사용하여 대형 모델의 시각적 분할과 다시점 융합을 기반으로 하는 방법입니다. 구현된 에이전트의 차원적 물리적 공간 인식.
효율적인 매개변수 미세 조정을 통해 사전 훈련된 시각적 모델이 구현된 장면으로 전송되어 자연어 명령의 복잡한 3D 로봇 팔 작동 작업을 해결할 수 있습니다. 또한, 소수의 전문가 사례를 학습하여 새로운 작업에 빠르게 일반화할 수 있어 뛰어난 훈련 효율성과 액션 실행 효율성을 보여줍니다. 더 중요한 것은 SAM-E가 "
지각-기억-사고-상상"이라는 인지 링크를 사용하여 데이터에서 행동까지 엔드투엔드 매핑을 달성한다는 것입니다. 그 중요성은 구체화된 지능에 적용할 뿐만 아니라 지능의 인지 능력을 향상시키기 위한 영감에도 있습니다. 지능형 에이전트는 인간의 인식과 의사결정 방법을 시뮬레이션함으로써 복잡한 환경을 더 잘 이해하고 적응할 수 있으므로 더 넓은 범위의 분야에서 더 큰 역할을 수행할 수 있습니다.
Li Xuelong, China Telecom의 CTO 겸 수석 과학자, China Telecom 인공 지능 연구소(TeleAI) 회장. 주로 인공지능, 로컬 보안, 영상처리, 구현지능 등에 중점을 두고 있습니다. 위 내용은 구현 지능에 대한 3차원 인식의 새로운 체인인 TeleAI & Shanghai AI Lab은 다관점 융합 구현 모델 'SAM-E'를 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!