로봇 학습 측면에서 일반적인 접근 방식은 특정 로봇 및 작업과 관련된 데이터 세트를 수집한 다음 이를 사용하여 정책을 교육하는 것입니다. 그러나 이 방법을 사용하여 처음부터 학습하는 경우 각 작업마다 충분한 데이터를 수집해야 하며 결과 정책의 일반화 능력이 일반적으로 좋지 않습니다.
“원칙적으로 다른 로봇과 작업에서 수집된 경험은 가능한 솔루션을 제공하여 모델이 다양한 로봇 제어 문제를 볼 수 있도록 하며 이러한 문제가 하위 작업에서 로봇의 일반적인 성능을 향상시킬 수 있습니다. 다양한 자연어 및 컴퓨터 비전 작업을 처리할 수 있는 일반적인 모델이지만, 로봇에 대한 통합 제어 전략을 훈련하기 위한 "범용 로봇 모델"을 구축하는 것은 여전히 어렵습니다. 다양한 로봇 본체를 작동하는 등 많은 어려움이 있습니다. 센서 구성, 행동 공간, 작업 사양, 환경 및 계산 예산.
이 목표를 달성하기 위해 "로봇 기본 모델"과 관련된 일부 연구 결과가 나타났습니다. 그들의 접근 방식은 로봇 관찰을 행동으로 직접 매핑한 다음 제로 샘플 솔루션을 통해 새로운 분야 또는 새로운 로봇으로 일반화하는 것입니다. 이러한 모델은 다양한 작업, 환경 및 로봇 시스템에서 낮은 수준의 시각 운동 제어를 수행하는 로봇의 능력을 강조하는 "일반 로봇 정책" 또는 GRP라고도 합니다.
GNM(일반 탐색 모델)은 다양한 로봇 탐색 시나리오에 적합합니다. RoboCat은 임무 목표에 따라 서로 다른 로봇 몸체를 작동할 수 있습니다. 이러한 모델은 실제로 중요한 발전이지만 여러 가지 제한 사항도 있습니다. 입력 관찰은 종종 사전 정의되고 제한되는 경우가 많습니다(예: 단일 카메라 입력 비디오 스트림). 모델 가장 큰 버전은 사람들이 사용할 수 없습니다(중요).
최근 캘리포니아 대학교, 버클리 대학교, 스탠포드 대학교, 카네기 멜론 대학교, Google DeepMind의 연구원 18명으로 구성된 Octo 모델 팀은 획기적인 연구 결과인 Octo 모델을 발표했습니다. 이 프로젝트는 위의 한계를 효과적으로 극복합니다.
논문 제목: Octo: 오픈 소스 일반 로봇 정책
모델의 핵심은 관찰 및 작업을 기반으로 생성된 임의의 입력 토큰을 출력 토큰으로 매핑한 다음 작업으로 인코딩하는 Transformer 아키텍처이며, 이 아키텍처는 다양한 로봇 및 작업 데이터 세트와 함께 사용할 수 있습니다. 기차. 정책은 추가 교육 없이 다양한 카메라 구성을 수용할 수 있고, 다양한 로봇을 제어할 수 있으며, 음성 명령이나 대상 이미지를 통해 안내할 수 있습니다. 이 모든 작업은 모델에 대한 토큰 입력만 변경하면 됩니다.
가장 중요한 것은 모델이 다양한 센서 입력, 작동 공간 또는 로봇 형태를 갖춘 새로운 로봇 구성에도 적응할 수 있다는 것입니다. 필요한 것은 적절한 어댑터를 채택하고 작은 대상 도메인 데이터 세트와 소량의 데이터를 사용하는 것뿐입니다. 데이터 미세 조정을 위한 예산을 계산합니다.
그뿐만 아니라 Octo는 현재까지 가장 큰 로봇 조작 데이터세트인 Open X-Embodiment 데이터세트의 800,000개 로봇 시연에 대해 사전 교육을 받았습니다. Octo는 새로운 관찰 및 행동 공간에 맞게 효율적으로 미세 조정된 최초의 GRP일 뿐만 아니라 완전히 오픈 소스(훈련 워크플로, 모델 체크포인트 및 데이터)인 최초의 일반 로봇 조작 전략이기도 합니다. 또한 팀은 결합된 Octo 구성 요소의 독특하고 혁신적인 특성을 논문에서 강조했습니다.
Octo 모델
Architecture
Octo의 핵심은 Transformer의 π 전략을 기반으로 합니다. 여기에는 입력 토크나이저, Transformer 백본 네트워크 및 판독 헤드의 세 가지 주요 부분이 포함되어 있습니다.
그림 2에 표시된 것처럼 입력 토크나이저의 기능은 언어 명령, 대상 및 관찰 시퀀스를 토큰으로 변환하는 것입니다. Transformer 백본은 이러한 토큰을 임베딩으로 처리하고 판독 헤드는 필요한 출력을 얻습니다. 즉 행동이다.
작업 정의(예: 언어 지침 및 대상 이미지)와 관찰(예: 카메라 비디오 스트림)을 일반적으로 사용되는 토큰화된 형식으로 변환하기 위해 팀은 다양한 양식에서 서로 다른 사용을 목표로 했습니다. 토크나이저:
언어 입력의 경우 먼저 토큰화된 후 사전 훈련된 Transformer를 통해 언어 내장 토큰 시퀀스로 처리됩니다. 구체적으로 그들이 사용한 모델은 t5-base(111M)이다.
이미지 관찰 및 대상의 경우 더 얕은 컨볼루션 스택을 통해 처리된 다음 일련의 평평한 타일로 분할됩니다.
마지막으로 Transformer의 입력 시퀀스는 학습 가능한 위치 임베딩을 작업 및 관찰 토큰에 추가하고 특정 순서로 배열하여 구성됩니다.
입력을 통합 토큰 시퀀스로 처리한 후 처리를 위해 Transformer로 전달할 수 있습니다. 이는 관찰 및 동작 시퀀스를 기반으로 Transformer 기반 정책을 훈련하는 이전 연구 작업과 유사합니다.
Octo의 주의 모드는 블록별 마스킹입니다. 관찰 토큰은 인과 관계에 따라 동일하거나 이전 시간 단계의 토큰 및 작업 토큰에만 주의를 기울일 수 있습니다. 존재하지 않는 관찰에 해당하는 토큰은 완전히 마스킹됩니다(예: 언어 지침이 없는 데이터 세트). 이 모듈식 설계를 통해 미세 조정 단계에서 관찰이나 작업을 쉽게 추가하거나 제거할 수 있습니다.
팀에서는 이러한 입력 토큰 모듈 외에도 학습된 판독 토큰도 삽입했습니다. 판독 토큰은 이전 관찰 및 작업 토큰에 주의를 기울이지만 관찰 또는 작업 토큰에서는 주의를 기울이지 않습니다. 따라서 판독 토큰은 내부 임베딩을 읽고 처리할 수만 있고 내부 임베딩에는 영향을 미칠 수 없습니다. 판독 토큰은 BERT의 [CLS] 토큰과 유사하게 작동하며 지금까지 관찰 시퀀스의 컴팩트 벡터 임베딩 역할을 합니다. 읽기 토큰을 삽입하기 위해 확산 프로세스를 구현하는 경량 "작업 헤더"가 사용됩니다. 이 작업 헤더는 여러 연속 작업의 "청크"를 예측합니다.
이 디자인을 통해 사용자는 다운스트림 미세 조정 중에 모델에 새로운 작업과 관찰 입력 또는 작업 출력 헤더를 유연하게 추가할 수 있습니다. 새 작업, 관찰 또는 손실 함수를 다운스트림에 추가할 때 Transformer의 사전 훈련된 가중치를 전체적으로 유지하고 새 위치 임베딩, 새 경량 인코더 또는 사양 변경으로 인해 필요한 새 헤더만 추가할 수 있습니다. 이는 이미지 입력이 추가 또는 제거되거나 작업 사양이 변경된 경우 사전 학습된 모델의 수많은 구성 요소를 다시 초기화하거나 재학습해야 했던 이전 아키텍처와 다릅니다.
Octo를 진정한 "일반" 모델로 만들려면 이러한 유연성이 매우 중요합니다. 사전 훈련 단계에서 가능한 모든 로봇 센서와 동작 구성을 다루는 것은 불가능하기 때문에 Octo를 미세하게 조정할 수 있다면 튜닝 단계 입력 및 출력을 통해 로봇 커뮤니티를 위한 다목적 도구가 됩니다. 또한 표준 Transformer 백본을 사용하거나 시각적 인코더를 MLP 출력 헤드와 융합한 이전 모델 설계에서는 모델 입력의 유형과 순서가 고정되었습니다. 대조적으로, Octo의 관찰이나 작업을 전환하는 데에는 모델의 대부분을 다시 초기화할 필요가 없습니다.
Training data
팀은 Open X-Embodiment에서 25개 데이터세트의 혼합 데이터세트를 가져왔습니다. 그림 3은 데이터 세트의 구성을 보여줍니다.
교육 목표 및 교육 하드웨어 구성에 대한 자세한 내용은 원본 문서를 참조하세요.
모델 체크포인트 및 코드
여기서 요점이 나옵니다! 팀은 Octo의 논문을 발표했을 뿐만 아니라 다음을 포함한 모든 리소스를 완전히 오픈 소스로 공개했습니다.
팀은 또한 실험을 통해 Octo에 대한 실증 분석을 수행하고 기본 로봇 모델로서의 성능을 다차원적으로 평가했습니다.
그림 4는 Octo를 평가하기 위한 9가지 작업을 보여줍니다.
Octo를 사용하여 여러 로봇 제어
팀에서는 Octo, RT-1-X 및 RT-2-X의 제로 샘플 제어 기능을 비교했습니다. 그림 5.
Octo의 성공률이 RT-1-X(3,500만 매개변수)보다 29% 더 높다는 것을 알 수 있습니다. WidowX 및 RT-1 Robot 평가에서 Octo의 성능은 550억 개의 매개변수를 갖춘 RT-2-X의 성능과 동일합니다.
또한 RT-1-X 및 RT-2-X는 언어 명령만 지원하는 반면 Octo는 대상 이미지에 대한 조건부도 지원합니다. 또한 팀은 WidowX 작업에서 언어를 조건으로 한 경우보다 대상 이미지를 조건으로 한 경우 성공률이 25% 더 높다는 사실을 발견했습니다. 이는 대상 이미지가 작업 완료에 대한 추가 정보를 제공하기 때문일 수 있습니다.
Octo는 데이터를 효율적으로 활용하여 새로운 분야에 적응할 수 있습니다
표 1은 데이터 효율적인 미세 조정의 실험 결과를 보여줍니다.
처음부터 훈련하거나 사전 훈련된 VC-1 가중치를 사용하여 사전 훈련하는 것보다 Octo를 미세 조정하는 것이 더 나은 결과를 제공하는 것을 볼 수 있습니다. 6가지 평가 설정에서 Octo의 2위 기준 대비 평균 우위는 52%입니다!
그리고 언급해야 할 점은 이러한 모든 평가 작업에 대해 Octo를 미세 조정할 때 사용된 레시피와 하이퍼 매개변수가 모두 동일했다는 점입니다. 이는 팀이 매우 좋은 기본 구성을 찾았음을 보여줍니다.
일반 로봇 정책 훈련을 위한 설계 결정
위 결과는 Octo가 실제로 제로 샷 다중 로봇 컨트롤러로 사용될 수 있으며 정책 미세 조정을 위한 초기화 기반으로도 사용될 수 있음을 보여줍니다. . 다음으로 팀은 다양한 디자인 결정이 Octo 전략 성과에 미치는 영향을 분석했습니다. 특히 모델 아키텍처, 교육 데이터, 교육 목표 및 모델 크기와 같은 측면에 중점을 둡니다. 이를 위해 그들은 절제 연구를 수행했습니다.
표 2는 모델 아키텍처, 훈련 데이터 및 훈련 목표에 대한 절제 연구 결과를 보여줍니다.
그림 6은 모델 크기가 제로 샘플 성공률에 미치는 영향을 보여줍니다. 모델이 클수록 시각적 장면 인식 기능이 더 우수하다는 것을 알 수 있습니다.
전반적으로 옥토 성분의 효능이 입증되었습니다.
위 내용은 다양한 형태와 작업에 적응하는 가장 강력한 오픈소스 로봇 학습 시스템 'Octopus' 탄생의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!