Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.-일체 포함-php.cn

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

풀어 주다： 2023-04-11 11:34:03

앞으로

1336명이 탐색했습니다.

컴퓨터 비전, 자연어 처리 등 기계 학습(ML) 연구의 여러 하위 분야에서 최근 이루어진 많은 발전은 모든 데이터를 효율적으로 흡수할 수 있는 크고 다양한 데이터 세트와 표현 모델을 활용하는 데 기반을 두고 있습니다.

그러나 이 고성능 모델 방법은 로봇공학 분야에서 상대적으로 적용 사례가 적습니다.

이유는 간단합니다. 첫째, 대규모의 다양한 로봇 데이터가 부족하여 모델이 다양한 로봇 경험을 흡수하는 능력이 제한됩니다.

두 번째로, 이러한 데이터세트에서 학습하고 효과적으로 일반화할 수 있는 표현력이 뛰어나고 확장 가능하며 빠른 실시간 추론 모델이 부족합니다.

그리고 이번에 Google의 Robotics Transformer 1(줄여서 RT-1)은 로봇의 입력 및 출력 동작(예: 카메라 이미지, 작업 지침, 모터 명령)에 라벨을 지정하여 효율적으로 실행할 수 있는 다중 작업 모델입니다. 상시 추론하고 실시간 제어가 가능합니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

RT-1은 많은 양의 데이터를 흡수하여 로봇이 다양한 환경에서 다양한 작업을 수행할 수 있도록 함으로써 기계 성능 및 일반화 능력을 향상시킵니다.

간단히 말하면, 로봇이 동시에 여러 가지 작업을 수행하도록 합니다.

이 모델은 EDR(Everyday Robots)의 13개 로봇을 사용하여 17개월 동안 수집된 700개 이상의 작업을 다루는 130,000개의 에피소드로 구성된 대규모 실제 로봇 데이터 세트에서 훈련되었습니다.

결과는 RT-1이 기존 기술에 비해 새로운 작업, 환경 및 개체에 대한 제로 샷 일반화를 크게 향상시킬 수 있음을 보여줍니다.

편집자가 아래 Github 링크도 세심하게 준비해 놓았습니다. 관심이 있으시면 가서 살펴보세요.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

https://github.com/google-research/robotics_transformer

RT-1 모델 특정 원리

RT-1은 Transformer 아키텍처를 기반으로 구축되었습니다. 로봇의 카메라에서 이미지 히스토리를 얻어 자연어로 표현된 작업 설명을 입력으로 사용하고, 표시된 동작을 직접 출력합니다.

RT-1의 아키텍처는 인과 마스킹을 사용하는 표준 범주형 교차 엔트로피 목표에 대해 훈련된 디코더 전용 시퀀스 모델의 아키텍처와 유사합니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

모델은 텍스트 지침과 이미지 세트를 입력으로 받아 사전 훈련된 FiLM EfficientNet 모델을 통해 이를 토큰으로 인코딩하고 TokenLearner를 통해 압축한 다음 Transformer를 통해 작업 토큰을 출력합니다.

주요 기능은 다음과 같습니다: 이미지 토큰화, 액션 토큰화 및 토큰 압축.

이미지 토큰화: ImageNet에서 사전 훈련된 EfficientNet-B3 모델을 통해 이미지를 전달한 다음 결과 9×9×512 공간 특징 맵을 81개 토큰으로 평면화합니다. 이미지 토크나이저는 자연어 작업 지침을 조건으로 하며 ID로 초기화된 FiLM 레이어를 사용하여 초기에 작업 관련 이미지 특징을 추출합니다.
동작 토큰화: 로봇의 동작 크기는 팔 움직임의 7가지 변수(x, y, z, 롤, 피치, 요, 클램프 열기), 3가지 기본 동작 변수(x, y, 요 탐색)입니다. ) 및 세 가지 모드 사이를 전환하는 추가 이산 변수가 있습니다.
토큰 압축: 모델은 요소 주의 모듈 TokenLearner를 사용하여 학습에 미치는 영향을 기반으로 압축할 수 있는 이미지 토큰의 소프트 조합을 적응적으로 선택하므로 추론 속도가 2.4배 이상 빨라집니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

원격 조작을 통해 인간이 제공하는 데모를 사용하고 로봇이 실행하는 명령에 대한 텍스트 설명으로 각 에피소드에 주석을 답니다.

그리고 이 로봇은 "7도 자유도의 팔, 두 손가락 그리퍼 및 이동식 베이스"를 사용하여 작업을 수행합니다.

데이터세트에 표현된 고급 기술 세트에는 항목 선택 및 배치, 서랍 열기 및 닫기, 서랍 안팎으로 항목 넣기, 얇은 항목 똑바로 세우기, 물건 넘어뜨리기 등과 같은 작업이 포함됩니다.

이기종 데이터 소스 통합

RT-1을 더욱 발전시키기 위해 다른 로봇에서 수집한 데이터를 사용하여 훈련하여 (1) 새로운 데이터 소스가 성능을 제공할 때 모델이 원래 작업에 대한 성능을 유지하는지 여부, (2) 새롭고 다른 데이터로 일반화하여 모델이 개선되는지 여부.

수집된 데이터를 EDR을 사용하여 수집한 원본 데이터세트의 작업 사양 및 경계와 일치하도록 변환하고 각 데이터세트에 작업 지침을 표시합니다.

그런 다음 각 훈련 배치에서 Kuka 데이터와 EDR 데이터를 1:2 비율로 혼합하여 원래 EDR 기술의 회귀를 제어합니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

사진은 여러 로봇으로부터 데이터를 수집할 때 훈련 방법을 보여줍니다.

RT-1은 다른 로봇의 경험을 관찰하여 새로운 기술을 습득할 수 있음을 보여줍니다.

RT-1이 Kuka의 빈 피킹 데이터와 로봇공학 강의실의 기존 EDR 데이터를 학습했을 때 정확도는 EDR 데이터만 사용하여 학습했을 때의 22%에 비해 거의 2배에서 39%로 뛰어올랐습니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

Kuka 단독의 피킹 데이터를 사용하여 RT-1을 훈련시키고 EDR 로봇의 피킹 데이터를 사용하여 평가한 결과 정확도는 0%였습니다.

실험 결과

RT-1의 일반화 능력을 더 잘 이해하기 위해 Gato, BC-Z 및 BC-Z XL(즉, 정량적 매개변수에 대해 동일한 BC-Z 사용)의 세 가지 기준에 대한 성능을 연구했습니다.

이를 네 가지 범주로 나눴습니다:

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

사진은 테스트 환경에서 RT-1과 대조군의 성능을 보여줍니다

보이는 작업 성능: 훈련 중에 관찰된 작업 성능
보이지 않는 작업 성능: 훈련 세트에 있는 기술과 개체가 별개인 보이지 않는 작업에 대한 성능
강건성: 간섭 요인 및 배경 변경 성능(새로운 주방, 조명, 배경 장면)
장거리 시나리오 ): 실제 주방에서 SayCan과 유사한 자연어 명령 실행

RT-1의 고성능 및 일반화 기능 SayCan을 통해 장거리 및 모바일 운용 업무를 구현할 수 있습니다.

SayCan은 로봇의 어포던스 내에 언어 모델을 배치하고 몇 가지 힌트를 활용하여 자연어를 표현하는 장기적인 작업을 일련의 하위 수준 기술로 분류하는 방식으로 작동합니다.

우리는 RT-1과 다른 두 기준(SayCan with Gato 및 SayCan with BC-Z)을 사용하여 두 개의 실제 주방에서 SayCan을 평가합니다.

아래에서 "Kitchen2"는 "Kitchen1"보다 더 어려운 일반화 시나리오를 제시합니다. 대부분의 학습 데이터를 수집하는 데 사용된 시뮬레이션된 주방은 Kitchen1을 모델로 했습니다.

Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.

Kitchen1에서 RT-1을 사용한 SayCan의 실행 성공률이 67%로 다른 기준치보다 우수한 것을 확인할 수 있습니다.

새로운 투명 주방으로 인한 일반화의 어려움으로 인해 Gato를 사용한 SayCan과 BCZ를 사용한 SayCan의 성능이 감소했지만 RT-1의 성공률은 감소하지 않았습니다.

위 내용은 Google RT-1 모델은 로봇에게 여러 작업을 요청하며 700개 명령에 대한 성공률은 97%입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!