로봇공학이 자연어 처리(NLP), 비전 및 기타 인공 지능 분야에 비해 훨씬 뒤처지는 이유는 무엇입니까? 무엇보다도 데이터 부족이 가장 큰 이유입니다. 이 문제를 해결하기 위해 Google DeepMind 및 기타 기관에서는 개방형 X-Embodiment 데이터 세트를 출시하고 보다 강력한 RT-X 모델 학습에 성공했습니다
대형 모델의 지속적인 혁신 2023년에는 연구 대형 모델을 두뇌로 활용해 작업을 보조하는 지능형 로봇 구현도 빠르게 발전하고 있다. 2달 전 Google DeepMind는 로봇을 제어하기 위한 최초의 VLA(Vision-Language-Action) 모델인 RT-2를 출시했습니다. 이 모델을 통해 로봇은 복잡한 인간 지시를 해석할 수 있을 뿐만 아니라 앞에 있는 물체를 이해하고(물체가 이전에 본 적이 없더라도) 지시에 따라 조치를 취할 수 있습니다. 예를 들어, 로봇에게 테이블 위의 "멸종 동물"을 집어 올리라고 요청합니다. 앞에 있는 공룡 인형을 잡아요.
당시 Google 경영진은 RT-2가 로봇 제작 및 프로그래밍 방식에 있어서 큰 도약이라고 말했습니다. "이번 변화로 인해 우리는 전체 연구 계획을 다시 생각해야 했습니다." 더 놀라운 것은 두 달이 조금 넘었는데 딥마인드의 로봇 모델이 다시 개선되어 순식간에 3배로 늘어났다는 것입니다. 우리는 로봇이 일반적으로 한 가지 일을 하는 데 매우 전문적이지만 일반적인 능력이 좋지 않다는 것을 알고 있습니다. 일반적으로 각 작업, 로봇, 환경에 대해 모델을 훈련해야 합니다. 변수를 변경하려면 처음부터 다시 시작해야 하는 경우가 많습니다. 하지만 다양한 로봇공학 분야의 지식을 결합하여 범용 로봇을 훈련하는 방법을 만들 수 있다면 어떨까요? 이것이 DeepMind가 오랫동안 해왔던 일입니다. 그들은 22개의 서로 다른 로봇 유형의 데이터를 모아 Open X-Embodiment 데이터 세트를 만든 다음 더 유능한 RT-X(각각 RT-1-X 및 RT-2-X)를 교육했습니다. RT-1-X 모델을 5개의 서로 다른 연구실에서 테스트한 결과, 각 로봇에 대해 독립적으로 개발된 방법과 비교하여 일반적으로 사용되는 5개의 서로 다른 로봇에서 새로운 방법의 성공률이 50% 증가한 것으로 나타났습니다. . 또한 위 데이터세트로 훈련된 RT-2-X가 실제 로봇 기술의 성능을 2배 향상시키고, 새로운 데이터를 학습함으로써 RT-2-X가 많은 새로운 기술을 습득한다는 것을 보여줍니다. 이 작업은 여러 로봇 유형의 데이터로 훈련된 단일 모델이 단일 로봇 유형의 데이터로 훈련된 모델보다 여러 로봇에서 훨씬 더 나은 성능을 발휘한다는 것을 보여줍니다.
이 연구는 DeepMind 단독으로 완료한 것이 아니라 33개 학술 연구소와의 협력의 결과라는 점을 언급할 가치가 있습니다. 그들은 개방적이고 책임감 있는 방식으로 이 기술을 개발하기 위해 최선을 다하고 있습니다. 현재 Open X-Embodiment 데이터 세트와 RT-1-X 모델 체크포인트는 광범위한 연구 커뮤니티에서 사용할 수 있습니다. Nvidia의 선임 인공 지능 과학자인 Jim Fan은 오늘이 로봇을 위한 ImageNet의 순간이 될 수 있다고 말했습니다.
Google 연구원 Karol Hausman도 같은 한숨을 쉬었습니다. 드디어 로봇의 ImageNet 순간이 도래했습니다.
Open X-Embodiment 데이터 세트, 로봇 공학을 위한 ImageNet Moment여기에서 훈련된 데이터 세트와 모델은 AI 발전을 발전시키는 데 핵심적인 역할을 했습니다. ImageNet이 컴퓨터 비전 연구를 발전시킨 것처럼 Open X-Embodiment도 로봇공학을 발전시켰습니다. 다양한 데이터 세트를 구축하는 것은 항상 범용 모델을 훈련하는 데 핵심이었습니다. 이러한 훈련된 모델은 다양한 유형의 로봇을 제어하고, 다양한 지침을 따르고, 복잡한 작업에 대한 기본 추론을 수행하고, 일반적인 작업 변경을 효율적으로 수행할 수 있습니다. 그러나 이러한 데이터 세트를 수집하는 것은 단일 실험실에서 너무 리소스 집약적입니다. 이를 위해 DeepMind는 33개 기관의 학술 연구소와 협력하여 Open X-Embodiment 데이터 세트를 구축했습니다. 그들은 1백만 개 이상의 클립에 걸쳐 22개의 로봇 인스턴스로부터 데이터를 수집하여 500개 이상의 기술과 150,000개 작업에서 로봇의 성능을 보여주었습니다. 이 데이터세트는 동종 로봇공학 데이터세트 중 가장 포괄적인 것입니다. RT-1-X: 성공률이 50% 증가합니다.
RT-X는 두 개의 로봇변압기(RT) 모델을 기반으로 구성되었습니다. 특히 그림 3과 같이 Transformer 아키텍처를 기반으로 구축되고 로봇 제어용으로 설계된 35M 매개변수 네트워크인 RT-1을 사용하여 RT-1-X를 교육했습니다. 또한 인터넷 규모의 비전 및 언어 데이터와 훈련된 로봇 제어 데이터에 대해 대규모 시각적 언어 동작 모델(VLA) 제품군인 RT-2에서 RT-2-X를 훈련했습니다. RT-1-X를 평가하기 위해 DeepMind는 이를 문 열기와 같은 특정 작업을 위해 개발된 모델과 비교했습니다. 결과는 Open X-Embodiment 데이터 세트를 사용하여 훈련된 RT-1-X가 원래 모델보다 평균 50% 더 나은 성능을 보인다는 것을 보여줍니다. RT-1-X의 평균 성공률은 원래 방법보다 50% 더 높습니다. 关于 다양한 협력 기관의 RT-1-X 효과 표시
RT-2-X: 무장애 잠금 해제의 새로운 기술 RT-X의 지식 이동을 연구하기 위해 기능을 갖춘 DeepMind는 다른 실험을 수행했습니다. 이러한 실험에는 RT-2 데이터 세트에는 없지만 다른 로봇의 데이터 세트에는 있는 개체와 기술이 포함되었습니다. 결과에 따르면 RT-2-X는 이전 최고 모델인 RT-2보다 새로운 기술을 3배 더 성공적으로 습득한 것으로 나타났습니다. 이는 또한 다른 플랫폼의 데이터를 사용한 공동 훈련이 RT-2-X에 원래 데이터 세트에 없는 추가 기술을 제공하여 새로운 작업을 수행할 수 있음을 보여줍니다. 위 그림은 RT-2-X가 물체 간의 공간적 관계를 이해하는 모습을 보여줍니다.
일련의 결과는 RT-2-X가 공간에 대한 더 나은 이해를 포함하여 이전에 RT-2로 달성할 수 없었던 기술을 달성한다는 것을 보여줍니다. 예를 들어, 목표 요구 사항을 달성하기 위해 로봇에게 "사과를 천 근처로 이동"하라고 요청하거나 로봇에게 "사과를 천으로 이동"하라고 요청하면 로봇은 완전히 다른 궤적을 취하게 됩니다. 로봇이 취하는 동작을 조정하려면 전치사를 "near"에서 "on"으로 변경하기만 하면 됩니다.
RT-2-X는 다른 로봇의 데이터를 RT-2-X 교육에 통합하면 로봇의 작업 범위를 향상시킬 수 있지만 충분히 고용량 아키텍처를 사용하는 경우에만 가능하다는 것을 보여줍니다. ㅋㅋ RT-2-X(55B): 학술 실험실에서 알려지지 않은 작업을 수행하는 현재까지 가장 큰 모델 중 하나
연구 영감: 로봇은 서로에게서 배워야 합니다. 연구원 마찬가지입니다 로봇공학 연구는 흥미로운 초기 단계에 있습니다. DeepMind의 이 새로운 연구는 더 다양한 데이터와 더 나은 모델로 학습을 확장함으로써 더 유용한 보조 로봇을 개발하는 것이 가능할 수 있음을 보여줍니다. 전 세계 연구실과 자원을 협력하고 공유하는 것은 개방적이고 책임감 있는 방식으로 로봇공학 연구를 발전시키는 데 매우 중요합니다. DeepMind는 데이터 소스를 공개하고 안전하지만 제한된 모델을 제공함으로써 장벽을 줄이고 연구를 가속화하기를 희망합니다. 로봇 공학의 미래는 로봇이 서로 학습하고, 가장 중요하게는 연구자들이 서로 배울 수 있도록 하는 데 달려 있습니다.
이 작업은 모델이 다양한 환경에서 일반화될 수 있으며 Google DeepMind의 로봇이나 전 세계 여러 대학의 로봇에서 성능이 크게 향상되었음을 입증합니다. 향후 연구에서는 이러한 발전을 RoboCat의 자체 개선 속성과 결합하여 모델이 자체 경험을 기반으로 지속적으로 개선할 수 있는 방법을 탐구할 수 있습니다. 또 다른 향후 방향은 서로 다른 데이터 세트를 혼합하는 것이 교차 구현 에이전트 일반화에 어떻게 영향을 미치는지, 그리고 이러한 일반화가 어떻게 달성되는지 더 자세히 탐구하는 것입니다. RT-X에 대해 더 알고 싶다면 DeepMind에서 발행한 이 논문을 참조하세요: 논문 링크: https://robotics-transformer-x.github.io / paper.pdf프로젝트 링크: https://robotics-transformer-x.github.io/
참고 링크: https://www.deepmind.com/blog/scaling - 다양한 로봇 유형에 걸친 상향 학습위 내용은 딥 러닝의 거대 기업인 DeepMind는 ImageNet 데이터 세트에서 획기적인 진전을 이루며 로봇 공학 연구에 새로운 이정표를 세웠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!