VR 헬멧을 착용해 로봇에게 잡는 법을 가르치면 로봇이 그 자리에서 학습합니다.-일체 포함-php.cn

최근 몇 년간 로봇공학 분야에서는 춤도 추고 축구도 할 수 있는 로봇개, 물건을 움직이는 이족보행 로봇 등 흥미로운 발전이 많이 등장했습니다. 일반적으로 이러한 로봇은 감각 입력을 기반으로 제어 전략을 생성하는 데 의존합니다. 이 접근 방식을 사용하면 상태 추정 모듈 개발, 개체 속성 모델링, 컨트롤러 이득 조정 등의 과제를 피할 수 있지만 상당한 도메인 전문 지식이 필요합니다. 많은 진전이 있었음에도 불구하고 학습 병목 현상으로 인해 로봇이 임의의 작업을 수행하고 보편적인 목표를 달성하는 것이 어려워졌습니다.

로봇 학습의 핵심을 이해하기 위한 핵심 질문은 로봇에 대한 훈련 데이터를 어떻게 수집합니까? 한 가지 접근 방식은 자체 감독 데이터 수집 전략을 통해 로봇에 대한 데이터를 수집하는 것입니다. 이 접근 방식은 상대적으로 강력하지만 상대적으로 간단한 운영 작업의 경우에도 실제 세계와 수천 시간의 데이터 상호 작용이 필요한 경우가 많습니다. 다른 하나는 시뮬레이션된 데이터를 학습한 후 실제 로봇(Sim2Real)으로 전송하는 것입니다. 이를 통해 로봇은 복잡한 로봇 동작을 훨씬 더 빠르게 배울 수 있습니다. 그러나 시뮬레이션된 로봇 환경을 설정하고 시뮬레이터 매개변수를 지정하려면 광범위한 도메인 전문 지식이 필요한 경우가 많습니다.

실제로 훈련 데이터를 수집하는 세 번째 방법이 있습니다. 인간 교사에게 시연을 요청한 다음 로봇이 인간 시연을 빠르게 모방하도록 훈련시킬 수도 있습니다. 이러한 모방 접근 방식은 최근 다양한 까다로운 운영 문제에서 큰 잠재력을 보여주었습니다. 그러나 이들 연구의 대부분은 로봇에 대한 고품질 실증 데이터를 수집하기 어렵다는 근본적인 한계를 안고 있다.

위 문제를 바탕으로 뉴욕대학교 연구진과 Meta AI 연구진은 실증 데이터 수집과 능숙한 로봇 훈련을 위한 새로운 프레임워크인 HOLO-DEX를 제안했습니다. VR 헤드셋(예: Quest 2)을 사용하여 인간 교사를 몰입형 가상 세계에 배치합니다. 이 가상 세계에서 교사는 로봇의 눈을 통해 로봇이 "보는" 것을 확인하고 내장된 자세 감지기를 통해 Allegro 조작기를 제어할 수 있습니다.

인간이 로봇에게 "단계별" 작업을 수행하도록 가르치는 것처럼 보입니다.

VR 헬멧을 착용해 로봇에게 잡는 법을 가르치면 로봇이 그 자리에서 학습합니다.

HOLODEX를 사용하면 인간이 지연 시간이 짧은 관찰 피드백 시스템을 통해 고품질 데모 데이터를 로봇에 원활하게 제공할 수 있습니다. .다음 세 가지 장점이 있습니다:

자기 지도 데이터 수집 방법에 비해 HOLODEX는 강력한 모방 학습 기술을 기반으로 하며 보상 메커니즘 없이 빠르게 학습할 수 있습니다. 학습된 정책은 실제 데이터에 대해 교육을 받았기 때문에 실제 로봇에서 직접 실행할 수 있습니다.
다른 모방 방법에 비해 HOLODEX는 도메인 전문 지식에 대한 요구 사항을 크게 줄이고 인간이 VR 장치를 작동하기만 하면 됩니다.

VR 헬멧을 착용해 로봇에게 잡는 법을 가르치면 로봇이 그 자리에서 학습합니다. 논문 링크: https://arxiv.org/pdf/2210.06463.pdf

프로젝트 링크: https://holo-dex.github.io/

코드 링크: https://github.com/SridharPandian/Holo-Dex

HOLO-DEX의 성능을 평가하기 위해 연구에서는 손에 쥐는 물체, 병 뚜껑 풀기 등 손재주가 필요한 6가지 작업에 대한 실험을 수행했습니다. , 등을 한 손으로. 연구에 따르면 HOLO-DEX를 사용하는 인간 교사는 단일 이미지 원격 조작(원격 조작)에 대한 이전 작업보다 1.8배 더 빠른 것으로 나타났습니다. 4/6 작업에서 HOLO-DEX 학습 전략의 성공률은 90%를 초과합니다. 또한, 연구에서는 HOLO-DEX를 통해 학습된 민첩한 전략이 보이지 않는 새로운 대상 개체에 일반화될 수 있음을 발견했습니다.

전체적으로 이 연구의 기여는 다음과 같습니다.

VR 헤드셋을 사용하여 인간 교사가 혼합 현실에서 고품질 원격 조작을 달성할 수 있는 방법을 제공합니다.
실험을 통해 HOLO-DEX에서 수집한 시연을 사용하여 효과적이고 다재다능한 작업 동작을 훈련할 수 있음을 보여줍니다. ;
이 연구에서는 또한 각 핵심 디자인의 유용성을 검증하기 위해 제안된 방법의 다양한 결정에 대한 분석 및 절제 실험을 수행했습니다.

또한 HOLO-DEX와 관련된 혼합 현실 API, 연구 수집 시연 및 교육 코드가 오픈 소스로 제공됩니다: https://holo-dex.github.io/

HOLO-DEX 아키텍처 개요

아래 그림 1과 같이 HOLO-DEX는 2단계로 동작합니다. 첫 번째 단계에서는 인간 교사가 가상 현실(VR) 헤드셋을 사용하여 로봇에 시연을 제공합니다. 이 단계에는 교육을 위한 가상 세계를 생성하고, 교사의 손 자세를 추정하고, 교사의 손 자세를 로봇 손으로 재배치하고, 최종적으로 로봇 손을 제어하는 단계가 포함됩니다. 첫 번째 단계에서 일부 데모를 수집한 후 HOLO-DEX의 두 번째 단계에서는 시연된 작업을 해결하기 위한 시각적 전략을 학습합니다.

VR 헬멧을 착용해 로봇에게 잡는 법을 가르치면 로봇이 그 자리에서 학습합니다.

이 연구에서는 해상도가 1832 × 1920이고 재생률이 72Hz인 Meta Quest 2 VR 헤드셋을 사용하여 인간 교사를 가상 세계에 배치했습니다. 헤드셋 기본 버전의 가격은 399달러이고 무게는 503g으로 상대적으로 가벼워서 교사가 프레젠테이션을 더 쉽고 편안하게 할 수 있습니다. 또한 Quest 2의 API 인터페이스를 사용하면 VR의 진단 패널과 함께 로봇 시스템을 시각화하는 맞춤형 혼합 현실 세계를 만들 수 있습니다.

VR 헬멧을 착용해 로봇에게 잡는 법을 가르치면 로봇이 그 자리에서 학습합니다.

VR 헤드셋을 사용하여 손 자세 추정

능숙한 원격 조작에 대한 이전 작업과 비교하여 VR 헤드셋을 사용하면 인간 교사의 손 자세 추정에 세 가지 이점이 있습니다. 첫째, Quest 2는 4개의 흑백 카메라를 사용하기 때문에 제스처 추정기는 단일 카메라 추정기보다 훨씬 강력합니다. 둘째, 카메라는 내부적으로 교정되므로 이전 다중 카메라 원격 작동 프레임워크에서 요구되는 특수 교정 절차가 필요하지 않습니다. 셋째, 손 자세 추정 장치가 장치에 통합되어 있어 72Hz에서 실시간 자세를 전송할 수 있습니다. 이전 연구에서는 능숙한 원격 조작의 주요 과제는 높은 정확도와 빈도로 손 제스처를 획득하는 것이며 HOLO-DEX는 상용 등급 VR 헤드셋을 사용하여 이 문제를 크게 단순화합니다.

손 포즈 리타겟팅

다음으로 VR에서 추출한 선생님의 손 포즈를 로봇 손으로 리타겟팅해야 합니다. 먼저 교사 손의 각 관절 각도를 계산한 다음, 로봇의 관절에 해당 각도로 이동하도록 "명령"하는 직접적인 방향 조정 방법이 있습니다. 이 방법은 연구에서 엄지손가락을 제외한 모든 손가락에 효과가 있었지만 알레그로 로봇 손의 모양이 인간의 손 모양과 정확히 일치하지 않아 엄지손가락에만 완전히 효과가 있는 것은 아닙니다.

이 문제를 해결하기 위해 본 연구에서는 교사의 엄지손가락 끝의 공간 좌표를 로봇의 엄지손가락 끝과 매핑한 후 역기구학 솔버를 통해 엄지손가락의 관절 각도를 계산합니다. Allegro 조작기에는 새끼손가락이 없기 때문에 연구에서는 교사의 새끼손가락 각도를 무시했다는 점에 유의해야 합니다.

전체 자세 교정 과정에서는 데모를 수집하기 위해 교정이나 교사별 조정이 필요하지 않습니다. 그러나 연구에서는 교사의 엄지손가락에서 로봇의 엄지손가락으로의 특정 매핑을 찾아 엄지손가락 방향 전환을 개선할 수 있다는 사실을 발견했습니다. 전체 프로세스는 계산 비용이 저렴하며 원하는 로봇 손 자세를 60Hz로 전송할 수 있습니다.

Robot Hand Control

Allegro Hand는 ROS 통신 프레임워크를 통해 비동기 제어를 수행합니다. 방향 재설정 프로그램에 의해 계산된 로봇 손 관절 위치를 고려하여 본 연구에서는 PD 컨트롤러를 사용하여 300Hz에서 필요한 토크를 출력합니다. 정상상태 오차를 줄이기 위해 본 연구에서는 중력 보상 모듈을 사용하여 오프셋 토크를 계산합니다. 대기 시간 테스트에서 연구 결과에 따르면 VR 헤드셋이 로봇 손과 동일한 로컬 네트워크에 있을 때 100밀리초 미만의 대기 시간이 달성되었습니다. 짧은 대기 시간과 낮은 오류율은 HOLO-DEX에 매우 중요합니다. 이를 통해 인간 교사가 로봇 손을 직관적으로 원격 조작할 수 있기 때문입니다.

인간 교사가 로봇 손을 조종하면 로봇의 변화를 실시간(60Hz)으로 볼 수 있습니다. 이를 통해 교사는 로봇 손의 실행 오류를 수정할 수 있습니다. 교육 과정에서 연구에서는 RGBD 카메라 3대의 관찰 데이터와 로봇의 동작 정보를 5Hz 주파수로 기록했습니다. 이 연구에서는 여러 대의 카메라를 녹화하는 데 필요한 대용량 데이터 공간과 관련 대역폭으로 인해 녹화 빈도를 줄여야 했습니다.

모방 학습을 위한 HOLO-DEX 데이터 사용

데이터 수집 후 HOLO-DEX는 데이터에 대한 시각적 전략을 훈련해야 하는 두 번째 단계로 들어갑니다. 본 연구에서는 학습을 위해 INN(Near Nearest Neighbor imitation) 알고리즘을 채택했습니다. 이전 작업에서 INN은 Allegro에서 스마트한 상태 기반 정책을 생성하는 것으로 나타났습니다. HOLO-DEX는 한 단계 더 나아가 이러한 시각적 전략이 다양한 능숙한 조작 작업에서 새로운 개체에 일반화된다는 것을 보여줍니다.

저차원 임베딩을 얻기 위한 학습 알고리즘을 선택하기 위해 본 연구에서는 여러 가지 최첨단 자기 지도 학습 알고리즘을 시도한 결과 BYOL이 가장 가까운 이웃 결과를 제공하는 것으로 확인되었으므로 BYOL이 선정되었습니다. 기본적인 자기지도 학습 방법.

실험 결과

아래 표 1은 HOLO-DEX가 DIME보다 1.8배 빠르게 성공적인 데모를 수집한다는 것을 보여줍니다. 정밀한 3D 모션이 필요한 3/6 작업의 경우 단일 이미지 원격 조작으로는 단일 데모를 수집하는 것조차 충분하지 않은 것으로 나타났습니다.

VR 헬멧을 착용해 로봇에게 잡는 법을 가르치면 로봇이 그 자리에서 학습합니다.

이 연구에서는 다양한 전략에 따른 다양한 모방 학습 전략의 성과를 조사했습니다. 아래 표 2에 나와 있습니다.

VR 헬멧을 착용해 로봇에게 잡는 법을 가르치면 로봇이 그 자리에서 학습합니다.

이 연구에서 제안된 전략은 비전 기반이고 객체 상태에 대한 명시적인 추정이 필요하지 않기 때문에 훈련에서 보이지 않는 객체와 호환됩니다. 이 연구에서는 아래 그림 5와 같이 다양한 시각적 모양과 기하학적 구조의 개체에 대해 평면 회전, 개체 뒤집기 및 캔 회전 작업을 수행하도록 훈련된 수동 조작 전략을 평가했습니다.

VR 헬멧을 착용해 로봇에게 잡는 법을 가르치면 로봇이 그 자리에서 학습합니다.