대형 모델을 지능의 축복으로 삼아 휴머노이드 로봇이 새로운 트렌드가 되었습니다.
SF영화 '내가 인간이 아닌 걸 알 수 있다' 속 로봇이 점점 가까워지는 것 같아요.
그러나 로봇, 특히 휴머노이드 로봇이 인간처럼 생각하고 행동하는 것은 여전히 어려운 공학적 문제입니다.
걷기에 대한 간단한 학습을 예로 들면 강화 학습을 사용하여 훈련하는 것은 다음과 같이 발전할 수 있습니다.
이론적으로는 문제가 없으며(보상 메커니즘을 따르면) 목표는 다음과 같습니다. 프로세스가 상대적으로 추상적이라는 점을 제외하면 대부분의 인간 행동 패턴과 동일하지 않을 수 있습니다.
로봇이 인간처럼 '자연스럽게' 행동하기 어려운 이유는 관찰 및 행동 공간의 고차원적 특성과 직립보행 형태의 본질적인 불안정성 때문입니다.
이런 점에서 르쿤이 참여한 작품은 데이터 기반의 새로운 솔루션을 제시했습니다.
논문 주소: https://arxiv.org/pdf/2405.18418
프로젝트 소개: https://nicklashansen.com/rlpuppeteer
효능 먼저 살펴보겠습니다:
오른쪽의 효과를 비교하면, 새로운 방법은 약간 "좀비"라는 의미를 가지고 있지만 적어도 기능 내에서는 추상화 수준이 많이 감소하여 인간에 더 가까운 행동을 훈련했습니다. 대부분의 인간의.
물론, 문제를 일으키기 위해 찾아온 일부 네티즌들은 "전 것이 더 재미있어 보였다"고 말했다.
이 연구에서 연구자들은 단순화된 가정, 보상 설계 또는 기술 기본 요소 없이 강화 학습을 기반으로 고도로 데이터 기반의 시각적 전신 인간형 제어 접근 방식을 탐색합니다.
저자는 상위 수준과 하위 수준의 두 에이전트를 훈련하기 위한 계층적 세계 모델을 제안했습니다. 상위 수준 에이전트는 하위 수준 에이전트가 실행할 시각적 관찰을 기반으로 명령을 생성합니다.
오픈 소스 코드: https://github.com/nicklashansen/puppeteer
Puppeteer라는 이 모델은 시뮬레이션된 56-DoF 휴머노이드 로봇을 활용하여 8가지 작업에서 높은 성능을 생성합니다. 성능 제어 전략 인간과 같은 자연스러운 움직임과 까다로운 지형을 횡단하는 능력을 종합합니다.
실제 세계에서 범용 에이전트를 학습하고 훈련시키는 것은 항상 AI 분야 연구 목표 중 하나였습니다.
휴머노이드 로봇은 전신 제어와 인식을 통합해 다양한 작업을 수행할 수 있어 다기능 플랫폼으로 두각을 나타내고 있다.
하지만 우리와 같은 발달한 동물을 모방하는 데 드는 비용은 여전히 매우 높습니다.
예를 들어, 아래 그림에서 휴머노이드 로봇은 구덩이에 발을 들여놓지 않기 위해 다가오는 바닥 틈의 위치와 길이를 정확하게 감지하는 동시에 몸 전체의 움직임을 세심하게 조정해야 합니다. 각 간격을 넘을 수 있는 충분한 추진력과 범위가 있습니다.
Puppeteer는 2022년 LeCun이 제안한 계층적 JEPA 세계 모델을 기반으로 한 데이터 기반 RL 방법입니다.
두 가지 에이전트로 구성됩니다. 하나는 인식 및 추적을 담당하고, 공동 수준 제어를 통해 참조 동작을 추적하고, 다른 하나는 저차원 참조 동작을 합성하여 다운스트림 작업을 수행하는 방법을 학습합니다. 이전 추적 지원.
Puppeteer는 모델 기반 RL 알고리즘인 TD-MPC2를 사용하여 서로 다른 두 단계에서 두 에이전트를 독립적으로 훈련합니다.
(ps: 이 TD-MPC2는 기사 초반에 비교용으로 사용한 애니메이션 사진입니다. 다소 추상적인 것 같지만 사실 올해 ICLR에 게재된 이전 SOTA이며, 첫 작품은 또한 이 기사의 첫 번째 작업입니다.)
첫 번째 단계에서는 추적을 위한 세계 모델이 먼저 사전 훈련되어 기존의 인간 모션 캡처 데이터를 참조로 사용하여 모션을 물리적으로 실행 가능한 동작으로 변환합니다. . 이 에이전트는 저장되어 모든 다운스트림 작업에서 재사용될 수 있습니다.
두 번째 단계에서는 시각적 관찰을 입력으로 받아들이고 지정된 다운스트림 작업에 따라 다른 에이전트가 제공한 참조 모션을 출력으로 통합하는 인형 세계 모델이 훈련됩니다.
이 프레임워크는 매우 간단해 보입니다. 두 세계 모델은 알고리즘적으로 동일하고 입력/출력만 다르며 다른 추가 기능 없이 RL을 사용하여 학습됩니다.
기존의 계층적 RL 설정과 달리 "Puppet"은 타겟의 임베딩이 아닌 엔드 이펙터 관절의 기하학적 위치를 출력합니다.
이를 통해 추적을 담당하는 에이전트가 작업 간 공유 및 일반화를 쉽게 만들어 전체 컴퓨팅 공간을 절약할 수 있습니다.
연구원들은 튜플(S, A, T, R, γ)을 기반으로 하는 마르코프 결정 프로세스(MDP)에 의해 제어되는 강화 학습 문제로 시각적 전신 인간형 제어를 모델링했습니다. , Δ)는 특징이며,
여기서 S는 상태, A는 동작, T는 환경 전환 함수, R은 스칼라 보상 함수, γ는 할인 요소, Δ는 종료 조건입니다.
위 그림에서 볼 수 있듯이 연구원들은 RL을 사용하여 인간 MoCap 데이터에 대한 추적 에이전트를 사전 훈련시켰습니다. 이 데이터는 고유 감각 정보와 추상적인 참조 동작 입력을 얻고 낮은 수준의 동작을 합성하는 데 사용되었습니다. 참조 동작을 추적합니다.
그런 다음 온라인 상호 작용을 통해 다운스트림 작업을 담당하는 고급 인형 에이전트가 훈련됩니다. 인형은 추적 에이전트가 실행할 명령을 입력하고 출력합니다.
TD-MPC2
TD-MPC2는 환경 상호 작용으로부터 잠재 디코더가 없는 세계 모델을 학습하고 학습된 모델을 계획에 사용합니다.
세계 모델의 모든 구성 요소는 원래 관찰을 디코딩하지 않고 공동 임베딩 예측, 보상 예측 및 시간적 차이 손실의 조합을 사용하여 엔드 투 엔드로 학습됩니다.
추론 중에 TD-MPC2는 MPPI(모델 예측 경로 적분)를 로컬 궤적 최적화를 위한 파생 없는(샘플링 기반) 최적화 도구로 사용하여 MPC(모델 예측 제어) 프레임워크를 따릅니다.
계획 속도를 높이기 위해 TD-MPC2는 샘플링 프로그램을 사전 시작하기 위해 모델 없는 전략도 미리 학습합니다.
두 에이전트는 모두 알고리즘이 동일하며 둘 다 다음 6가지 구성 요소로 구성됩니다.
방법의 효율성을 평가하기 위해 연구원들은 새로운 방법을 제안했습니다. 작업 모음은 시뮬레이션된 56을 사용합니다. -시각적 전신 제어를 위한 자유도 휴머노이드 로봇. 비교에 사용된 방법에는 SAC, DreamerV3 및 TD-MPC2가 포함됩니다.
아래 그림에는 시각 조건 전신 움직임 작업 5개와 시각적 입력이 없는 작업 3개를 포함한 8개 작업이 나와 있습니다.
퀘스트는 무작위성이 높게 설계되었으며 복도 달리기, 장애물과 틈 뛰어넘기, 계단 오르기, 벽 돌아다니기 등이 포함됩니다.
5가지 시각적 제어 작업은 모두 선형 전진 속도에 비례하는 보상 기능을 사용하는 반면, 비시각적 작업은 모든 방향의 변위를 보상합니다.
위 그림은 학습 곡선을 나타냅니다. 결과는 SAC와 DreamerV3가 이러한 작업에서 의미 있는 성능을 달성할 수 없음을 보여줍니다.
TD-MPC2는 보상 측면에서 우리의 방법과 동등하게 수행되지만 부자연스러운 동작을 생성합니다(아래 이미지의 추상 동작 참조).
또한, Puppeteer가 생성하는 움직임이 실제로 더 "자연스럽다"는 것을 증명하기 위해 이 기사에서는 인간 선호도 실험도 수행했습니다. 46명의 참가자를 대상으로 한 테스트에서는 인간이 일반적으로 좋아하는 것으로 나타났습니다. 이 방법으로 생성된 움직임.
위 내용은 LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!