LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어
대형 모델을 지능의 축복으로 삼아 휴머노이드 로봇이 새로운 트렌드가 되었습니다.
SF영화 '내가 인간이 아닌 걸 알 수 있다' 속 로봇이 점점 가까워지는 것 같아요.
그러나 로봇, 특히 휴머노이드 로봇이 인간처럼 생각하고 행동하는 것은 여전히 어려운 공학적 문제입니다.
걷기에 대한 간단한 학습을 예로 들면 강화 학습을 사용하여 훈련하는 것은 다음과 같이 발전할 수 있습니다.
이론적으로는 문제가 없으며(보상 메커니즘을 따르면) 목표는 다음과 같습니다. 프로세스가 상대적으로 추상적이라는 점을 제외하면 대부분의 인간 행동 패턴과 동일하지 않을 수 있습니다.
로봇이 인간처럼 '자연스럽게' 행동하기 어려운 이유는 관찰 및 행동 공간의 고차원적 특성과 직립보행 형태의 본질적인 불안정성 때문입니다.
이런 점에서 르쿤이 참여한 작품은 데이터 기반의 새로운 솔루션을 제시했습니다.
논문 주소: https://arxiv.org/pdf/2405.18418
프로젝트 소개: https://nicklashansen.com/rlpuppeteer
효능 먼저 살펴보겠습니다:
오른쪽의 효과를 비교하면, 새로운 방법은 약간 "좀비"라는 의미를 가지고 있지만 적어도 기능 내에서는 추상화 수준이 많이 감소하여 인간에 더 가까운 행동을 훈련했습니다. 대부분의 인간의.
물론, 문제를 일으키기 위해 찾아온 일부 네티즌들은 "전 것이 더 재미있어 보였다"고 말했다.
이 연구에서 연구자들은 단순화된 가정, 보상 설계 또는 기술 기본 요소 없이 강화 학습을 기반으로 고도로 데이터 기반의 시각적 전신 인간형 제어 접근 방식을 탐색합니다.
저자는 상위 수준과 하위 수준의 두 에이전트를 훈련하기 위한 계층적 세계 모델을 제안했습니다. 상위 수준 에이전트는 하위 수준 에이전트가 실행할 시각적 관찰을 기반으로 명령을 생성합니다.
오픈 소스 코드: https://github.com/nicklashansen/puppeteer
Puppeteer라는 이 모델은 시뮬레이션된 56-DoF 휴머노이드 로봇을 활용하여 8가지 작업에서 높은 성능을 생성합니다. 성능 제어 전략 인간과 같은 자연스러운 움직임과 까다로운 지형을 횡단하는 능력을 종합합니다.
고차원 제어 계층 세계 모델
실제 세계에서 범용 에이전트를 학습하고 훈련시키는 것은 항상 AI 분야 연구 목표 중 하나였습니다.
휴머노이드 로봇은 전신 제어와 인식을 통합해 다양한 작업을 수행할 수 있어 다기능 플랫폼으로 두각을 나타내고 있다.
하지만 우리와 같은 발달한 동물을 모방하는 데 드는 비용은 여전히 매우 높습니다.
예를 들어, 아래 그림에서 휴머노이드 로봇은 구덩이에 발을 들여놓지 않기 위해 다가오는 바닥 틈의 위치와 길이를 정확하게 감지하는 동시에 몸 전체의 움직임을 세심하게 조정해야 합니다. 각 간격을 넘을 수 있는 충분한 추진력과 범위가 있습니다.
Puppeteer는 2022년 LeCun이 제안한 계층적 JEPA 세계 모델을 기반으로 한 데이터 기반 RL 방법입니다.
두 가지 에이전트로 구성됩니다. 하나는 인식 및 추적을 담당하고, 공동 수준 제어를 통해 참조 동작을 추적하고, 다른 하나는 저차원 참조 동작을 합성하여 다운스트림 작업을 수행하는 방법을 학습합니다. 이전 추적 지원.
Puppeteer는 모델 기반 RL 알고리즘인 TD-MPC2를 사용하여 서로 다른 두 단계에서 두 에이전트를 독립적으로 훈련합니다.
(ps: 이 TD-MPC2는 기사 초반에 비교용으로 사용한 애니메이션 사진입니다. 다소 추상적인 것 같지만 사실 올해 ICLR에 게재된 이전 SOTA이며, 첫 작품은 또한 이 기사의 첫 번째 작업입니다.)
첫 번째 단계에서는 추적을 위한 세계 모델이 먼저 사전 훈련되어 기존의 인간 모션 캡처 데이터를 참조로 사용하여 모션을 물리적으로 실행 가능한 동작으로 변환합니다. . 이 에이전트는 저장되어 모든 다운스트림 작업에서 재사용될 수 있습니다.
두 번째 단계에서는 시각적 관찰을 입력으로 받아들이고 지정된 다운스트림 작업에 따라 다른 에이전트가 제공한 참조 모션을 출력으로 통합하는 인형 세계 모델이 훈련됩니다.
이 프레임워크는 매우 간단해 보입니다. 두 세계 모델은 알고리즘적으로 동일하고 입력/출력만 다르며 다른 추가 기능 없이 RL을 사용하여 학습됩니다.
기존의 계층적 RL 설정과 달리 "Puppet"은 타겟의 임베딩이 아닌 엔드 이펙터 관절의 기하학적 위치를 출력합니다.
이를 통해 추적을 담당하는 에이전트가 작업 간 공유 및 일반화를 쉽게 만들어 전체 컴퓨팅 공간을 절약할 수 있습니다.
연구 방법
연구원들은 튜플(S, A, T, R, γ)을 기반으로 하는 마르코프 결정 프로세스(MDP)에 의해 제어되는 강화 학습 문제로 시각적 전신 인간형 제어를 모델링했습니다. , Δ)는 특징이며,
여기서 S는 상태, A는 동작, T는 환경 전환 함수, R은 스칼라 보상 함수, γ는 할인 요소, Δ는 종료 조건입니다.
위 그림에서 볼 수 있듯이 연구원들은 RL을 사용하여 인간 MoCap 데이터에 대한 추적 에이전트를 사전 훈련시켰습니다. 이 데이터는 고유 감각 정보와 추상적인 참조 동작 입력을 얻고 낮은 수준의 동작을 합성하는 데 사용되었습니다. 참조 동작을 추적합니다.
그런 다음 온라인 상호 작용을 통해 다운스트림 작업을 담당하는 고급 인형 에이전트가 훈련됩니다. 인형은 추적 에이전트가 실행할 명령을 입력하고 출력합니다.
TD-MPC2
TD-MPC2는 환경 상호 작용으로부터 잠재 디코더가 없는 세계 모델을 학습하고 학습된 모델을 계획에 사용합니다.
세계 모델의 모든 구성 요소는 원래 관찰을 디코딩하지 않고 공동 임베딩 예측, 보상 예측 및 시간적 차이 손실의 조합을 사용하여 엔드 투 엔드로 학습됩니다.
추론 중에 TD-MPC2는 MPPI(모델 예측 경로 적분)를 로컬 궤적 최적화를 위한 파생 없는(샘플링 기반) 최적화 도구로 사용하여 MPC(모델 예측 제어) 프레임워크를 따릅니다.
계획 속도를 높이기 위해 TD-MPC2는 샘플링 프로그램을 사전 시작하기 위해 모델 없는 전략도 미리 학습합니다.
두 에이전트는 모두 알고리즘이 동일하며 둘 다 다음 6가지 구성 요소로 구성됩니다.
실험
방법의 효율성을 평가하기 위해 연구원들은 새로운 방법을 제안했습니다. 작업 모음은 시뮬레이션된 56을 사용합니다. -시각적 전신 제어를 위한 자유도 휴머노이드 로봇. 비교에 사용된 방법에는 SAC, DreamerV3 및 TD-MPC2가 포함됩니다.
아래 그림에는 시각 조건 전신 움직임 작업 5개와 시각적 입력이 없는 작업 3개를 포함한 8개 작업이 나와 있습니다.
퀘스트는 무작위성이 높게 설계되었으며 복도 달리기, 장애물과 틈 뛰어넘기, 계단 오르기, 벽 돌아다니기 등이 포함됩니다.
5가지 시각적 제어 작업은 모두 선형 전진 속도에 비례하는 보상 기능을 사용하는 반면, 비시각적 작업은 모든 방향의 변위를 보상합니다.
위 그림은 학습 곡선을 나타냅니다. 결과는 SAC와 DreamerV3가 이러한 작업에서 의미 있는 성능을 달성할 수 없음을 보여줍니다.
TD-MPC2는 보상 측면에서 우리의 방법과 동등하게 수행되지만 부자연스러운 동작을 생성합니다(아래 이미지의 추상 동작 참조).
또한, Puppeteer가 생성하는 움직임이 실제로 더 "자연스럽다"는 것을 증명하기 위해 이 기사에서는 인간 선호도 실험도 수행했습니다. 46명의 참가자를 대상으로 한 테스트에서는 인간이 일반적으로 좋아하는 것으로 나타났습니다. 이 방법으로 생성된 움직임.
위 내용은 LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

C에서 Chrono 라이브러리를 사용하면 시간과 시간 간격을보다 정확하게 제어 할 수 있습니다. 이 도서관의 매력을 탐구합시다. C의 크로노 라이브러리는 표준 라이브러리의 일부로 시간과 시간 간격을 다루는 현대적인 방법을 제공합니다. 시간과 C 시간으로 고통받는 프로그래머에게는 Chrono가 의심 할 여지없이 혜택입니다. 코드의 가독성과 유지 가능성을 향상시킬뿐만 아니라 더 높은 정확도와 유연성을 제공합니다. 기본부터 시작합시다. Chrono 라이브러리에는 주로 다음 주요 구성 요소가 포함됩니다. std :: Chrono :: System_Clock : 현재 시간을 얻는 데 사용되는 시스템 클럭을 나타냅니다. STD :: 크론

C의 DMA는 직접 메모리 액세스 기술인 DirectMemoryAccess를 말하며 하드웨어 장치는 CPU 개입없이 데이터를 메모리로 직접 전송할 수 있습니다. 1) DMA 운영은 하드웨어 장치 및 드라이버에 크게 의존하며 구현 방법은 시스템마다 다릅니다. 2) 메모리에 직접 액세스하면 보안 위험이 발생할 수 있으며 코드의 정확성과 보안이 보장되어야합니다. 3) DMA는 성능을 향상시킬 수 있지만 부적절하게 사용하면 시스템 성능이 저하 될 수 있습니다. 실습과 학습을 통해 우리는 DMA 사용 기술을 습득하고 고속 데이터 전송 및 실시간 신호 처리와 같은 시나리오에서 효과를 극대화 할 수 있습니다.

C에서 높은 DPI 디스플레이를 처리 할 수 있습니다. 1) DPI 및 스케일링을 이해하고 운영 체제 API를 사용하여 DPI 정보를 얻고 그래픽 출력을 조정하십시오. 2) 크로스 플랫폼 호환성을 처리하고 SDL 또는 QT와 같은 크로스 플랫폼 그래픽 라이브러리를 사용하십시오. 3) 성능 최적화를 수행하고 캐시, 하드웨어 가속 및 세부 사항 수준의 동적 조정을 통해 성능 향상; 4) 흐릿한 텍스트 및 인터페이스 요소와 같은 일반적인 문제를 해결하고 DPI 스케일링을 올바르게 적용하여 해결합니다.

C는 실시간 운영 체제 (RTO) 프로그래밍에서 잘 수행하여 효율적인 실행 효율성과 정확한 시간 관리를 제공합니다. 1) c 하드웨어 리소스의 직접 작동 및 효율적인 메모리 관리를 통해 RTO의 요구를 충족시킵니다. 2) 객체 지향 기능을 사용하여 C는 유연한 작업 스케줄링 시스템을 설계 할 수 있습니다. 3) C는 효율적인 인터럽트 처리를 지원하지만 실시간을 보장하려면 동적 메모리 할당 및 예외 처리를 피해야합니다. 4) 템플릿 프로그래밍 및 인라인 함수는 성능 최적화에 도움이됩니다. 5) 실제 응용 분야에서 C는 효율적인 로깅 시스템을 구현하는 데 사용될 수 있습니다.

MySQL에서는 altertabletable_nameaddcolumnnew_columnvarchar (255) 이후에 필드를 추가하여 altertabletable_namedropcolumncolumn_to_drop을 사용하여 필드를 삭제합니다. 필드를 추가 할 때는 쿼리 성능 및 데이터 구조를 최적화하기위한 위치를 지정해야합니다. 필드를 삭제하기 전에 작업이 돌이킬 수 없는지 확인해야합니다. 온라인 DDL, 백업 데이터, 테스트 환경 및 저하 기간을 사용하여 테이블 구조 수정은 성능 최적화 및 모범 사례입니다.

C에서 스레드 성능을 측정하면 표준 라이브러리에서 타이밍 도구, 성능 분석 도구 및 사용자 정의 타이머를 사용할 수 있습니다. 1. 라이브러리를 사용하여 실행 시간을 측정하십시오. 2. 성능 분석을 위해 GPROF를 사용하십시오. 단계에는 컴파일 중에 -pg 옵션 추가, GMON.out 파일을 생성하기 위해 프로그램을 실행하며 성능 보고서를 생성하는 것이 포함됩니다. 3. Valgrind의 Callgrind 모듈을 사용하여보다 자세한 분석을 수행하십시오. 단계에는 Callgrind.out 파일을 생성하고 Kcachegrind를 사용하여 결과를보기위한 프로그램 실행이 포함됩니다. 4. 사용자 정의 타이머는 특정 코드 세그먼트의 실행 시간을 유연하게 측정 할 수 있습니다. 이 방법은 스레드 성능을 완전히 이해하고 코드를 최적화하는 데 도움이됩니다.

교환의 내장 양자화 도구에는 다음이 포함됩니다. 1. Binance : Binance 선물 정량 모듈, 낮은 취급 수수료 및 AI 지원 거래를 지원합니다. 2. OKX (OUYI) : 다중 계정 관리 및 지능형 주문 라우팅을 지원하고 기관 수준의 위험 관리를 제공합니다. 독립적 인 정량적 전략 플랫폼에는 다음이 포함됩니다. 4. Quadency : 맞춤형 위험 임계 값을 지원하는 전문 수준 알고리즘 전략 라이브러리. 5. Pionex : 내장 16 사전 설정 전략, 낮은 거래 수수료. 수직 도메인 도구에는 다음이 포함됩니다. 6. Cryptohopper : 클라우드 기반 정량 플랫폼, 150 개의 기술 지표를 지원합니다. 7. BITSGAP :

마우스 스크롤링 이벤트 침투의 효과를 달성하는 방법은 무엇입니까? 웹을 탐색하면 종종 특별한 상호 작용 디자인이 발생합니다. 예를 들어, DeepSeek 공식 웹 사이트에서 � ...
