딥러닝 기술이 변형 가능한 물체를 다루는 로봇의 문제를 해결하는 방법

王林
풀어 주다: 2023-04-12 09:25:05
앞으로
798명이 탐색했습니다.

번역가 | Li Rui

리뷰어 | Sun Shujuan

인간의 경우 변형 가능한 물체를 처리하는 것은 단단한 물체를 처리하는 것보다 훨씬 어렵지 않습니다. 사람들은 자연스럽게 모양을 만들고, 접고, 다양한 방식으로 조작하는 방법을 배우면서도 여전히 인식할 수 있습니다.

딥러닝 기술이 변형 가능한 물체를 다루는 로봇의 문제를 해결하는 방법

그러나 로봇 공학 및 인공 지능 시스템의 경우 변형 가능한 물체를 조작하는 것은 큰 도전입니다. 예를 들어, 로봇은 반죽을 피자 크러스트로 만들기 위해 일련의 단계를 거쳐야 합니다. 반죽의 모양이 변하면 이를 기록하고 추적해야 하며 동시에 작업의 각 단계에 적합한 도구를 선택해야 합니다. 이는 더 예측 가능한 상태로 단단한 물체를 처리할 때 더 안정적인 현재 인공 지능 시스템의 어려운 작업입니다.

이제 MIT, Carnegie Mellon University 및 UC San Diego의 연구원들이 개발한 새로운 딥 러닝 기술은 변형 가능한 물체를 다룰 때 로봇 시스템을 더욱 안정적으로 만들 것을 약속합니다. DiffSkill이라고 불리는 이 기술은 심층 신경망을 사용하여 간단한 기술을 학습하고 계획 모듈을 사용하여 이러한 기술을 결합하여 여러 단계와 도구가 필요한 작업을 해결합니다.

강화 학습과 딥 러닝을 통한 변형 가능한 객체 처리

인공 지능 시스템이 객체를 처리하려면 객체의 상태를 감지 및 정의하고 미래에 어떤 모습일지 예측할 수 있어야 합니다. 단단한 물체의 경우 이는 대체로 해결된 문제입니다. 좋은 훈련 예제 세트를 통해 심층 신경망은 다양한 각도에서 단단한 물체를 감지할 수 있습니다. 변형 가능한 객체가 관련되면 다중 상태 공간이 더욱 복잡해집니다.

Carnegie Mellon University의 박사 과정 학생이자 DiffSkill 논문의 주요 저자인 Lin Xingyu는 다음과 같이 말했습니다. "강체의 경우 6개의 숫자를 사용하여 상태를 설명할 수 있습니다. 세 개의 숫자는 XYZ 좌표를 나타내고 나머지 세 개는

그러나 반죽이나 천과 같은 변형 가능한 물체는 무한한 자유도를 가지므로 상태를 정확하게 설명하기가 어렵고, 변형 방식도 단단한 물체에 비해 사용하기가 더 어렵습니다. ”

미분 가능 물리 시뮬레이터의 개발을 통해 기울기 기반 방법을 적용하여 변형 가능한 개체 조작 작업을 해결할 수 있습니다. 이는 순수한 시행착오 상호작용을 통해 환경과 객체의 역학을 학습하려는 기존 강화 학습 방법과 다릅니다.

DiffSkill은 미분 가능 물리 시뮬레이터인 PlasticineLab에서 영감을 받아 2021 ICLR 컨퍼런스에서 발표되었습니다. PlasticineLab은 미분 가능한 시뮬레이터가 단기 작업에 도움이 될 수 있음을 보여줍니다.

딥러닝 기술이 변형 가능한 물체를 다루는 로봇의 문제를 해결하는 방법

PlasticineLab은 미분 물리학을 기반으로 한 변형 개체 시뮬레이터입니다. 그라디언트 기반 모델을 훈련하는 데는 효과적이지만

미분 가능 시뮬레이터는 여전히 여러 단계가 필요하고 다양한 도구를 사용하는 장기적인 문제를 처리합니다. 미분 가능한 시뮬레이터를 기반으로 하는 인공 지능 시스템에는 전체 시뮬레이션 상태 및 환경의 관련 물리적 매개변수에 대한 지식도 필요합니다. 이는 에이전트가 일반적으로 시각적 및 깊이 감지 데이터(RGB-D)를 통해 세계를 인식하는 실제 애플리케이션의 경우 특히 제한적입니다.

Lin Xingyu는 "우리는 작업을 완료하는 데 필요한 단계를 기술로 추출하고 기술에 대한 추상적인 개념을 학습하여 이를 연결하여 더 복잡한 작업을 해결할 수 있는지 묻기 시작했습니다."라고 말했습니다.

DiffSkill은 인공지능 에이전트는 차별화 가능한 물리적 모델을 사용하여 기술 추상화를 학습하고 이를 결합하여 복잡한 운영 작업을 완료합니다.

그의 과거 작업은 강화 학습을 사용하여 천, 밧줄, 액체 등 변형 가능한 물체를 조작하는 데 중점을 두었습니다. DiffSkill의 경우, 그는 제시된 어려움 때문에 반죽 조작을 선택했습니다.

"반죽 조작은 로봇 그리퍼로는 쉽게 할 수 없고, 여러 도구를 순차적으로 사용해야 하기 때문에 특히 흥미롭습니다. 인간은 잘하지만 로봇은 덜 일반적입니다."

훈련 후 DiffSkill 일련의 반죽 조작 작업은 RGB-D 입력만 사용하여 성공적으로 완료할 수 있습니다.

신경망을 사용하여 추상 기술 학습

딥러닝 기술이 변형 가능한 물체를 다루는 로봇의 문제를 해결하는 방법

DiffSkill은 신경망을 훈련하여 미분 가능 물리 시뮬레이터에서 얻은 초기 상태와 매개변수로부터 목표 상태의 타당성을 예측합니다.

DiffSkill은 두 가지 주요 구성 요소로 구성됩니다. 하나는 신경망을 사용하는 것입니다. 개별 기술을 학습하기 위한 "신경 기술 추상자"와 장기적인 작업을 해결하기 위한 "플래너"입니다.

DiffSkill은 미분 가능 물리 시뮬레이터를 사용하여 기술 추상자를 위한 훈련 예제를 생성합니다. 이 예에서는 밀방망이를 사용하여 반죽을 펴거나 주걱을 사용하여 반죽을 옮기는 등 단기 목표를 달성하기 위해 단일 도구를 사용하는 방법을 보여줍니다.

이러한 예는 숙련된 추상자에게 RGB-D 비디오 형식으로 제공됩니다. 이미지 관찰이 주어지면 기술 추상자는 원하는 목표가 실현 가능한지 예측해야 합니다. 모델은 예측을 물리 시뮬레이터의 실제 결과와 비교하여 매개변수를 학습하고 조정합니다.

반죽과 같이 변형 가능한 물체를 로봇으로 조작하려면 다양한 도구 사용에 대한 장기적인 추론이 필요합니다. DiffSkill 접근 방식은 미분 가능한 시뮬레이터를 활용하여 이러한 까다로운 작업에 대한 기술을 학습하고 결합합니다.

한편, DiffSkill은 VAE(변형 자동 인코더)를 훈련하여 물리 시뮬레이터에서 생성된 사례의 잠재 공간 표현을 학습합니다. VAE(변형 자동 인코더)는 중요한 기능을 유지하고 작업과 관련 없는 정보를 삭제합니다. 고차원 이미지 공간을 잠재 공간으로 변환함으로써 VAE(변형 자동 인코더)는 DiffSkill이 더 긴 시야에 대해 계획하고 감각 데이터 관찰을 통해 결과를 예측할 수 있도록 하는 데 중요한 역할을 합니다.

VAE(변형 자동 인코더)를 훈련할 때 중요한 과제 중 하나는 올바른 기능을 학습하고 실제 세계에 일반화하는 것입니다. 실제 세계에서는 시각적 데이터의 구성이 물리적 시뮬레이터에서 생성된 데이터와 다릅니다. 예를 들어 밀대나 도마의 색깔은 작업과 관련이 없지만 밀방망이의 위치와 각도, 반죽의 위치는 관련이 있습니다.

현재 연구원들은 배경, 조명 등 훈련 환경과 관련 없는 속성을 무작위로 선택하고 도구의 위치 및 방향과 같은 중요한 기능을 보존하는 "도메인 무작위화"라는 기술을 사용하고 있습니다. 이를 통해 실제 세계에 적용할 때 VAE(Variational Autoencoders) 학습이 더욱 안정적이 됩니다.

Lin Xingyu는 "시뮬레이션과 실제 세계 사이의 가능한 모든 차이(sim2real gap이라고 함)를 다루어야 하기 때문에 이 작업을 수행하는 것이 쉽지 않습니다. 더 좋은 방법은 장면을 표현하기 위해 3D 포인트 클라우드를 사용하는 것입니다. 실제로 우리는 포인트 클라우드를 입력으로 사용하여 후속 프로젝트를 개발하고 있습니다.”

변형 가능한 객체를 계획하는 장기 작업

딥러닝 기술이 변형 가능한 물체를 다루는 로봇의 문제를 해결하는 방법

DiffSkill은 계획 모듈을 사용하여 무엇이 가능한지 평가합니다. 다양한 기술 조합 및 순서

기술 추상자가 훈련되면 DiffSkill은 플래너 모듈을 사용하여 장기 작업을 해결합니다. 계획자는 초기 상태에서 목적지까지 이동하는 데 필요한 기술의 수와 순서를 결정해야 합니다.

이 플래너는 가능한 기술 조합과 이들이 생성하는 중간 결과를 반복합니다. 여기서는 Variational Autoencoder가 유용합니다. DiffSkill은 완전한 이미지 결과를 예측하는 대신 VAE를 사용하여 최종 목표를 향한 중간 단계에 대한 잠재 공간 결과를 예측합니다.

추상화 기술과 잠재 공간 표현의 결합으로 초기 상태에서 목표까지의 궤적을 더욱 계산적으로 효율적으로 그릴 수 있습니다. 실제로 연구자들은 검색 기능을 세분화할 필요 없이 모든 조합에 대해 철저한 검색을 수행했습니다.

Lin Xingyu는 "우리는 기술을 계획하고 있기 때문에 계산 작업이 너무 많지 않고 시간도 길지 않을 것입니다. 이러한 철저한 검색을 통해 기획자가 스케치를 디자인할 필요가 없어 디자이너가 디자인을 하지 않을 수도 있습니다. 우리가 시도한 제한된 작업에서는 이를 관찰하지 못했지만 보다 일반적인 방법입니다. "

DiffSkill 논문에서는 "단일 NVIDIA 2080Ti GPU에서 각각의 기술 세트 최적화는 모두 약 10초 내에 효율적으로 완료될 수 있습니다.”

DiffSkill을 사용하여 피자 반죽 준비

딥러닝 기술이 변형 가능한 물체를 다루는 로봇의 문제를 해결하는 방법

연구원들은 DiffSkill의 성능을 변형 가능한 개체에 적용된 여러 기준과 비교하여 테스트했습니다. 2개의 모델 없는 강화 학습 알고리즘과 물리 시뮬레이터만 사용하는 궤적 최적화 기능을 포함합니다

모델은 여러 단계와 도구가 필요한 여러 작업에서 테스트되었습니다. 예를 들어 작업 중 하나에서 AI 에이전트는 주걱으로 반죽을 들어 올려 도마 위에 놓은 다음 밀방망이로 펴야 했습니다.

연구 결과에 따르면 DiffSkill은 감각 정보만 사용하여 장기간의 다중 도구 작업을 해결하는 데 있어 다른 기술보다 훨씬 뛰어납니다. 실험에 따르면 DiffSkill의 플래너는 잘 훈련된 후 초기 상태와 목표 상태 사이의 좋은 중간 상태를 찾고 작업을 해결하는 데 적합한 기술 순서를 찾을 수 있습니다.

딥러닝 기술이 변형 가능한 물체를 다루는 로봇의 문제를 해결하는 방법

DiffSkill의 플래너는 중간 단계를 매우 정확하게 예측합니다

Lin Xingyu는 다음과 같이 말했습니다. “핵심 포인트 중 하나는 일련의 기술이 우리가 장기적으로 추론할 수 있게 해주는 매우 중요한 시간적 추상화를 제공할 수 있다는 것입니다. 이는 인간이 다양한 작업을 처리하는 방식, 즉 서로 다른 방식으로 생각하는 방식과도 유사합니다. 다음에 무엇을 해야할지 생각하기보다는 시간적 추상화.”

그러나 DiffSkill의 용량도 제한되어 있습니다. 예를 들어, DiffSkill의 성능은 3단계 계획이 필요한 작업 중 하나를 수행할 때 크게 떨어졌습니다(여전히 다른 기술보다 성능이 뛰어났지만). Lin Xingyu는 또한 어떤 경우에는 타당성 예측자가 잘못된 긍정을 생성할 수 있다고 언급했습니다. 연구자들은 더 나은 잠재 공간을 학습하는 것이 이 문제를 해결하는 데 도움이 될 수 있다고 믿습니다.

연구원들은 또한 더 긴 작업에 사용할 수 있는 보다 효율적인 계획 알고리즘을 포함하여 DiffSkill을 개선하기 위한 다른 방향을 모색하고 있습니다.

Lin Xingyu는 언젠가 실제 피자 만들기 로봇에서 DiffSkill을 사용할 수 있기를 바란다고 말했습니다. 그는 "아직은 그것과는 거리가 멀다. 제어, 심투리얼 전송, 보안 측면에서 다양한 난관이 생겼다. 하지만 이제 좀 더 장기적인 업무를 수행하는 데 자신감이 생겼다"고 말했다.

원제: 이 딥 러닝 기술은 로봇 공학의 어려운 과제 중 하나를 해결합니다, 작성자: Ben Dickson


위 내용은 딥러닝 기술이 변형 가능한 물체를 다루는 로봇의 문제를 해결하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!