메타와 뉴욕대학교가 개발한 OK-Robot: 차를 따르는 로봇이 등장
가족 환경에서는 가족 구성원이 TV 캐비닛에 있는 리모콘을 가져오라는 요청을 받는 경우가 많습니다. 때로는 애완견도 면역이 되지 않는 경우가 있습니다. 하지만 사람은 다른 사람을 통제할 수 없는 상황에 처할 때가 항상 있습니다. 그리고 애완견은 지시사항을 이해하지 못할 수도 있습니다. 로봇에 대한 인간의 기대는 이러한 잡일을 완수하는 것입니다. 이것이 로봇에 대한 우리의 궁극적인 꿈입니다.
최근 뉴욕대학교와 Meta는 자율적으로 행동할 수 있는 로봇을 개발하기 위해 협력했습니다. "콘플레이크를 침대 옆 탁자 위에 올려주세요."라고 말하면 독립적으로 콘플레이크를 검색하고 최적의 경로와 해당 조치를 계획하여 작업을 성공적으로 완료합니다. 또한, 로봇은 물품 정리, 쓰레기 처리 기능도 갖추고 있어 사용자에게 편의를 제공합니다.
이 로봇은 OK-Robot이라고 불리며 뉴욕 대학교와 Meta의 연구원들이 만들었습니다. 그들은 시각적 언어 모델, 탐색 및 파악의 기본 모듈을 개방형 지식 기반 프레임워크에 통합하여 로봇의 효율적인 선택 및 배치 작업을 위한 솔루션을 제공했습니다. 이는 우리가 나이가 들면 차와 물을 제공하는 데 도움을 주는 로봇을 구입하는 것이 현실이 될 수 있다는 것을 의미합니다.
OK-Robot의 "개방형 지식" 포지셔닝은 대규모 공개 데이터 세트에 대해 훈련된 학습 모델을 의미합니다. OK-Robot이 새로운 가정 환경에 배치되면 iPhone에서 스캔 결과를 가져옵니다. 이러한 스캔을 기반으로 LangSam 및 CLIP을 사용하여 조밀한 시각적 언어 표현을 계산하고 이를 의미 메모리에 저장합니다. 그런 다음, 선택할 객체에 대한 언어적 쿼리가 주어지면 쿼리의 언어적 표현이 의미 기억과 일치됩니다. 다음으로 OK-Robot은 탐색 및 선택 모듈을 점진적으로 적용하고 필요한 개체로 이동하여 집어들게 됩니다. 객체를 폐기하는 데에도 유사한 프로세스를 사용할 수 있습니다.
OK-Robot을 연구하기 위해 연구진은 10가지 실제 가정 환경에서 테스트했습니다. 실험을 통해 그들은 눈에 보이지 않는 자연스러운 가정 환경에서 시스템의 제로 샘플 배포 성공률이 평균 58.5%라는 것을 발견했습니다. 그러나 이 성공률은 환경의 "자연성"에 크게 좌우됩니다. 또한 쿼리를 개선하고, 공간을 정리하고, 명백히 적대적인 개체(예: 너무 크거나 너무 반투명하거나 너무 미끄러운 개체)를 제외하면 이 성공률이 약 82.4%까지 증가할 수 있음을 발견했습니다.
뉴욕의 10개 가정 환경에서 OK-Robot은 171개의 픽업 작업을 시도했습니다.
요약하자면 실험을 통해 다음과 같은 결론에 도달했습니다.
- 사전 훈련된 시각적 언어 모델은 개방형 어휘 탐색에 매우 효과적입니다. 현재 개방형 어휘 시각적 언어 모델(예: CLIP 또는 OWL-ViT) – — 현실 세계에서 임의의 객체를 식별하고 제로샷 방식으로 탐색하고 찾는 데 탁월합니다.
- 사전 훈련된 파악 모델을 모바일 조작에 직접 적용할 수 있습니다. VLM과 유사하게 대량의 데이터에 대해 사전 훈련된 전문 로봇 모델을 집에서 열린 어휘 파악에 직접 적용할 수 있습니다. 이러한 로봇 모델에는 추가 교육이나 미세 조정이 필요하지 않습니다.
- 구성요소를 결합하는 방법이 중요합니다. 연구원들은 모델이 사전 훈련되면 별도의 훈련 없이 간단한 상태 머신 모델을 사용하여 결합할 수 있다는 사실을 발견했습니다. 그들은 또한 휴리스틱을 사용하여 로봇의 물리적 한계를 상쇄하면 실제 세계에서 성공률이 더 높아진다는 사실도 발견했습니다.
- 아직 몇 가지 과제가 있습니다. 모든 가정에서 제로 샘플 작업이라는 엄청난 과제를 고려하여 OK-Robot은 이전 작업을 기반으로 개선했습니다. 실패 모드를 분석하여 시각적 언어 모델에서 로봇이 중요하다는 것을 발견했습니다. 모델 및 로봇 형태의 개선이 이루어질 수 있으며, 이는 개방형 지식 조작 에이전트의 성능을 직접적으로 향상시킬 수 있습니다.
공개 지식 로봇 분야의 다른 연구자들의 연구를 격려하고 지원하기 위해 저자는 OK-Robot의 코드와 모듈을 공유하겠다고 밝혔습니다. 자세한 내용은 https://ok-robot.github.io에서 확인할 수 있습니다.
- 논문 제목: OK-Robot: 로봇공학을 위한 개방형 지식 모델 통합에서 실제로 중요한 것은 무엇입니까
- 논문 링크: https://arxiv.org/pdf/2401.12202.pdf
기술 구성 요소 및 방법
이 연구는 주로 이 문제를 해결합니다. B에서 A를 선택하여 C에 배치합니다. 여기서 A는 개체이고 B와 C는 실제 환경 어딘가에 있습니다. 이를 달성하기 위해 제안된 시스템에는 개방형 어휘 개체 탐색 모듈, 개방형 어휘 RGB-D 잡기 모듈, 개체를 놓거나 놓기 위한 휴리스틱 모듈(휴리스틱 삭제)이 포함되어야 합니다.
Open Vocabulary Object Navigation
방을 스캔하는 것부터 시작하세요. 개방형 어휘 객체 탐색은 CLIP-Fields 접근 방식을 따르며 iPhone을 사용하여 가정 환경을 수동으로 스캔하는 사전 매핑 단계를 가정합니다. 이 수동 스캔은 iPhone의 Record3D 앱을 사용하여 홈 비디오를 캡처하여 위치가 포함된 일련의 RGB-D 이미지를 생성합니다.
각 방을 스캔하는 데 1분도 채 걸리지 않으며 정보가 수집되면 카메라 포즈 및 위치와 함께 RGB-D 이미지가 지도 작성을 위해 프로젝트 라이브러리로 내보내집니다. 녹음에는 지표면은 물론 주변 환경의 물체와 용기도 캡처되어야 합니다.
다음 단계는 객체 감지입니다. 스캔된 각 프레임에서 개방형 어휘 개체 감지기가 스캔된 콘텐츠를 처리합니다. 본 논문에서는 OWL-ViT 객체 탐지기를 선택했는데, 그 이유는 이 방법이 예비 쿼리에서 더 나은 성능을 발휘하기 때문입니다. 각 프레임에 감지기를 적용하고 각 객체 경계 상자, CLIP 임베딩 및 감지기 신뢰도를 추출하여 탐색 모듈의 객체 저장 모듈에 전달합니다.
그런 다음 객체 중심 의미 저장을 수행합니다. 이 문서에서는 이 단계를 수행하기 위해 VoxelMap을 사용합니다. 특히 카메라에서 수집한 깊이 이미지와 포즈를 사용하여 객체 마스크를 실제 좌표로 역투영합니다. 이러한 방식으로 각 점이 연관되어 있는 점 구름을 제공할 수 있습니다. CLIP의 의미 벡터.
다음에는 쿼리 메모리 모듈이 있습니다. 언어 쿼리가 주어지면 이 기사에서는 CLIP 언어 인코더를 사용하여 이를 의미 벡터로 변환합니다. 각 복셀은 집 안의 실제 위치와 연관되어 있으므로 그림 2의 (a)와 유사하게 쿼리 객체가 발견될 가능성이 가장 높은 위치를 찾을 수 있다.
이 글에서는 필요한 경우 "A on B"를 "A close B"로 구현합니다. 이를 위해 쿼리 A는 처음 10개 점을 선택하고 쿼리 B는 처음 50개 점을 선택합니다. 그런 다음 10×50 쌍별 유클리드 거리를 계산하고 가장 짧은 (A, B) 거리와 연관된 점 A를 선택합니다.
위 과정을 완료한 후 다음 단계는 현실 세계의 객체로 이동하는 것입니다. 현실 세계의 3D 위치 좌표를 얻으면 이를 로봇의 탐색 대상으로 사용하여 초기화할 수 있습니다. 운영 단계. 탐색 모듈은 로봇이 대상 개체를 조작할 수 있도록 로봇을 팔이 닿는 곳에 배치해야 합니다.
로봇이 현실 세계 물체를 파악
개방형 어휘 탐색과 달리 파악 작업을 완료하려면 알고리즘이 현실 세계의 임의 개체와 물리적으로 상호 작용해야 하므로 이 부분이 더욱 중요합니다. 어려움. 따라서 이 논문에서는 사전 훈련된 파악 모델을 사용하여 실제 파악 제스처를 생성하고 언어 조건 필터링을 위해 VLM을 사용하기로 선택했습니다.
이 기사에 사용된 파악 생성 모듈은 단일 RGB 이미지와 포인트 클라우드가 주어진 장면에서 평행한 턱 그리퍼를 사용하여 충돌 없는 파악을 생성하는 AnyGrasp입니다.
AnyGrasp는 파악 지점, 너비, 높이, 깊이 및 파악 점수를 포함하여 장면(그림 3, 열 2)에서 가능한 파악을 제공합니다. 이는 각 파악에 대한 교정되지 않은 모델 신뢰도를 나타냅니다.
언어 쿼리를 사용한 파악 필터링: AnyGrasp에서 얻은 파악 제안의 경우 이 기사에서는 LangSam을 사용하여 파악을 필터링합니다. 이 문서에서는 제안된 모든 그립 지점을 이미지에 투영하고 객체 마스크 내에 속하는 그립 지점을 찾습니다(그림 3, 열 4).
그립 실행. 최적의 파악이 결정되면(그림 3, 열 5) 간단한 사전 파악 방법을 사용하여 대상 물체를 파악할 수 있습니다.
객체 해제 또는 배치를 위한 휴리스틱 모듈
객체를 잡은 후 다음 단계는 객체를 배치할 위치입니다. 물체가 떨어지는 위치가 평평한 표면이라고 가정하는 HomeRobot의 기본 구현과 달리 이 문서에서는 싱크대, 쓰레기통, 상자 및 가방과 같은 오목한 물체도 덮도록 확장합니다.
이제 탐색, 잡기, 배치가 모두 완료되었으므로 이들을 하나로 모으기만 하면 됩니다. 이 방법은 새 집에 직접 적용할 수 있습니다. 새로운 가정 환경의 경우 연구는 1분 이내에 방을 스캔할 수 있습니다. 그런 다음 VoxelMap으로 처리하는 데 5분도 채 걸리지 않습니다. 완료되면 로봇을 선택한 현장에 즉시 배치하고 작동을 시작할 수 있습니다. 새로운 환경에 도착하는 것부터 그 안에서 자율적으로 작동하기 시작하는 것까지, 시스템은 첫 번째 픽 앤 플레이스 작업을 완료하는 데 평균 10분 미만이 걸립니다.
실험
10회가 넘는 가정 실험에서 OK-Robot은 픽 앤 플레이스 작업에서 58.5%의 성공률을 달성했습니다.
이 연구에서는 OK-Robot의 실패 모드를 더 잘 이해하기 위해 심층 조사도 수행했습니다. 연구 결과 실패의 주요 원인은 운영상의 실패인 것으로 나타났습니다. 그러나 자세히 관찰한 결과 실패의 원인은 그림 4에서 볼 수 있듯이 검색 실패가 3가지로 나타났습니다. 의미기억에서 올바른 객체의 탐색 위치(9.3%), 조작 모듈에서 얻은 포즈를 완료하기 어려움(8.0%), 하드웨어 이유(7.5%).
OK-Robot에 사용된 VoxelMap은 다른 의미 메모리 모듈보다 약간 더 나은 것을 그림 5에서 볼 수 있습니다. 스크래핑 모듈의 경우 AnyGrasp는 다른 스크래핑 방법보다 훨씬 더 성능이 뛰어나며 상대적 규모에서 거의 50% 정도 최고의 후보(하향식 스크래핑)보다 성능이 뛰어납니다. 그러나 경험적 방법을 기반으로 한 HomeRobot의 하향식 크롤링이 오픈 소스 AnyGrasp 기준 및 Contact-GraspNet을 능가한다는 사실은 진정한 범용 크롤링 모델을 구축하는 것이 여전히 어렵다는 것을 보여줍니다.
그림 6은 OK-Robot의 다양한 단계 실패에 대한 완전한 분석을 보여줍니다. 분석에 따르면 연구진이 환경을 정리하고 흐릿한 객체를 삭제하면 탐색 정확도가 높아지며 전체 오류율이 15%에서 12%로 떨어지다가 최종적으로는 4%로 떨어진다. 마찬가지로 연구자들이 어수선한 환경을 정리하자 정확도가 향상되었으며 오류율은 25%에서 16%로, 최종적으로는 13%로 떨어졌습니다.
자세한 내용은 원문을 참고해주세요.
위 내용은 메타와 뉴욕대학교가 개발한 OK-Robot: 차를 따르는 로봇이 등장의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Centos 시스템에서 Gitlab 로그를보기위한 완전한 안내서이 기사에서는 메인 로그, 예외 로그 및 기타 관련 로그를 포함한 CentOS 시스템에서 다양한 Gitlab 로그를 보는 방법을 안내합니다. 로그 파일 경로는 Gitlab 버전 및 설치 방법에 따라 다를 수 있습니다. 다음 경로가 존재하지 않으면 GitLab 설치 디렉토리 및 구성 파일을 확인하십시오. 1. 기본 gitlab 로그보기 다음 명령을 사용하여 Gitlabrails 응용 프로그램의 기본 로그 파일을 보려면 다음 명령 : 명령 : sudocat/var/log/gitlab/gitlab-rails/production.log이 명령은 제품을 표시합니다.

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.
