뇌는 사용할 수 있지만 손은 사용할 수 없습니다.
미래에는 생각만 해도 로봇에게 집안일을 도와달라고 요청할 수 있을지도 모릅니다. 최근 스탠포드 대학의 Wu Jiajun과 Li Feifei 팀이 제안한 NOIR 시스템을 통해 사용자는 비침습적 뇌파 검사 장치를 통해 로봇을 제어하여 일상 작업을 완료할 수 있습니다.
NOIR은 EEG 신호를 로봇 기술 라이브러리로 디코딩할 수 있습니다. 이제 스키야키 요리, 옷 다림질, 치즈 갈기, 틱택토 놀이, 로봇 개 쓰다듬기 등의 작업을 완료할 수 있습니다. 이 모듈형 시스템은 강력한 학습 기능을 갖추고 있으며 일상 생활에서 복잡하고 다양한 작업을 처리할 수 있습니다.
BRI(Brain and Robot Interface)는 인간 예술, 과학 및 공학의 걸작입니다. 우리는 "매트릭스"와 "아바타"와 같은 수많은 공상 과학 작품과 창작 예술에서 그것을 보았지만 BRI를 실제로 실현하는 것은 쉽지 않으며 인간과 완벽하게 작동하는 로봇 시스템을 만들 수 있는 장치를 만들기 위해서는 획기적인 과학적 연구가 필요합니다. .
이러한 시스템의 핵심 구성 요소 중 하나는 기계가 인간과 통신하는 능력입니다. 인간-기계 협업 및 로봇 학습 과정에서 인간이 자신의 의도를 전달하는 방식에는 동작, 버튼 누르기, 시선, 표정, 언어 등이 포함됩니다. 신경 신호를 통해 로봇과 직접 통신하는 것은 가장 흥미롭지만 가장 어려운 전망이기도 합니다.
최근 스탠포드 대학의 Wu Jiajun과 Li Feifei가 이끄는 다학제 공동 팀은 범용 지능형 BRI 시스템 NOIR(신경 신호 작동 지능형 로봇/신경 신호 작동 지능형 로봇)을 제안했습니다.
논문 주소: https://openreview.net/pdf?id=eyykI3UIHa
프로젝트 웹사이트: https://noir-corl.github.io/
시스템은 비침습적 뇌파 검사( EEG) 기술. 보고서에 따르면 이 시스템의 기본 원칙은 계층적 공유 자율성입니다. 즉, 인간은 높은 수준의 목표를 정의하고 로봇은 낮은 수준의 이동 명령을 실행하여 목표를 달성합니다. 이 시스템은 신경과학, 로봇 공학, 기계 학습의 새로운 발전을 통합하여 이전 방법보다 개선되었습니다. 팀은 기여한 내용을 요약합니다.
먼저 NOIR은 다재다능하고 다양한 작업에 사용할 수 있으며 다양한 커뮤니티에서 사용하기 쉽습니다. 연구에 따르면 NOIR은 최대 20개의 일일 활동을 완료할 수 있습니다. 이에 비해 이전 BRI 시스템은 종종 하나 또는 몇 가지 작업을 위해 설계되었거나 단순한 시뮬레이션 시스템이었습니다. 또한 NOIR 시스템은 일반인도 최소한의 교육만으로 사용할 수 있습니다.
둘째, NOIR의 I는 로봇 시스템이 지능적이고 적응 능력을 가지고 있다는 것을 의미합니다. 로봇은 인간의 집중적인 감독 없이도 낮은 수준의 작업을 수행할 수 있는 다양한 기술 레퍼토리를 갖추고 있습니다. Pick(obj-A) 또는 MoveTo(x,y)와 같은 매개변수화된 기술 기본 요소를 사용하여 로봇은 자연스럽게 인간 행동 목표를 획득, 해석 및 실행할 수 있습니다.
또한 NOIR 시스템에는 협업 과정에서 인간이 달성하고자 하는 것이 무엇인지 학습하는 기능도 있습니다. 연구에 따르면 기본 모델의 최신 발전을 활용하면 시스템이 매우 제한된 데이터에도 적응할 수 있습니다. 이는 시스템의 효율성을 크게 향상시킬 수 있습니다.
NOIR의 주요 기술 기여에는 인간의 의도를 이해하기 위해 신경 신호를 디코딩하는 모듈식 워크플로가 포함됩니다. 아시다시피, 신경 신호에서 인간이 의도한 목표를 해독하는 것은 매우 어렵습니다. 이를 위해 팀의 접근 방식은 인간의 의도를 조작할 개체(What), 개체와 상호 작용하는 방법(How), 상호 작용할 위치(Where)의 세 가지 주요 구성 요소로 나누는 것입니다. 그들의 연구에 따르면 이러한 신호는 다양한 유형의 신경 데이터에서 디코딩될 수 있습니다. 이렇게 분해된 신호는 자연스럽게 매개변수화된 로봇 기술에 대응할 수 있으며 로봇에 효과적으로 전달될 수 있습니다.
세 명의 피험자가 데스크톱 또는 모바일 작업과 관련된 20가지 가정 활동(스키야키 만들기, 옷 다림질, 틱택토 게임, 로봇 개 쓰다듬기 등)에서 NOIR 시스템을 성공적으로 사용했습니다. 그들의 뇌 신호!
실험에 따르면 인간을 교사로 사용하여 퓨샷 로봇 학습을 수행하면 NOIR 시스템의 효율성이 크게 향상될 수 있습니다. 인간의 뇌 신호를 사용하여 지능형 로봇 시스템을 구축하기 위해 협력하는 이 방법은 사람들, 특히 장애인을 위한 중요한 보조 기술을 개발하여 삶의 질을 향상시킬 수 있는 큰 잠재력을 가지고 있습니다.
NOIR 시스템
이 연구에서 해결하려는 과제는 다음과 같습니다. 1. 다양한 작업에 적합한 범용 BRI 시스템을 구축하는 방법은 무엇입니까? 2. 인간 두뇌의 관련 통신 신호를 어떻게 해독합니까? 3. 보다 효율적인 협업을 달성하기 위해 로봇의 지능과 적응성을 어떻게 향상시킬 수 있습니까? 그림 2는 시스템 개요를 보여줍니다.
이 시스템에서 인간은 계획 주체로서 로봇의 행동 목표를 인지하고 계획하고 전달하며 로봇은 이러한 목표를 달성하기 위해 미리 정의된 기본 기술을 사용합니다.
범용 BRI 시스템을 만드는 전반적인 목표를 달성하려면 이 두 가지 디자인을 공동으로 통합해야 합니다. 이를 위해 팀은 새로운 뇌 신호 디코딩 워크플로를 제안하고 로봇에 매개변수화된 원본 기술 라이브러리 세트를 장착했습니다. 마지막으로 팀은 로봇에 보다 효율적인 학습 기능을 제공하기 위해 소수 샘플 모방 학습 기술을 사용했습니다.
뇌: 모듈식 디코딩 워크플로
그림 3에 표시된 것처럼 인간의 의도는 조작할 개체(What), 개체와 상호 작용하는 방법(How), 상호 작용 Where의 세 가지 구성 요소로 분해됩니다. .
EEG 신호에서 특정 사용자 의도를 해독하는 것은 쉽지 않지만, SSVEP(정상 상태 시각적 유발 전위) 및 운동 이미지를 통해 수행할 수 있습니다. 간략하게 프로세스에는 다음이 포함됩니다.
SSVEP(정상 상태 시각적 유발 전위)가 있는 개체 선택
MI(운동 이미지)를 통해 기술 및 매개변수 선택
근육 강화를 통해 확인 또는 중단
로봇: 매개변수화된 기본 기술
매개변수화된 기본 기술을 결합하고 다양한 작업에 재사용하여 복잡하고 다양한 작업을 수행할 수 있습니다. 게다가 이러한 기술은 인간에게 매우 직관적입니다. 인간이나 에이전트 모두 이러한 기술의 제어 메커니즘을 이해할 필요가 없으므로 사람들은 강력하고 다양한 작업에 적응할 수 있는 한 어떤 방법을 통해 이러한 기술을 구현할 수 있습니다.
팀은 실험에 두 대의 로봇을 사용했습니다. 하나는 데스크탑 작업 작업을 위한 Franka Emika Panda 로봇 팔이고, 다른 하나는 모바일 작업 작업을 위한 PAL Tiago 로봇입니다. 다음 표는 이 두 로봇의 기본 기술을 보여줍니다.
효율적인 BRI를 위한 로봇 학습 사용
위에 설명된 모듈식 디코딩 워크플로와 원시 기술 라이브러리는 NOIR의 기반을 마련합니다. 그러나 이러한 시스템의 효율성은 더욱 향상될 수 있습니다. 로봇은 협업 프로세스 중에 사용자의 항목, 기술 및 매개변수 선택 기본 설정을 학습할 수 있어야 합니다. 그래야 향후 사용자가 달성하려는 목표를 예측하고 더 나은 자동화를 달성하며 디코딩을 더 간단하고 쉽게 만들 수 있습니다. 아이템의 위치, 포즈, 배치, 인스턴스 등은 실행될 때마다 달라질 수 있으므로 학습 및 일반화 능력이 필요합니다. 또한 인간 데이터를 수집하는 데 비용이 많이 들기 때문에 학습 알고리즘은 표본 효율성이 매우 높아야 합니다.
팀에서는 이를 위해 검색 기반 소수 샘플 항목 및 스킬 선택과 단일 샘플 스킬 매개변수 학습이라는 두 가지 방법을 채택했습니다.
검색 기반 소수 샘플 아이템 및 스킬 선택. 이 방법은 관찰된 상태의 암시적 표현을 학습할 수 있습니다. 새로 관찰된 상태가 주어지면 숨겨진 공간에서 가장 유사한 상태와 해당 동작을 찾습니다. 그림 4는 방법의 개요를 제공합니다.
미션 실행 중에는 이미지와 인간이 선택한 "아이템-스킬" 쌍으로 구성된 데이터 포인트가 기록됩니다. 이러한 이미지는 먼저 사전 훈련된 R3M 모델로 인코딩되어 로봇 조작 작업에 유용한 기능을 추출한 다음 훈련 가능한 여러 완전 연결 레이어를 통과합니다. 이러한 레이어는 동일한 "항목 기술" 레이블이 있는 이미지가 숨겨진 공간에서 서로 더 가까워지도록 장려하는 삼중 손실을 사용하는 대조 학습을 사용하여 훈련됩니다. 학습된 이미지 임베딩과 "항목 기술" 레이블은 메모리에 저장됩니다.
테스트 중에 모델은 숨겨진 공간에서 가장 가까운 데이터 포인트를 검색한 다음 해당 데이터 포인트와 관련된 아이템-스킬 쌍을 인간에게 제안합니다.
단일 샘플 스킬 매개변수 학습. 매개변수 선택에는 MI(운동 이미지)를 통한 정확한 커서 작동이 필요하므로 광범위한 사람의 개입이 필요합니다. 인간의 노력을 줄이기 위해 팀은 커서 제어의 시작점으로 사용되는 아이템-스킬 쌍을 고려하여 매개변수를 예측하는 학습 알고리즘을 제안했습니다. 사용자가 컵 손잡이를 집는 정확한 핵심 지점을 성공적으로 찾았다고 가정하면 나중에 이 매개변수를 다시 지정해야 합니까? 최근에는 DINOv2 등 기본 모델이 많이 발전해 해당 의미론적 핵심 포인트를 찾을 수 있어 매개변수를 다시 지정할 필요가 없어졌다.
이전 작업과 비교하여 여기서 제안한 새로운 알고리즘은 단일 샘플이며 의미 조각이 아닌 특정 2D 점을 예측합니다. 그림 4에서 볼 수 있듯이 훈련 이미지(360 × 240)와 매개변수 선택(x, y)이 주어지면 모델은 다양한 테스트 이미지에서 의미론적으로 대응하는 지점을 예측합니다. 특히 팀은 사전 훈련된 DINOv2 모델을 사용하여 의미론적 특징을 얻었습니다.
실험 및 결과
임무. 실험을 위해 선택된 작업은 인간의 일상적 요구를 어느 정도 반영할 수 있는 BEHAVIOR 및 일상 생활 활동 벤치마크에서 나온 것입니다. 그림 1은 16개의 데스크톱 작업과 4개의 모바일 작업을 포함하는 실험 작업을 보여줍니다.
샌드위치를 만들고 코로나19 환자를 돌보는 실험 과정의 예는 다음과 같습니다.
실험 과정. 실험이 진행되는 동안 사용자는 격리된 방에 가만히 머물며 화면에 나오는 로봇을 지켜보며 오로지 뇌 신호에만 의존해 로봇과 소통했다.
시스템 성능. 표 1에는 성공 전 시도 횟수와 성공 시 작업 완료 시간이라는 두 가지 지표로 시스템 성능이 요약되어 있습니다.
이 작업의 오랜 기간과 어려움에도 불구하고 NOIR는 매우 고무적인 결과를 얻었습니다. 작업을 완료하는 데 평균 1.83번의 시도밖에 걸리지 않았습니다.
디코딩 정확도. 뇌 신호가 디코딩되는 정확도는 NOIR 시스템 성공의 열쇠입니다. 표 2는 여러 단계의 디코딩 정확도를 요약합니다. SSVEP를 기반으로 한 CCA(Canonical Correlation Analysis)는 81.2%의 높은 정확도를 달성할 수 있음을 알 수 있는데, 이는 대체로 항목 선택이 정확하다는 것을 의미한다.
아이템 및 스킬 선택 결과입니다. 그렇다면 새로 제안된 로봇 학습 알고리즘은 NOIR의 효율성을 향상시킬 수 있을까? 연구자들은 먼저 항목과 기술 선택 학습을 평가했습니다. 이를 위해 그들은 MakePasta 작업에 대한 오프라인 데이터 세트를 수집했으며, 각 항목-기술 쌍에 대한 15개의 훈련 샘플이 포함되어 있습니다. 이미지를 통해 올바른 아이템과 스킬이 동시에 예측되면 예측이 올바른 것으로 간주됩니다. 결과를 표 3에 나타내었다.
ResNet을 사용한 간단한 이미지 분류 모델은 평균 0.31의 정확도를 달성할 수 있는 반면 사전 훈련된 ResNet 백본 네트워크를 기반으로 한 새로운 방법을 사용하면 훨씬 더 높은 0.73을 달성할 수 있으며 이는 대조 학습 및 검색 기반을 강조합니다. 학습의 중요성.
단일 표본 매개변수 학습 결과. 연구원들은 사전 수집된 데이터 세트를 기반으로 한 여러 벤치마크와 새로운 알고리즘을 비교했습니다. 표 4는 예측 결과의 MSE 값을 나타냅니다.
또한 SetTable 작업에 대한 실제 작업 실행에서 매개변수 학습 알고리즘의 효율성을 입증했습니다. 그림 5는 커서 이동을 제어하는 데 절약된 인간의 노력을 보여줍니다.
위 내용은 Li Feifei 팀의 새로운 작업: 뇌 제어 로봇이 집안일을 수행하여 뇌-컴퓨터 인터페이스에 적은 샘플로 학습할 수 있는 기능 제공의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!