AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
실체 지능은 지능형 에이전트와 디지털 공간 및 물리적 세계의 상호 작용을 통해서입니다. 복잡한 작업을 완료하세요. 최근 몇 년 동안 다중 모드 대형 모델과 로봇 공학 기술이 큰 발전을 이루었고, 체화된 지능이 글로벌 기술과 산업 경쟁의 새로운 초점이 되었습니다. 그러나 현재는 체화지능 개발 현황을 종합적으로 분석할 수 있는 검토가 부족한 실정이다. 따라서 Pengcheng 연구소의 다중 에이전트 및 구현 지능 연구소는 Sun Yat-sen 대학교 HCP 연구소의 연구원들과 함께 구현 지능의 최신 진행 상황에 대한 종합적인 분석을 수행하고 글로벌 다중 모드 대형 모델 시대를 시작했습니다. 구체화된 지능에 대한 첫 번째 리뷰입니다. 이 리뷰는 약 400개의 문서를 조사하고 체화된 지능에 관한 연구를 다차원에서 종합적으로 분석했습니다. 이번 리뷰에서는 먼저 대표적인 실체 로봇과 구현 시뮬레이션 플랫폼을 소개하고, 이들의 연구 초점과 한계에 대한 심층 분석을 제공합니다. 그런 다음 1) Embodied Perception, 2) Embodied Interaction, 3) Embodied Intelligence, 4) Virtual to Reality Transfer의 네 가지 주요 연구 내용을 철저하게 분석합니다. 예술 방법, 기본 패러다임 및 포괄적인 데이터 세트. 또한, 이 리뷰에서는 디지털 공간과 물리적 세계에서 구현된 에이전트가 직면한 과제를 탐색하고 동적 디지털 및 물리적 환경에서 적극적인 상호 작용의 중요성을 강조합니다. 마지막으로, 검토에서는 구체화된 지능의 과제와 한계를 요약하고 잠재적인 미래 방향에 대해 논의합니다. 본 리뷰를 통해 체화된 지능 연구에 대한 기본 참고 자료를 제공하고 관련 기술 혁신을 촉진할 수 있기를 바랍니다. 또한, 이번 리뷰에서는 구체화된 지능 논문 목록도 Github에 공개했습니다. 관련 논문과 코드 리포지토리는 지속적으로 업데이트될 예정이니 많은 관심 부탁드립니다.
🎜T Paper Address: https://arxiv.org/pdf/2407.06886
체화된 지능의 개념은 앨런 튜링(Alan Turing)이 체화된 튜링 테스트(Embodied Turing Test)에서 처음 제안했습니다. 지능형 에이전트가 가상환경(디지털 공간)에서 추상적인 문제를 해결하는 지능 이상의 것을 보여줄 수 있는지를 판단하기 위해 1950년에 설립됨(지능형 에이전트는 구체화된 지능의 기반이며, 디지털 공간과 물리적 세계에 존재하며, 로봇뿐만 아니라 다른 장치를 포함한 다양한 개체의 형태도 물리적 세계의 복잡성과 예측 불가능성에 대처할 수 있습니다. 따라서 체화된 지능의 개발은 일반적인 인공지능을 달성하기 위한 기본적인 방법으로 간주된다. 구현된 지능의 복잡성을 조사하고, 현재 개발 상태를 평가하고, 미래 궤적을 고려하는 것이 특히 중요합니다. 오늘날 구체화된 지능은 컴퓨터 비전, 자연어 처리, 로봇 공학과 같은 여러 핵심 기술을 포괄하며, 가장 대표적인 기술로는
구현된 인식, 구현된 상호 작용, 구현된 지능 및 가상-현실 마이그레이션이 있습니다. 구체화된 작업에서 구체화된 에이전트는 언어 지시에서 인간의 의도를 완전히 이해하고, 주변 환경을 적극적으로 탐색하고, 가상 및 물리적 환경의 다중 모드 요소를 포괄적으로 인식하고, 복잡한 작업을 완료하기 위해 적절한 작업을 수행해야 합니다. 다중 모드 모델의 급속한 발전은 복잡한 환경에서 기존의 심층 강화 학습 방법보다 더 큰 다양성, 유연성 및 일반화 기능을 보여줍니다. 최첨단 시각적 인코더로 사전 훈련된 시각적 표현은 객체 범주, 포즈 및 기하학적 구조에 대한 정확한 추정을 제공하여 구현된 모델이 복잡하고 역동적인 환경을 포괄적으로 인식할 수 있도록 합니다. 강력한 대규모 언어 모델을 통해 로봇은 인간의 언어 지침을 더 잘 이해할 수 있으며 구현된 로봇에 대한 시각적 및 언어적 표현을 정렬할 수 있는 실행 가능한 방법을 제공합니다. 월드 모델은 중요한 시뮬레이션 기능과 물리 법칙에 대한 올바른 이해를 보여줌으로써 구현된 모델이 물리학과 실제 환경을 완전히 이해할 수 있도록 해줍니다. 이러한 발전을 통해 구체화된 지능은 복잡한 환경을 포괄적으로 인식하고 인간과 자연스럽게 상호 작용하며 작업을 안정적으로 수행할 수 있습니다. 아래 그림은 구현된 에이전트의 일반적인 아키텍처를 보여줍니다.
구체화된 에이전트 프레임워크
이 리뷰에서는 다음을 포함하여 구체화된 지능의 현재 진행 상황에 대한 포괄적인 개요를 제공합니다. (1)
E 구체화된 로봇 —— 도구 구체화된 로봇을 위한 하드웨어 솔루션 (2)
체화된 시뮬레이션 플랫폼
- 체화된 지능을 효율적이고 안전하게 훈련하기 위한 디지털 공간 (3) 체화된 인식 - 3D 공간을 적극적으로 인식하고 합성합니다. (4) 체화된 상호작용; - 환경과 효과적이고 합리적으로 상호 작용하고 환경을 변경하여 지정된 작업을 완료합니다. (5) 구현된 지능
- 다중 모드 대형 모델을 사용하여 추상화 지침을 이해하고 이를 일련의 하위 작업으로 분할한 다음 단계를 완료합니다. (6)
가상에서 현실로의 전환 - 디지털 공간에서 배운 기술을 물리적 세계로 전환하고 일반화합니다. 아래 그림은 디지털 공간에서 물리적 세계까지 구현된 지능의 시스템 프레임워크를 보여줍니다. 본 리뷰는 체화된 지능에 대한 포괄적인 배경 지식, 연구 동향 및 기술적 통찰력을 제공하는 것을 목표로 합니다.
2. 로봇, 스마트 가전, 스마트 안경, 자율주행차 등을 포함한 물리적 형태의 로봇 구현 그 중에서도 가장 대표적인 구현 형태 중 하나로 로봇이 많은 주목을 받고 있다. 다양한 적용 시나리오에 따라 로봇은 하드웨어 기능을 최대한 활용하여 특정 작업을 완료할 수 있도록 다양한 형태로 설계되었습니다. 아래 그림에서 볼 수 있듯이 구현된 로봇은 일반적으로 다음과 같이 나눌 수 있습니다. (1) 실험실 자동화 합성, 교육, 산업 및 기타 분야에서 자주 사용되는 로봇 팔과 같은 고정 기반 로봇, (2) 바퀴 달린 로봇; 매우 효율적이며 이동성으로 유명하며 물류, 창고 보관 및 보안 검사에 널리 사용됩니다. (3) 강력한 오프로드 기능과 이동성을 갖춘 크롤러 로봇은 농업, 건설 및 재난 현장 대응에서 잠재력을 보여주었습니다. 네 발 달린 동물 안정성과 적응성으로 잘 알려진 이 로봇은 복잡한 지형 탐지, 구조 임무 및 군사 응용 분야에 이상적입니다. (5) 손재주가 뛰어난 휴머노이드 로봇은 서비스 산업, 의료, 협업 환경에서 널리 사용되고 있습니다. (6) 바이오닉 로봇은 자연 유기체의 효과적인 움직임과 기능을 시뮬레이션하여 복잡하고 역동적인 환경에서 작업을 수행합니다. ㅋㅋㅋ ~ 다양한 형태의 구현 로봇
구현 지능 시뮬레이션 플랫폼은 구현 지능에 매우 중요합니다. 잠재적으로 위험한 시나리오를 시뮬레이션하여 안전성을 보장할 수 있는 실험 방법, 다양한 환경에서 테스트할 수 있는 확장성, 신속한 프로토타이핑 기능, 더 넓은 연구 커뮤니티에 편의성을 제공할 수 있음, 정확한 연구를 위한 통제된 환경 제공, 훈련용 데이터 생성 평가 및 알고리즘 비교를 위한 표준화된 벤치마크를 제공합니다. 에이전트가 환경과 상호작용하기 위해서는 현실적인 시뮬레이션 환경을 구축해야 합니다. 이를 위해서는 환경의 물리적 특성, 물체의 속성 및 상호 작용을 고려해야 합니다. 아래 그림에서 볼 수 있듯이 본 검토에서는 기본 시뮬레이션을 기반으로 한 일반 플랫폼과 실제 시나리오를 기반으로 한 시뮬레이션 플랫폼이라는 두 가지 시뮬레이션 플랫폼을 분석합니다. 실제 장면을 기반으로 한 시뮬레이션 플랫폼
미래의 시각적 인식의 "북성"은 구체화 중심의 시각적 추론과 사회적 지능. 아래 그림에서 볼 수 있듯이, 체화된 지각을 가진 에이전트는 단순히 이미지 속 사물을 인식하는 것이 아니라 물리적 세계에서 이동하고 환경과 상호작용해야 하므로 3차원 공간과 동적 환경에 대한 보다 철저한 이해가 필요합니다. 구체화된 인식에는 시각적 인식 및 추론 능력, 장면의 3차원 관계 이해, 시각적 정보를 기반으로 복잡한 작업 예측 및 수행이 필요합니다. 본 리뷰에서는 능동시각지각, 3D시각위치지정, 시각언어탐색, 비시각지각(촉각센서) 등을 소개한다. 인간과 환경이 상호작용하는 장면. 전형적인 구체화된 상호작용 작업에는 구체화된 질문 답변과 구체화된 이해가 포함됩니다. 아래 그림에서 볼 수 있듯이, 구체화된 질문 및 답변 작업에서 에이전트는 질문에 답변하는 데 필요한 정보를 수집하기 위해 1인칭 관점에서 환경을 탐색해야 합니다. 자율 탐색 및 의사 결정 기능을 갖춘 에이전트는 아래 그림과 같이 환경을 탐색하기 위해 어떤 조치를 취해야 할지 고려해야 할 뿐만 아니라, 질문에 답하기 위해 탐색을 중단할 시기도 결정해야 합니다.架 Q&A 프레임워크 외에도 상호작용에는 인간과의 상호작용 외에도 물건을 잡고 배치하는 등 인간의 지시에 따라 작업을 수행하는 것도 포함되어 스마트 바디와 인간, 사물 간의 상호작용이 완성됩니다. 표시된 대로 구체화된 파악에는 포괄적인 의미론적 이해, 장면 인식, 의사 결정 및 강력한 제어 계획이 필요합니다. 구체화된 파악 방법은 전통적인 로봇 운동학적 파악과 대규모 모델(예: 대형 언어 모델 및 시각적 언어 기본 모델)을 결합하여 에이전트가 시각적 활성 인식, 언어 이해 및 추론을 포함한 다감각 인식 하에서 파악 작업을 수행할 수 있도록 합니다. ㅋㅋㅋ 언어 기반 대화형 크롤링 프레임워크
에이전트는 특정 목표를 달성하기 위해 환경을 감지하고 행동을 취할 수 있는 것으로 정의됩니다. 자율적 실체. 최근 다중 모드 대형 모델의 발전으로 실제 시나리오에서 에이전트 적용이 더욱 확장되었습니다. 이러한 다중 모드 대형 모델 기반 에이전트가 물리적 개체로 구현되면 가상 공간에서 물리적 세계로 자신의 기능을 효과적으로 이전하여 구현된 에이전트가 될 수 있습니다. 정보가 풍부하고 복잡한 현실 세계에서 구현된 에이전트가 작동할 수 있도록 강력한 다중 모드 인식, 상호 작용 및 계획 기능을 갖추고 개발되었습니다. 아래 그림에서 볼 수 있듯이 구체화된 에이전트는 작업을 완료하기 위해 일반적으로 다음과 같은 프로세스를 포함합니다.
(1) 추상적이고 복잡한 작업을 특정 하위 작업으로 분해, 즉 높은 수준의 구체화된 작업 계획입니다. (2) 구체화된 인식 및 구체화된 상호 작용 모델을 효과적으로 활용하거나 하위 수준의 구체화된 행동 계획이라고 하는 기본 모델의 전략 기능을 활용하여 이러한 하위 작업을 점차적으로 구현합니다.
미션 계획에는 행동하기 전에 생각이 포함되므로 디지털 공간에서 종종 고려된다는 점은 주목할 가치가 있습니다. 대조적으로, 행동 계획은 환경과의 효과적인 상호 작용을 고려해야 하며 이 정보를 임무 계획자에게 다시 제공하여 임무 계획을 조정해야 합니다. 따라서 구체화된 에이전트가 디지털 공간에서 물리적 세계에 이르기까지 자신의 역량을 정렬하고 일반화하는 것이 중요합니다.模 다중 모드 및 대형 모델을 기반으로 신체의 신체 프레임워크 7(Sim-to-Real 적응)은 시뮬레이션된 환경에서 학습한 능력이나 행동을 전달하는 과정을 의미합니다( 디지털 공간)을 현실 세계(물리적 세계)로 이 프로세스에는 시뮬레이션에서 개발된 알고리즘, 모델 및 제어 전략의 유효성을 검증하고 개선하여 물리적 환경에서 안정적이고 안정적으로 작동하는지 확인하는 작업이 포함됩니다. 시뮬레이션-현실 적응을 달성하기 위해 구현된 세계 모델, 데이터 수집 및 훈련 방법, 구현된 제어 알고리즘은 세 가지 핵심 요소입니다. 아래 그림은 5가지 Sim-to-Real 패러다임을 보여줍니다.
ㅋㅋㅋ 다섯 가지 가상-현실 마이그레이션 솔루션 몇 가지 어려움에 직면하고 흥미로운 미래 방향을 제시했습니다. (1) . 충분한 실제 로봇 데이터를 얻는 것은 여전히 중요한 과제로 남아 있습니다. 이 데이터를 수집하는 데는 시간이 많이 걸리고 리소스 집약적입니다. 시뮬레이션된 데이터에만 의존하면 시뮬레이션과 현실의 격차 문제가 더욱 악화됩니다. 다양한 실제 로봇 공학 데이터 세트를 생성하려면 기관 간의 긴밀하고 광범위한 협력이 필요합니다. 또한, 시뮬레이션 데이터의 품질을 향상시키기 위해서는 보다 현실적이고 효율적인 시뮬레이터를 개발하는 것이 중요합니다. 로봇공학 분야에서 교차 시나리오 및 교차 작업 적용을 달성할 수 있는 보편적인 구현 모델을 구축하려면 대규모 데이터 세트를 구축하고 고품질 시뮬레이션 환경 데이터를 사용하여 실제 데이터를 지원해야 합니다. . 인간의 시연 데이터를 효율적으로 활용하려면 인간이 시연한 행동과 행동을 활용하여 로봇 시스템을 교육하고 개선해야 합니다. 이 프로세스에는 로봇이 학습해야 하는 작업을 인간이 수행하면서 대규모의 고품질 데이터 세트를 수집, 처리 및 학습하는 과정이 포함됩니다. 따라서 상대적으로 짧은 시간에 다양한 작업을 학습할 수 있는 구체화된 모델을 훈련시키기 위해서는 액션 레이블 데이터와 결합된 대량의 비정형 다중 레이블 및 다중 모드 인간 데모 데이터를 효과적으로 활용하는 것이 중요합니다. 인간의 시연 데이터를 효율적으로 활용함으로써 로봇 시스템은 더 높은 수준의 성능과 적응성을 달성할 수 있어 동적 환경에서 복잡한 작업을 더 잘 수행할 수 있습니다. . 복잡한 환경 인식은 물리적 또는 가상 환경에서 복잡한 실제 환경을 인식하고, 이해하고, 탐색할 수 있는 구체화된 에이전트의 능력을 의미합니다. 구조화되지 않은 개방형 환경의 경우 현재 작업은 일반적으로 사전 훈련된 LLM의 작업 분해 메커니즘에 의존하여 간단한 작업 계획을 위해 광범위한 상식 지식을 활용하지만 특정 장면에 대한 이해가 부족합니다. 복잡한 환경에서는 지식 이전과 일반화를 강화하는 것이 중요합니다. 진정한 다용도 로봇 시스템은 보이지 않는 다양한 시나리오에서 자연어 명령을 이해하고 실행할 수 있어야 합니다. 이를 위해서는 적응 가능하고 확장 가능한 구체화된 에이전트 아키텍처의 개발이 필요합니다. . 단일 명령을 실행하는 것은 일반적으로 로봇이 품목 재배치, 바닥 청소, 테이블 닦기 등을 포함하는 "주방 청소"와 같은 명령과 같은 장거리 작업을 수행하는 것과 관련됩니다. 이러한 작업을 성공적으로 완료하려면 로봇이 장기간에 걸쳐 일련의 낮은 수준의 작업을 계획하고 실행할 수 있어야 합니다. 현재의 높은 수준의 작업 계획자는 초기 성공을 보였지만 구현된 작업에 대한 적응이 부족하여 다양한 시나리오에서 부족한 경우가 많습니다. 이러한 과제를 해결하려면 강력한 지각 능력과 광범위한 상식 지식을 갖춘 효율적인 계획가의 개발이 필요합니다. . 기존 데이터 중심의 구체화된 에이전트는 데이터 내의 상관 관계를 기반으로 결정을 내립니다. 그러나 이 모델링 방법은 모델이 지식, 행동 및 환경 사이의 인과 관계를 실제로 이해할 수 없게 하여 편향된 전략을 초래합니다. 이로 인해 실제 환경에서 해석 가능하고 강력하며 안정적인 방식으로 작동하기가 어렵습니다. 따라서 체화된 지능은 세계지식을 바탕으로 구동되어야 하며 자율적인 인과추론 능력을 갖추어야 한다. . 로봇 공학 응용 분야에서 지속적인 학습은 다양한 환경에서 로봇 학습 전략을 배포하는 데 중요하지만 이 영역은 아직 충분히 탐구되지 않은 상태입니다. 최근 일부 연구에서는 증분 학습, 빠른 동작 적응, 인간-컴퓨터 상호 작용 학습과 같은 연속 학습의 하위 주제를 탐구했지만 이러한 솔루션은 일반적으로 단일 작업 또는 플랫폼용으로 설계되었으며 아직 기본 모델을 고려하지 않았습니다. 공개 연구 질문 및 가능한 접근 방식에는 다음이 포함됩니다. 1) 치명적인 망각을 완화하기 위해 최신 데이터를 미세 조정할 때 이전 데이터 분포의 다양한 비율을 혼합합니다. 2) 이전 배포에서 효율적인 프로토타입을 개발하거나 새로운 작업 추론 학습을 위한 과정을 개선합니다. 온라인 학습 알고리즘의 훈련 안정성 및 샘플 효율성, 4) 실시간 추론을 달성하기 위해 계층적 학습 또는 느리고 빠른 제어를 통해 대용량 모델을 제어 프레임워크에 원활하게 통합하기 위한 원칙적인 방법을 식별합니다. . 낮은 수준의 제어 전략을 평가하기 위한 많은 벤치마크가 있지만 평가 기술에서는 크게 다른 경우가 많습니다. 또한 이러한 벤치마크에 포함된 개체와 장면은 시뮬레이터에 국한된 경우가 많습니다. 구현된 모델을 완전히 평가하려면 현실적인 시뮬레이터를 사용하여 다양한 기술을 다루는 벤치마크가 필요합니다. 높은 수준의 작업 계획 측면에서 많은 벤치마크는 질문 및 답변 작업을 통해 계획 능력을 평가합니다.Walau bagaimanapun, pendekatan yang lebih ideal ialah menilai secara menyeluruh keupayaan pelaksanaan perancang misi peringkat tinggi dan strategi kawalan peringkat rendah, terutamanya dalam melaksanakan misi jangka panjang dan mengukur kadar kejayaan, dan bukannya bergantung semata-mata pada penilaian perancang sahaja. Pendekatan komprehensif ini membolehkan penilaian yang lebih komprehensif tentang keupayaan sistem pintar yang terkandung. Ringkasnya, kecerdasan yang terkandung membolehkan ejen pintar untuk melihat, mengenali dan berinteraksi dengan pelbagai objek dalam ruang digital dan dunia fizikal, menunjukkan kepentingannya dalam merealisasikan kecerdasan buatan am. Semakan ini menyediakan ulasan menyeluruh tentang robot yang terkandung, platform simulasi yang terkandung, persepsi yang terkandung, interaksi yang terkandung, ejen yang terkandung, kawalan robot maya-ke-realiti, dan hala tuju penyelidikan masa hadapan, yang mempunyai implikasi untuk mempromosikan pembangunan kecerdasan yang terkandung. Mengenai Institut Multi-Agent dan Embodied Intelligence of Pengcheng LaboratoryInstitut Multi-Agent and Embodied Intelligence yang bergabung dengan Pengcheng Laboratory bagi pakar-pakar muda sains dan robotik intelli saintis di lapangan, bergantung pada infrastruktur AI yang boleh dikawal secara bebas seperti Pengcheng Cloud Brain dan China Computing Network, komited untuk membina platform latihan simulasi dan kolaborasi berbilang ejen, model besar berbilang mod yang digabungkan dengan kerjasama awan dan platform asas umum lain untuk memperkasakan Ia. boleh memenuhi keperluan aplikasi utama seperti Internet industri, tadbir urus sosial dan perkhidmatan. 위 내용은 세계 최초! Pengcheng Laboratory와 CUHK는 약 400개 문서를 조사하여 구체화된 지능을 심층 분석합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!