世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析-AI-php.cn

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

실체 지능은 지능형 에이전트와 디지털 공간 및 물리적 세계의 상호 작용을 통해서입니다. 복잡한 작업을 완료하세요. 최근 몇 년 동안 다중 모드 대형 모델과 로봇 공학 기술이 큰 발전을 이루었고, 체화된 지능이 글로벌 기술과 산업 경쟁의 새로운 초점이 되었습니다. 그러나 현재는 체화지능 개발 현황을 종합적으로 분석할 수 있는 검토가 부족한 실정이다. 따라서 Pengcheng 연구소의 다중 에이전트 및 구현 지능 연구소는 Sun Yat-sen 대학교 HCP 연구소의 연구원들과 함께 구현 지능의 최신 진행 상황에 대한 종합적인 분석을 수행하고 글로벌 다중 모드 대형 모델 시대를 시작했습니다. 구체화된 지능에 대한 첫 번째 리뷰입니다.

이 리뷰는 약 400개의 문서를 조사하고 체화된 지능에 관한 연구를 다차원에서 종합적으로 분석했습니다. 이번 리뷰에서는 먼저 대표적인 실체 로봇과 구현 시뮬레이션 플랫폼을 소개하고, 이들의 연구 초점과 한계에 대한 심층 분석을 제공합니다. 그런 다음 1) Embodied Perception, 2) Embodied Interaction, 3) Embodied Intelligence, 4) Virtual to Reality Transfer

의 네 가지 주요 연구 내용을 철저하게 분석합니다. 예술 방법, 기본 패러다임 및 포괄적인 데이터 세트. 또한, 이 리뷰에서는 디지털 공간과 물리적 세계에서 구현된 에이전트가 직면한 과제를 탐색하고 동적 디지털 및 물리적 환경에서 적극적인 상호 작용의 중요성을 강조합니다. 마지막으로, 검토에서는 구체화된 지능의 과제와 한계를 요약하고 잠재적인 미래 방향에 대해 논의합니다. 본 리뷰를 통해 체화된 지능 연구에 대한 기본 참고 자료를 제공하고 관련 기술 혁신을 촉진할 수 있기를 바랍니다. 또한, 이번 리뷰에서는 구체화된 지능 논문 목록도 Github에 공개했습니다. 관련 논문과 코드 리포지토리는 지속적으로 업데이트될 예정이니 많은 관심 부탁드립니다.

世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析

🎜T 論文アドレス: https://arxiv.org/pdf/2407.06886

1. 身体化された知能の過去と現在

身体化された知能の概念は、身体化されたチューリングテストでアランチューリングによって初めて提案されました。インテリジェントエージェントが仮想環境 (デジタル空間) で抽象的な問題を解決する単なる知性以上のものを発揮できるかどうかを判断するために 1950 年に設立されました (インテリジェントエージェントは身体化された知性の基礎であり、デジタル空間と物理世界に存在し、ロボットだけでなく他のデバイスを含むさまざまなエンティティの形状も、物理世界の複雑さと予測不可能性に対処できます。したがって、身体性知能の開発は、一般的な人工知能を実現するための基本的な方法とみなされます。身体化された知能の複雑さを掘り下げ、その現在の開発状況を評価し、将来の軌道を検討することが特に重要です。現在、身体化されたインテリジェンスは、コンピュータービジョン、自然言語処理、ロボット工学などの複数の主要なテクノロジーをカバーしています。最も代表的なものは、

身体化された知覚、身体化されたインタラクション、身体化されたインテリジェンス、仮想から現実への移行です。身体化されたタスクでは、身体化されたエージェントは言語命令における人間の意図を完全に理解し、周囲の環境を積極的に探索し、仮想環境と物理環境からマルチモーダルな要素を包括的に認識し、複雑なタスクを完了するために適切な操作を実行する必要があります。マルチモーダルモデルの急速な進歩により、複雑な環境において従来の深層強化学習手法よりも優れた多様性、柔軟性、一般化機能が実証されています。最先端のビジュアルエンコーダによって事前トレーニングされたビジュアル表現は、オブジェクトカテゴリ、ポーズ、ジオメトリの正確な推定を提供し、具体化されたモデルが複雑で動的な環境を包括的に認識できるようにします。強力な大規模言語モデルにより、ロボットは人間の言語による指示をよりよく理解できるようになり、身体化されたロボットの視覚表現と言語表現を調整する実現可能な方法が提供されます。ワールドモデルは、重要なシミュレーション機能と物理法則の十分な理解を実証し、具体化されたモデルが物理学と実際の環境を完全に理解できるようにします。これらの進歩により、身体化された知能が複雑な環境を包括的に認識し、人間と自然に対話し、タスクを確実に実行できるようになります。以下の図は、具体化されたエージェントの典型的なアーキテクチャを示しています。 empodiedエージェントフレームワーク

このレビューでは、次のような具体化されたインテリジェンスの現在の進捗状況の包括的な概要を提供します。物理世界の知能 (2)

身体化シミュレーションプラットフォーム
- 身体化された知能を効率的かつ安全に訓練するためのデジタル空間

- 環境と効果的かつ合理的に対話し、指定されたタスクを完了するために環境を変更することもできます。 (5)

身体化されたインテリジェンス - マルチモーダルな大規模モデルを使用して抽象化命令を理解し、それらを一連のサブタスクに分割し、それらのステップを完了します。段階的に; (6) 仮想現実への移行

- デジタル空間で学んだスキルを物理世界に移行し、一般化します。以下の図は、デジタル空間から物理世界までの身体化された知性のシステムフレームワークを示しています。このレビューは、身体化された知能に関する包括的な背景知識、研究傾向、技術的洞察を提供することを目的としています。

世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析

^{전체 이 리뷰의 아키텍처}

2. 로봇, 스마트 가전, 스마트 안경, 자율주행차 등을 포함한 물리적 형태의 로봇 구현

그 중에서도 가장 대표적인 구현 형태 중 하나로 로봇이 많은 주목을 받고 있다. 다양한 적용 시나리오에 따라 로봇은 하드웨어 기능을 최대한 활용하여 특정 작업을 완료할 수 있도록 다양한 형태로 설계되었습니다. 아래 그림에서 볼 수 있듯이 구현된 로봇은 일반적으로 다음과 같이 나눌 수 있습니다. (1) 실험실 자동화 합성, 교육, 산업 및 기타 분야에서 자주 사용되는 로봇 팔과 같은 고정 기반 로봇, (2) 바퀴 달린 로봇; 매우 효율적이며 이동성으로 유명하며 물류, 창고 보관 및 보안 검사에 널리 사용됩니다. (3) 강력한 오프로드 기능과 이동성을 갖춘 크롤러 로봇은 농업, 건설 및 재난 현장 대응에서 잠재력을 보여주었습니다. 네 발 달린 동물 안정성과 적응성으로 잘 알려진 이 로봇은 복잡한 지형 탐지, 구조 임무 및 군사 응용 분야에 이상적입니다. (5) 손재주가 뛰어난 휴머노이드 로봇은 서비스 산업, 의료, 협업 환경에서 널리 사용되고 있습니다. (6) 바이오닉 로봇은 자연 유기체의 효과적인 움직임과 기능을 시뮬레이션하여 복잡하고 역동적인 환경에서 작업을 수행합니다. ㅋㅋㅋ ~ 다양한 형태의 구현 로봇

世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析

3. 구현 지능 시뮬레이션 플랫폼

구현 지능 시뮬레이션 플랫폼은 구현 지능에 매우 중요합니다. 잠재적으로 위험한 시나리오를 시뮬레이션하여 안전성을 보장할 수 있는 실험 방법, 다양한 환경에서 테스트할 수 있는 확장성, 신속한 프로토타이핑 기능, 더 넓은 연구 커뮤니티에 편의성을 제공할 수 있음, 정확한 연구를 위한 통제된 환경 제공, 훈련용 데이터 생성 평가 및 알고리즘 비교를 위한 표준화된 벤치마크를 제공합니다. 에이전트가 환경과 상호작용하기 위해서는 현실적인 시뮬레이션 환경을 구축해야 합니다. 이를 위해서는 환경의 물리적 특성, 물체의 속성 및 상호 작용을 고려해야 합니다. 아래 그림에서 볼 수 있듯이 본 검토에서는 기본 시뮬레이션을 기반으로 한 일반 플랫폼과 실제 시나리오를 기반으로 한 시뮬레이션 플랫폼이라는 두 가지 시뮬레이션 플랫폼을 분석합니다.

실제 장면을 기반으로 한 시뮬레이션 플랫폼

世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析

4. 구체화된 인식

世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析

미래의 시각적 인식의 "북성"은 구체화 중심의 시각적 추론과 사회적 지능. 아래 그림에서 볼 수 있듯이, 체화된 지각을 가진 에이전트는 단순히 이미지 속 사물을 인식하는 것이 아니라 물리적 세계에서 이동하고 환경과 상호작용해야 하므로 3차원 공간과 동적 환경에 대한 보다 철저한 이해가 필요합니다. 구체화된 인식에는 시각적 인식 및 추론 능력, 장면의 3차원 관계 이해, 시각적 정보를 기반으로 복잡한 작업 예측 및 수행이 필요합니다. 본 리뷰에서는 능동시각지각, 3차원시각위치지정, 시각언어탐색, 비시각지각(촉각센서) 등을 소개한다.

^{능동 시각적 인식 프레임워크}

5. 구체화된 상호작용

인간과 환경이 상호작용하는 장면. 전형적인 구체화된 상호작용 작업에는 구체화된 질문 답변과 구체화된 이해가 포함됩니다. 아래 그림에서 볼 수 있듯이, 구체화된 질문 및 답변 작업에서 에이전트는 질문에 답변하는 데 필요한 정보를 수집하기 위해 1인칭 관점에서 환경을 탐색해야 합니다. 자율 탐색 및 의사 결정 기능을 갖춘 에이전트는 아래 그림과 같이 환경을 탐색하기 위해 어떤 조치를 취해야 할지 고려해야 할 뿐만 아니라, 질문에 답하기 위해 탐색을 중단할 시기도 결정해야 합니다.架 Q&A 프레임워크 외에도 상호작용에는 인간과의 상호작용 외에도 물건을 잡고 배치하는 등 인간의 지시에 따라 작업을 수행하는 것도 포함되어 스마트 바디와 인간, 사물 간의 상호작용이 완성됩니다. 표시된 대로 구체화된 파악에는 포괄적인 의미론적 이해, 장면 인식, 의사 결정 및 강력한 제어 계획이 필요합니다. 구체화된 파악 방법은 전통적인 로봇 운동학적 파악과 대규모 모델(예: 대형 언어 모델 및 시각적 언어 기본 모델)을 결합하여 에이전트가 시각적 활성 인식, 언어 이해 및 추론을 포함한 다감각 인식 하에서 파악 작업을 수행할 수 있도록 합니다.互 언어 안내의 대화형 잡기 프레임워크

世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析

6. 스마트 바디

스마트 바디는 특정 목표를 달성하기 위한 인식 환경 및 동작으로 정의됩니다. 최근 다중 모드 대형 모델의 발전으로 실제 시나리오에서 에이전트 적용이 더욱 확장되었습니다. 이러한 다중 모드 대형 모델 기반 에이전트가 물리적 개체로 구현되면 가상 공간에서 물리적 세계로 자신의 기능을 효과적으로 이전하여 구현된 에이전트가 될 수 있습니다. 정보가 풍부하고 복잡한 현실 세계에서 구현된 에이전트가 작동할 수 있도록 강력한 다중 모드 인식, 상호 작용 및 계획 기능을 갖추고 개발되었습니다. 아래 그림에서 볼 수 있듯이 구체화된 에이전트는 작업을 완료하기 위해 일반적으로 다음과 같은 프로세스를 포함합니다.

世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析

(1) 추상적이고 복잡한 작업을 특정 하위 작업으로 분해, 즉 높은 수준의 구체화된 작업 계획입니다. ^{(2) 구체화된 인식 및 구체화된 상호 작용 모델을 효과적으로 활용하거나 하위 수준의 구체화된 행동 계획이라고 하는 기본 모델의 전략 기능을 활용하여 이러한 하위 작업을 점차적으로 구현합니다.}

미션 계획에는 행동하기 전에 생각이 포함되므로 디지털 공간에서 종종 고려된다는 점은 주목할 가치가 있습니다. 대조적으로, 행동 계획은 환경과의 효과적인 상호 작용을 고려해야 하며 이 정보를 임무 계획자에게 다시 제공하여 임무 계획을 조정해야 합니다. 따라서 구체화된 에이전트가 디지털 공간에서 물리적 세계에 이르기까지 자신의 역량을 정렬하고 일반화하는 것이 중요합니다.模 다중 모드 및 대형 모델을 기반으로 신체의 신체 프레임워크

7(Sim-to-Real 적응)은 시뮬레이션된 환경에서 학습한 능력이나 행동을 전달하는 과정을 의미합니다( 디지털 공간)을 현실 세계(물리적 세계)로 이 프로세스에는 시뮬레이션에서 개발된 알고리즘, 모델 및 제어 전략의 유효성을 검증하고 개선하여 물리적 환경에서 안정적이고 안정적으로 작동하는지 확인하는 작업이 포함됩니다. 시뮬레이션-현실 적응을 달성하기 위해 구현된 세계 모델, 데이터 수집 및 훈련 방법, 구현된 제어 알고리즘은 세 가지 핵심 요소입니다. 아래 그림은 5가지 Sim-to-Real 패러다임을 보여줍니다.

ㅋㅋㅋ 다섯 가지 가상-현실 마이그레이션 솔루션

몇 가지 어려움에 직면하고 흥미로운 미래 방향을 제시했습니다.

(1)

고품질 로봇 데이터 세트

. 충분한 실제 로봇 데이터를 얻는 것은 여전히 중요한 과제로 남아 있습니다. 이 데이터를 수집하는 데는 시간이 많이 걸리고 리소스 집약적입니다. 시뮬레이션된 데이터에만 의존하면 시뮬레이션과 현실의 격차 문제가 더욱 악화됩니다. 다양한 실제 로봇 공학 데이터 세트를 생성하려면 기관 간의 긴밀하고 광범위한 협력이 필요합니다. 또한, 시뮬레이션 데이터의 품질을 향상시키기 위해서는 보다 현실적이고 효율적인 시뮬레이터를 개발하는 것이 중요합니다. 로봇공학 분야에서 교차 시나리오 및 교차 작업 적용을 달성할 수 있는 보편적인 구현 모델을 구축하려면 대규모 데이터 세트를 구축하고 고품질 시뮬레이션 환경 데이터를 사용하여 실제 데이터를 지원해야 합니다.

(2)인간 실증 데이터의 효과적인 활용

. 인간의 시연 데이터를 효율적으로 활용하려면 인간이 시연한 행동과 행동을 활용하여 로봇 시스템을 교육하고 개선해야 합니다. 이 프로세스에는 로봇이 학습해야 하는 작업을 인간이 수행하면서 대규모의 고품질 데이터 세트를 수집, 처리 및 학습하는 과정이 포함됩니다. 따라서 상대적으로 짧은 시간에 다양한 작업을 학습할 수 있는 구체화된 모델을 훈련시키기 위해서는 액션 레이블 데이터와 결합된 대량의 비정형 다중 레이블 및 다중 모드 인간 데모 데이터를 효과적으로 활용하는 것이 중요합니다. 인간의 시연 데이터를 효율적으로 활용함으로써 로봇 시스템은 더 높은 수준의 성능과 적응성을 달성할 수 있어 동적 환경에서 복잡한 작업을 더 잘 수행할 수 있습니다.

(3)복잡한 환경 인식

. 복잡한 환경 인식은 물리적 또는 가상 환경에서 복잡한 실제 환경을 인식하고, 이해하고, 탐색할 수 있는 구체화된 에이전트의 능력을 의미합니다. 구조화되지 않은 개방형 환경의 경우 현재 작업은 일반적으로 사전 훈련된 LLM의 작업 분해 메커니즘에 의존하여 간단한 작업 계획을 위해 광범위한 상식 지식을 활용하지만 특정 장면에 대한 이해가 부족합니다. 복잡한 환경에서는 지식 이전과 일반화를 강화하는 것이 중요합니다. 진정한 다용도 로봇 시스템은 보이지 않는 다양한 시나리오에서 자연어 명령을 이해하고 실행할 수 있어야 합니다. 이를 위해서는 적응 가능하고 확장 가능한 구체화된 에이전트 아키텍처의 개발이 필요합니다.

(4)장거리 임무 수행

. 단일 명령을 실행하는 것은 일반적으로 로봇이 물건 재배치, 바닥 청소, 테이블 닦기 등을 포함하는 "주방 청소"와 같은 명령과 같은 장거리 작업을 수행하는 것과 관련됩니다. 이러한 작업을 성공적으로 완료하려면 로봇이 장기간에 걸쳐 일련의 낮은 수준의 작업을 계획하고 실행할 수 있어야 합니다. 현재의 높은 수준의 작업 계획자는 초기 성공을 보였지만 구체화된 작업에 대한 적응이 부족하여 다양한 시나리오에서 부족한 경우가 많습니다. 이러한 문제를 해결하려면 강력한 지각 능력과 광범위한 상식 지식을 갖춘 효율적인 계획가의 개발이 필요합니다.

(5)인과관계 발견

. 기존 데이터 중심의 구체화된 에이전트는 데이터 내의 상관 관계를 기반으로 결정을 내립니다. 그러나 이 모델링 방법은 모델이 지식, 행동 및 환경 사이의 인과 관계를 실제로 이해할 수 없게 하여 편향된 전략을 초래합니다. 이로 인해 실제 환경에서 해석 가능하고 강력하며 안정적인 방식으로 작동하기가 어렵습니다. 따라서 체화된 지능은 세계지식을 바탕으로 구동되어야 하며 자율적인 인과추론 능력을 갖추어야 한다.

(6)계속 학습하세요

. 로봇 공학 응용 분야에서 지속적인 학습은 다양한 환경에서 로봇 학습 전략을 배포하는 데 중요하지만 이 영역은 아직 충분히 탐구되지 않은 상태입니다. 최근 일부 연구에서는 증분 학습, 빠른 동작 적응, 인간-컴퓨터 상호 작용 학습과 같은 연속 학습의 하위 주제를 탐구했지만 이러한 솔루션은 일반적으로 단일 작업 또는 플랫폼용으로 설계되었으며 아직 기본 모델을 고려하지 않았습니다. 공개 연구 질문 및 가능한 접근 방식에는 다음이 포함됩니다. 1) 치명적인 망각을 완화하기 위해 최신 데이터를 미세 조정할 때 이전 데이터 분포의 다양한 비율을 혼합합니다. 2) 이전 배포에서 효율적인 프로토타입을 개발하거나 새로운 작업 추론 학습을 위한 과정을 개선합니다. 온라인 학습 알고리즘의 훈련 안정성 및 샘플 효율성, 4) 실시간 추론을 달성하기 위해 계층적 학습 또는 느리고 빠른 제어를 통해 대용량 모델을 제어 프레임워크에 원활하게 통합하기 위한 원칙적인 방법을 식별합니다.

(7)통합 평가 벤치마크

. 낮은 수준의 제어 전략을 평가하기 위한 많은 벤치마크가 있지만 평가 기술에서는 크게 다른 경우가 많습니다. 또한 이러한 벤치마크에 포함된 개체와 장면은 시뮬레이터에 국한된 경우가 많습니다. 구현된 모델을 완전히 평가하려면 현실적인 시뮬레이터를 사용하여 다양한 기술을 다루는 벤치마크가 필요합니다. 높은 수준의 작업 계획 측면에서 많은 벤치마크는 질문 및 답변 작업을 통해 계획 능력을 평가합니다.しかし、より理想的なアプローチは、計画立案者のみの評価にのみ依存するのではなく、特に長期ミッションの実行において、上位レベルのミッション計画立案者と下位レベルの管制戦略の実行能力を総合的に評価し、成功率を測定することである。この包括的なアプローチにより、組み込まれたインテリジェントシステムの機能のより包括的な評価が可能になります。

つまり、身体化知能は、知的エージェントがデジタル空間や物理世界のさまざまなオブジェクトを認識、認識し、相互作用できるようにするものであり、一般的な人工知能の実現におけるその重要性を示しています。このレビューは、身体化ロボット、身体化シミュレーションプラットフォーム、身体化知覚、身体化インタラクション、身体化エージェント、仮想現実ロボット制御、および身体化知能の開発促進に影響を与える将来の研究の方向性についての包括的なレビューを提供します。

彭城研究所のマルチエージェント・身体性知能研究所について

彭城研究所に所属するマルチエージェント・身体性知能研究所には、知能科学とロボット工学の数十人の専門家が集まっています。この分野の科学者は、Pengcheng Cloud Brain や China Computing Network などの独立して制御可能な AI インフラストラクチャに依存し、マルチエージェントコラボレーションおよびシミュレーショントレーニングプラットフォーム、クラウド協調的な具体化されたマルチモーダル大規模モデル、およびその他の一般的な基本プラットフォームを構築して、IT を強化することに取り組んでいます。産業用インターネット、社会的ガバナンス、サービスなどの主要なアプリケーションのニーズを満たすことができます。

以上が世界初！彭城研究所とCUHKは400近くの文書を調査し、身体化された知能を深く分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。