베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.-일체 포함-php.cn

멀티모달 시대에는 대형 모형도 드론 조종이 가능해요!

비전 모듈이 시작 조건을 캡처하면 대형 모델의 "두뇌"가 동작 명령을 생성하고 드론이 이를 빠르고 정확하게 실행할 수 있습니다.

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

베이징 항공 우주 대학교 지능형 드론 팀 Zhou Yaoming 교수가 이끄는 연구원들은 다중 모드 대형 모델을 기반으로 한 구체화된 에이전트 아키텍처를 제안했습니다

현재 이 구조는 드론을 제어하는 데 사용되었습니다

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

이 새로운 에이전트는 어떻게 작동하며 그 특성은 무엇입니까? 기술적 세부 사항?

"에이전트는 두뇌입니다"

연구팀은 대형 모델을 사용하여 다중 모드 데이터를 이해하고 실제 물리적 세계의 사진, 소리, 센서 데이터 및 기타 정보와 같은 다중 소스 정보를 통합하여 에이전트가 다음을 수행할 수 있도록 합니다. 주변 환경을 인식하고 이에 상응하는 행동 작업을 수행합니다

동시에 팀은 "Agent as Cerebrum, Controller as Cerebellum" 세트를 제안했습니다. (에이전트는 뇌, 컨트롤러는 소뇌) 제어 아키텍처:

뇌가 생성된 프로세서인 에이전트의 의사 결정 과정은 높은 수준의 행동을 생성하는 데 중점을 둡니다. 재작성된 문장: 에이전트는 뇌의 결정 생성기로서 높은 수준의 행동을 생성하는 데 중점을 둡니다

소뇌의 모션 컨트롤러로서 컨트롤러의 주요 책임은 높은 수준의 행동(예: 예상 목표 지점)을 낮은 수준의 시스템으로 변환하는 것입니다. 명령 (로터 속도 등)

구체적으로 연구팀은 이번 성과에 세 가지 주요 기여가 있다고 믿습니다.

실제 상황에 적용되는 새로운 시스템 아키텍처

연구팀은 실제 로봇에 적용할 수 있는 새로운 시스템 아키텍처를 제안했습니다. 이 아키텍처는 다중 모드 대형 모델을 기반으로 하는 지능형 에이전트를 뇌

로 구현하는 반면, 로봇 모션 플래너와 컨트롤러는 소뇌로 구현됩니다. 로봇의 액추에이터는 인간의 손과 같은 액추에이터와 유사합니다.

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

Δ 그림 1 하드웨어 시스템 아키텍처

이러한 노드는 ROS를 통해 연결되며 ROS의 메시지 구독 및 게시 또는 서비스의 요청 및 응답을 통해 통신하며 이는 기존 엔드 투 엔드와 다릅니다. 로봇 대형 모델 제어.

이 아키텍처를 통해 에이전트는 높은 수준의 명령 생성에 집중하고, 높은 수준의 작업에 대해 더 강력한 지능을 가지며, 실제 실행에 대해 더 나은 견고성과 안정성을 가질 수 있습니다.

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

다시 작성해야 하는 내용은 다음과 같습니다. △그림 2 소프트웨어 시스템 아키텍처 재작성된 내용: 소프트웨어 시스템 아키텍처는 그림 2에 나와 있습니다.

New Agent

이 아키텍처에서 저자는 두뇌 역할을 하는 지능형 에이전트인 AeroAgent를 구축했습니다.

에이전트는 주로 세 부분으로 구성됩니다.

자동 계획 생성 모듈로 다중 모달 인식 및 모니터링 기능이 있으며 대기 모드에서 긴급 상황 처리에 능숙합니다.
다중 모달 메모리 검색 및 반영에 사용할 수 있는 다중 모달 데이터 메모리 모듈로, 에이전트가 적은 샘플로 학습할 수 있는 기능을 제공합니다.
내장형 지능형 동작 모듈은 ROS의 내장형 지능과 다른 모듈 간의 안정적인 제어를 위한 브리지를 설정할 수 있습니다. 이 모듈은 작업을 브리지로 사용하여 ROS의 다른 노드에 액세스할 수 있는 기능을 제공합니다.

동시에 에이전트가 포괄적인 상황 인식과 액츄에이터를 기반으로 특정 동작을 안정적으로 출력할 수 있도록 동작을 수행하는 데 필요한 매개 변수를 센서에서 가져오는 여러 상호 작용이 필요할 수 있습니다. 보유하고 있습니다

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

다시 작성해야 하는 내용은 다음과 같습니다. △그림 3 AeroAgent 모듈 아키텍처 재작성된 내용: △그림 3 AeroAgent 모듈 아키텍처 설계

대형 모델과 ROS를 연결하는 브리지

구현된 에이전트와 ROS 로봇 시스템 사이에 브리지를 구축하여 Agent가 생성하는 작업이 정확하고 안정적으로 이루어질 수 있도록 함 ROS로 전송된 정보는 다른 노드에서 성공적으로 실행되며, 동시에 다른 노드에서 제공한 정보는 LMM에서 읽고 이해할 수 있습니다. ROSchain 팀은

LLM/LMM을 ROS와 연결하는 브리지

ROSchain이 모듈 세트 및 API(응용 프로그램 인터페이스)는 대형 모델과 로봇 감지 장치, 실행 장치 및 제어 메커니즘의 통합을 단순화하여 지능형 에이전트가 ROS 시스템에 액세스할 수 있는 안정적인 미들웨어를 제공합니다.

드론을 선택하는 이유

연구팀은 이 시스템 아키텍처의 테스트 및 시뮬레이션을 수행하기 위해 드론을 선택한 이유를 세 가지 이유를 제시했습니다.

첫 번째, 오늘날 LMM에 포함된 웹 규모 세계 지식은 대부분 3번째- 사람 관점 휴머노이드 로봇과 같은 분야의 체화된 지능은 인간을 주체로 하는 1인칭 관점과 유사합니다.

드론에 장착된 카메라, 특히 하향 카메라는 유기체 지능에 대한 3인칭 관점(신의 관점)에 가깝습니다

한편, 현재의 LMM은 모델 배포든 API 서비스든, 일반적으로 컴퓨팅 리소스에 의해 제한되어 응답이 특정 지연됩니다.

UAV 임무 계획은 호버링 능력과 지연 대처 능력에 기인하며, 이는 자율 주행과 같은 분야의 적용 장애물입니다.

이 두 가지 점 모두 UAV를 현재 기술 개발 수준에서 선구자로 적합하게 만듭니다. .관련 이론 및 응용의 검증.

둘째 현재 산불구조, 농업, 임업 및 식물보호, 무인방목, 전력점검 등 산업용 드론 분야에서 조종사와 전문가가 협력하여 실제 운용, 지능형 업무실행 산업적 특성이 필요합니다.

셋째, 미래 개발의 관점에서 볼 때 다중 에이전트 협업은 물류, 건설, 공장 및 기타 분야에서 분명한 필요성을 가지고 있습니다.

이 분야에서 드론은 "신의 관점"에서 구현된 지능으로서 작업을 할당하는 중앙 노드의 리더로 적합합니다. 따라서 이는 드론의 액추에이터의 일부로 간주될 수 있습니다. 연구는 또한 미래의 발전 전망을 가지고 있습니다.

팀은 airgen의 에뮬레이터를 사용하여 시뮬레이션 실험을 진행했으며, 대조군으로는 DRL 등의 방법을 선택했습니다. 실험 결과는 다음과 같습니다.

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

산불 수색 및 구조 시나리오에서 AeroAgent는 LLM 또는 DRL을 호출하는 동안에도 표준화 점수에서 100점이라는 우수한 점수를 얻었으며, 단계당 평균 2.04점을 기록했습니다.

기반 에이전트는 단계당 평균 0.2점으로 AeroAgent의 10분의 1에도 못 미치는 29.4점만을 기록했습니다.

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

다시 작성해야 할 내용은 다음과 같습니다. △그림 4-1, 산불 구조 장면

착륙 과제에서도 AeroAgent는 총점 97.4점, 단계당 평균 점수 1점으로 다른 모델을 능가했습니다. 48.7.

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

다시 작성해야 할 내용은 다음과 같습니다. △그림 4-2 바다 에이프런 착륙 장면

풍력 터빈 검사 테스트에서 AeroAgent가 직접 작업을 완료할 수 있는 유일한 모델이 되었습니다.

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

Δ 그림 4-3 풍력 터빈 검사 장면

항법 작업에서 AeroAgent 4.44의 각 단계 점수는 DRL과 순수 LLM의 각각 40배, 거의 10배입니다

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

내용은 다음과 같습니다. △그림 4-4 Airgen 시뮬레이션 실험

팀은 또한 사례 연구를 수행하기 위해 간단한 갇힌 사람 유도 실험을 예로 사용하여 실제 시나리오에서 UAV 시스템을 테스트했습니다.

베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.

다시 작성해야 할 내용은 다음과 같습니다. △ 그림 5 갇힌 사람들을 유도하는 사례 실험

팀은 현재 이 작업을 기반으로 고원 야크 목초지에서 무인 방목 지능형 드론에 대한 실험을 수행하여 가능성을 탐색하고 있습니다. 다른 로봇/멀티 로봇 협업과의 "지능 구현"을 목표로 실제 적용을 탐구할 것입니다.

논문 주소: https://arxiv.org/abs/2311.15033

위 내용은 베이항대학교 팀은 대형 드론의 제어를 실현하기 위해 구현된 지능의 새로운 아키텍처를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!