기술 주변기기 일체 포함 로봇에 Gemini 1.5 Pro가 설치되어 있으며, 회사 방문 후 컨시어지 및 안내 서비스를 제공할 수 있습니다.

로봇에 Gemini 1.5 Pro가 설치되어 있으며, 회사 방문 후 컨시어지 및 안내 서비스를 제공할 수 있습니다.

Jul 17, 2024 am 05:58 AM
산업

긴 맥락의 대형 모델은 로봇이 세상을 이해하는 데 도움이 됩니다.

최근 Google DeepMind가 갑자기 로봇을 선보이기 시작했습니다.

Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

이 로봇은 쉽게 인간의 지시를 따르고, 시각적 탐색을 수행하고, 상식적인 추론을 사용하여 3차원 공간에서 경로를 찾을 수 있습니다.

Google이 최근 출시한 대형 모델인 Gemini 1.5 Pro를 사용합니다. 기존 AI 모델을 사용할 때 로봇은 컨텍스트 길이 제한으로 인해 환경 세부 정보를 기억하는 데 어려움을 겪는 경우가 많지만 Gemini 1.5 Pro의 백만 수준 토큰 컨텍스트 길이는 로봇에게 강력한 환경 메모리 기능을 제공합니다.

실제 사무실 시나리오에서 엔지니어는 로봇을 특정 영역으로 안내하고 "루이스의 책상" 또는 "임시 책상 영역"과 같이 호출해야 하는 주요 위치를 표시합니다. 원을 완성한 후 누군가 요청하면 로봇은 이러한 기억을 바탕으로 해당 위치로 그를 데려갈 수 있습니다. Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路가고 싶은 장소를 구체적으로 말할 수 없더라도 목적만 표현하면 로봇이 해당 장소까지 데려다줍니다. 이는 로봇의 대형 모델의 추론 능력을 구체적으로 표현한 것입니다. Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
이 모든 것은 Mobility VLA라는 탐색 전략과 분리될 수 없습니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
  • 논문 제목: Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
  • 논문 링크: https://arxiv.org/pdf/2407.07775v1

DeepMind는 이 작업이 인간과 컴퓨터 상호 작용의 다음 단계를 나타낸다고 말합니다. 앞으로는 사용자들이 스마트폰으로 간편하게 환경 투어를 촬영할 수 있게 될 것입니다. 비디오를 시청한 후 개인 로봇 비서는 환경을 이해하고 탐색할 수 있었습니다.

이동성 VLA: 긴 컨텍스트 VLM 및 토폴로지 맵을 사용한 다중 모드 명령 탐색

AI 기술의 지속적인 발전으로 로봇 탐색은 큰 발전을 이루었습니다. 초기 작업은 미리 그려진 환경에서 사용자가 물리적 좌표를 지정하는 데 의존했습니다. ObjNav(객체 목표 탐색) 및 VLN(시각적 언어 탐색)은 사용자가 개방형 어휘 언어를 사용하여 "소파로 이동"과 같은 탐색 목표를 정의할 수 있게 해주기 때문에 로봇 유용성에 있어서 큰 도약입니다.

로봇을 일상생활에서 정말 유용하고 유비쿼터스하게 만들기 위해 Google DeepMind의 연구원들은 ObjNav 및 VLN의 자연어 공간을 다중 모달 공간으로 업그레이드할 것을 제안했습니다. 동시에 또 다른 도약을 위한 언어적, 시각적 명령. 예를 들어, 건물에 익숙하지 않은 사람이 플라스틱 상자를 들고 "이것을 어디에 반납해야 합니까?"라고 물으면 로봇은 언어적, 시각적 맥락에 따라 사용자에게 상자를 선반에 반납하도록 안내합니다. 그들은 이러한 유형의 탐색 작업을 다중 모드 표시 탐색(MIN)이라고 부릅니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
MIN은 환경 탐사 및 명령 안내 탐색을 포함하는 광범위한 임무입니다. 하지만 많은 경우 시연 투어 비디오를 활용하여 둘러볼 수 있습니다. 시연 투어에는 여러 가지 이점이 있습니다.

  1. 수집 용이성: 사용자는 로봇을 원격으로 제어하거나 주변을 돌아다니는 동안 스마트폰으로 비디오를 녹화할 수 있습니다. 또한 투어를 만드는 데 사용할 수 있는 탐색 알고리즘이 있습니다.
  2. 사용자의 습관에 맞춰집니다. 사용자가 새 홈 로봇을 구입하면 자연스럽게 집 주변으로 로봇을 데리고 다니며 방문하는 동안 관심 있는 장소를 구두로 소개할 수 있습니다.
  3. 보안 및 개인 정보 보호를 위해 로봇 활동을 미리 설정된 영역으로 제한하는 것이 바람직한 경우도 있습니다. 이를 위해 저자는 본 논문에서 이러한 유형의 작업, 즉 데모 투어를 활용하고 사용자의 다중 모드 명령을 만족시키는 데 중점을 둔 "Multimodal Instruction Tour Navigation (MINT)"을 소개하고 연구합니다.

최근 대규모 시각적 언어 모델(VLM)은 구현의 핵심 요소인 상식적 추론뿐만 아니라 언어 및 이미지 이해의 인상적인 기능 덕분에 MINT 문제를 해결하는 데 큰 잠재력을 보여주었습니다. 민트.그러나 VLM만으로는 다음과 같은 이유로 MINT 문제를 해결하기 어렵습니다.

  1. 컨텍스트 길이 제약으로 인해 많은 VLM은 입력 이미지 수가 매우 제한되어 있어 환경 이해의 충실도가 크게 제한됩니다. 환경.
  2. MINT 문제를 해결하려면 로봇의 행동을 계산해야 합니다. 이러한 로봇 작업을 요청하는 쿼리는 VLM이 (사전) 훈련된 내용과 일치하지 않는 경우가 많습니다. 따라서 로봇의 제로 샘플 성능은 종종 만족스럽지 않습니다.

MINT 문제를 해결하기 위해 DeepMind는 계층화된 VLA(Vision-Language-Action) 탐색 전략인 Mobility VLA를 제안했습니다. 이는 긴 컨텍스트 VLM의 환경 이해 및 상식 추론 기능을 토폴로지 그래프를 기반으로 하는 강력한 하위 수준 탐색 전략과 결합합니다.

구체적으로, 높은 수준의 VLM은 데모 투어 비디오와 다중 모달 사용자 지침을 사용하여 투어 비디오에서 대상 프레임을 찾습니다. 다음으로, 고전적인 하위 수준 전략은 대상 프레임과 토폴로지 맵(투어 프레임에서 오프라인으로 구성됨)을 사용하여 각 시간 단계에서 로봇 동작(웨이포인트)을 생성합니다. 긴 컨텍스트 VLM을 사용하면 환경 이해의 충실도 문제가 해결되고, 토폴로지 맵은 VLM의 훈련 분포와 MINT를 해결하는 데 필요한 로봇 동작 간의 격차를 해소합니다.

저자는 실제(836m2) 사무실 및 집과 같은 환경에서 모바일 VLA를 평가했습니다. Mobility VLA는 복잡한 추론(예: "공개적으로 볼 수 없는 것을 저장하고 싶습니다. 어디로 가야 하나요?") 및 다중 모드 사용자 지침과 관련된 이전에는 달성할 수 없었던 MINT 작업에서 86% 및 90%를 달성했습니다. 기본 방법보다 각각 높습니다).

저자는 또한 로봇과의 사용자 상호 작용 편의성이 크게 향상되었음을 보여주었습니다. 사용자는 스마트폰을 사용하여 가정 환경에서 내레이션 비디오 투어를 수행한 다음 "내 코스터는 어디에 있습니까?"라고 물을 수 있습니다.

기술 세부정보

Mobilit VLA는 온라인 및 오프라인 부분을 포함하는 계층화된 탐색 전략(그림 1 참조)입니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
오프라인 단계에서는 데모 투어(N, F)를 기반으로 토폴로지 맵 G가 생성됩니다. 온라인 단계에서 상위 전략은 데모 투어와 멀티모달 사용자 명령(d,I)을 통해 탐색 대상 프레임 인덱스 g를 찾습니다. 이는 투어의 특정 프레임에 해당하는 정수입니다. 다음 단계에서 하위 수준 전략은 토폴로지 맵, 현재 카메라 관찰 데이터(O) 및 g를 사용하여 로봇이 실행할 각 시간 단계에서 웨이포인트 동작(a)을 생성합니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
여기서 h와 l은 각각 높은 수준의 전략과 낮은 수준의 전략을 나타냅니다.

데모 투어 및 오프라인 토폴로지 맵 생성

Mobility VLA는 환경 데모 투어를 활용하여 MINT 문제를 해결합니다. 이러한 투어는 사용자가 원격으로 수행할 수도 있고 주변을 돌아다니는 동안 스마트폰으로 비디오를 녹화할 수도 있습니다.

그런 다음 Mobility VLA 오프라인은 토폴로지 그래프 G = (V, E)를 구성합니다. 여기서 각 정점 v_i∈V는 데모 투어 비디오(F, N)의 프레임 f_i에 해당합니다. 저자는 기성 모션 파이프라인인 COLMAP을 사용하여 각 프레임에 대한 대략적인 6-DOF 카메라 포즈를 결정하고 이를 정점에 저장했습니다. 다음으로, 대상 정점이 소스 정점의 "앞"(소스 정점과의 자세 차이가 90도 미만)이고 2m 이내인 경우 방향이 있는 가장자리가 G에 추가됩니다.

기존 내비게이션 파이프라인(예: 환경 매핑, 통과 가능한 영역 식별, PRM 구축)과 비교할 때 토폴로지 맵 접근 방식은 투어 궤적을 기반으로 환경의 일반적인 연결을 포착하므로 훨씬 간단합니다. .

장문맥 다중 모드 VLM을 기반으로 한 상위 수준 목표 찾기

온라인 실행 중에 상위 수준 전략은 VLM의 상식 추론 능력을 활용하여 탐색 대상을 결정합니다. 다양한 다중 모드, 구어체, 종종 모호한 사용자 지침을 충족하기 위한 데모 투어입니다. 이를 위해 연구자는 인터레이스된 텍스트와 이미지로 구성된 프롬프트 P(F, N, d, I)를 준비했습니다. 다음은 표 1의 질문인 "이것을 어디에 반환해야 합니까?"에 해당하는 다중 모드 사용자 명령의 구체적인 예입니다.
You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?
로그인 후 복사
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
VLM 정수 대상 프레임 인덱스 g를 반환합니다.

하위 수준 목표를 달성하기 위해 토폴로지 맵 활용

상위 수준 전략이 대상 프레임 인덱스 g를 결정하면 하위 수준 전략(알고리즘 1)이 해당 작업을 대신하여 수행합니다. 각 시간 단계의 작업 웨이포인트 동작(공식 1)을 생성합니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
각 시간 단계에서 저자는 실시간 계층적 시각적 위치 파악 시스템을 사용하여 현재 카메라 관찰 O(5행)를 사용하여 로봇의 자세 T와 가장 가까운 시작 정점 v_s∈G를 추정합니다. 위치 파악 시스템은 전역 설명자를 통해 G에서 가장 가까운 k개의 후보 프레임을 찾은 다음 PnP를 통해 T를 계산합니다. 다음으로 v_s와 목표 정점 v_g(g에 해당하는 정점) 사이의 위상 그래프에서 최단 경로 S가 Dijkstra 알고리즘(9행)에 의해 결정됩니다. 마지막으로, 하위 수준 정책은 T를 기준으로 S에 있는 다음 정점 v_1의 Δx, Δy, Δθ인 웨이포인트 동작을 반환합니다(라인 10).

실험 결과

Mobility VLA의 성능을 입증하고 핵심 설계를 더 깊이 이해하기 위해 저자는 다음 연구 질문에 답하기 위한 실험을 설계했습니다.

  • 질문 1: In 현실 세계에서는 Mobility VLA가 MINT에서 잘 작동합니까?
  • 질문 2: 긴 컨텍스트 VLM 사용으로 인해 Mobility VLA가 대안보다 성능이 뛰어납니까?
  • 질문 3: 토폴로지 맵이 필요합니까? VLM이 직접 작업을 생성할 수 있나요?

Mobility VLA는 실제 환경에서 강력한 엔드 투 엔드 성능을 제공합니다.

1. 높은 엔드 투 엔드 성공률. 표 2는 Mobility VLA가 이전에는 실행 불가능했던 "추론 요구 사항" 및 "다중 모드" 명령을 포함하여 대부분의 사용자 명령 범주에서 높은 엔드투엔드 탐색 성공률을 달성했음을 보여줍니다.

2. 강력한 하위 목표가 달성되었습니다. 표 2는 또한 Mobility VLA의 하위 수준 목표 달성 전략의 실제 견고성(100% 성공률)을 보여줍니다. 포함된 시연 투어는 실험이 시작되기 몇 달 전, 많은 물체, 가구 및 조명 조건이 달랐을 때 녹화되었습니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
긴 컨텍스트 VLM은 고급 대상 찾기에서 대안보다 성능이 뛰어납니다.

1. 이동성 VLA는 대안보다 성능이 뛰어납니다. 표 3은 Mobility VLA의 상위 목표 발견 성공률이 비교 방법에 비해 상당히 높다는 것을 보여줍니다. 낮은 수준의 성공률이 100%라고 가정할 때, 이 높은 수준의 목표 조회 성공률은 엔드투엔드 성공률을 나타냅니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
2. 긴 컨텍스트 VLM을 사용하여 높은 프레임 속도의 투어 비디오를 처리하는 것이 성공의 열쇠입니다. 긴 컨텍스트가 아닌 VLM에 대규모 환경의 전체 데모 투어를 입력하는 것은 각 이미지에 수백 개의 토큰 예산이 필요하기 때문에 어렵습니다. 입력 토큰 수를 줄이는 한 가지 솔루션은 중간 프레임이 손실되는 대신 투어 비디오 프레임 속도를 낮추는 것입니다. 표 4는 투어 프레임 속도가 감소함에 따라 상위 목표 조회 성공률도 감소함을 보여줍니다. 프레임 속도가 낮은 투어 비디오는 때때로 탐색 대상 프레임을 잃기 때문에 이는 놀라운 일이 아닙니다. 또한 최첨단 VLM을 비교할 때 최대 100만 개의 토큰의 컨텍스트 길이 덕분에 Gemini 1.5 Pro만이 만족스러운 성공률을 보입니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
토폴로지 맵은 성공의 열쇠입니다

표 5는 신속한 VLM 직접 출력 웨이포인트 작동과 비교하여 시뮬레이션에서 Mobility VLA의 엔드투엔드 성능을 보여줍니다. 0%의 엔드 투 엔드 성공률은 Gemini 1.5 Pro가 토폴로지 맵 없이 로봇의 제로 샷 탐색을 달성할 수 없음을 보여줍니다. 실험을 바탕으로 저자는 Gemini가 현재 카메라 관찰에 관계없이 거의 항상 "앞으로 이동" 웨이포인트 동작을 출력한다는 사실을 발견했습니다. 또한 현재 Gemini 1.5 API는 모든 추론 호출에서 948개의 투어 이미지를 모두 업로드해야 하므로 로봇이 이동하는 1미터당 26초의 런타임이 소요됩니다. 반면, Mobility VLA의 상위 수준 VLM은 대상 인덱스를 찾는 데 10~30초가 소요되며, 로봇은 하위 수준 토폴로지 맵을 사용하여 대상을 탐색하므로 매우 강력하고 효율적입니다(0.19). 단계당 초) 시스템을 사용하여 MINT 문제를 해결합니다.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
자세한 내용은 원문을 참고해주세요.

위 내용은 로봇에 Gemini 1.5 Pro가 설치되어 있으며, 회사 방문 후 컨시어지 및 안내 서비스를 제공할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

딥마인드 로봇이 탁구를 치는데 포핸드와 백핸드가 공중으로 미끄러져 인간 초보자를 완전히 제압했다. 딥마인드 로봇이 탁구를 치는데 포핸드와 백핸드가 공중으로 미끄러져 인간 초보자를 완전히 제압했다. Aug 09, 2024 pm 04:01 PM

하지만 공원에 있는 노인을 이길 수는 없을까요? 파리올림픽이 본격화되면서 탁구가 많은 주목을 받고 있다. 동시에 로봇은 탁구 경기에서도 새로운 돌파구를 마련했습니다. 방금 DeepMind는 탁구 경기에서 인간 아마추어 선수 수준에 도달할 수 있는 최초의 학습 로봇 에이전트를 제안했습니다. 논문 주소: https://arxiv.org/pdf/2408.03906 DeepMind 로봇은 탁구를 얼마나 잘 치나요? 아마도 인간 아마추어 선수들과 동등할 것입니다: 포핸드와 백핸드 모두: 상대는 다양한 플레이 스타일을 사용하고 로봇도 견딜 수 있습니다: 다양한 스핀으로 서브를 받습니다. 그러나 게임의 강도는 그만큼 강렬하지 않은 것 같습니다. 공원에 있는 노인. 로봇용, 탁구용

최초의 기계식 발톱! Yuanluobao는 2024년 세계 로봇 회의에 등장하여 집에 들어갈 수 있는 최초의 체스 로봇을 출시했습니다. 최초의 기계식 발톱! Yuanluobao는 2024년 세계 로봇 회의에 등장하여 집에 들어갈 수 있는 최초의 체스 로봇을 출시했습니다. Aug 21, 2024 pm 07:33 PM

8월 21일, 2024년 세계로봇대회가 베이징에서 성대하게 개최되었습니다. SenseTime의 홈 로봇 브랜드 "Yuanluobot SenseRobot"은 전체 제품군을 공개했으며, 최근에는 Yuanluobot AI 체스 두는 로봇인 체스 프로페셔널 에디션(이하 "Yuanluobot SenseRobot")을 출시하여 세계 최초의 A 체스 로봇이 되었습니다. 집. Yuanluobo의 세 번째 체스 게임 로봇 제품인 새로운 Guoxiang 로봇은 AI 및 엔지니어링 기계 분야에서 수많은 특별한 기술 업그레이드와 혁신을 거쳤으며 처음으로 3차원 체스 말을 집는 능력을 실현했습니다. 가정용 로봇의 기계 발톱을 통해 체스 게임, 모두 체스 게임, 기보 복습 등과 같은 인간-기계 기능을 수행합니다.

클로드도 게으르게 됐어요! 네티즌 : 휴가를 보내는 법을 배우십시오 클로드도 게으르게 됐어요! 네티즌 : 휴가를 보내는 법을 배우십시오 Sep 02, 2024 pm 01:56 PM

개학이 코앞으로 다가왔습니다. 새 학기를 앞둔 학생들뿐만 아니라 대형 AI 모델도 스스로 관리해야 합니다. 얼마 전 레딧에는 클로드가 게으르다고 불평하는 네티즌들이 붐볐습니다. "레벨이 많이 떨어졌고, 자주 멈췄고, 심지어 출력도 매우 짧아졌습니다. 출시 첫 주에는 4페이지 전체 문서를 한 번에 번역할 수 있었지만 지금은 반 페이지도 출력하지 못합니다. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ "클로드에게 완전히 실망했습니다"라는 제목의 게시물에

세계로봇컨퍼런스에서 '미래 노인돌봄의 희망'을 담은 국산 로봇이 포위됐다. 세계로봇컨퍼런스에서 '미래 노인돌봄의 희망'을 담은 국산 로봇이 포위됐다. Aug 22, 2024 pm 10:35 PM

베이징에서 열린 세계로봇컨퍼런스에서는 휴머노이드 로봇의 전시가 현장의 절대 화두가 됐다. 스타더스트 인텔리전트 부스에서는 AI 로봇 어시스턴트 S1이 덜시머, 무술, 서예 3대 퍼포먼스를 선보였다. 문학과 무술을 모두 갖춘 하나의 전시 공간은 수많은 전문 관객과 미디어를 끌어 모았습니다. 탄력 있는 현의 우아한 연주를 통해 S1은 정밀한 작동과 속도, 힘, 정밀성을 갖춘 절대적인 제어력을 보여줍니다. CCTV 뉴스는 '서예'의 모방 학습 및 지능형 제어에 대한 특별 보도를 진행했습니다. 회사 설립자 Lai Jie는 부드러운 움직임 뒤에 하드웨어 측면이 최고의 힘 제어와 가장 인간과 유사한 신체 지표(속도, 하중)를 추구한다고 설명했습니다. 등)이지만 AI측에서는 사람의 실제 움직임 데이터를 수집해 로봇이 강한 상황에 직면했을 때 더욱 강해지고 빠르게 진화하는 방법을 학습할 수 있다. 그리고 민첩하다

ACL 2024 시상식 발표: HuaTech의 Oracle 해독에 관한 최고의 논문 중 하나, GloVe Time Test Award ACL 2024 시상식 발표: HuaTech의 Oracle 해독에 관한 최고의 논문 중 하나, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

참가자들은 이번 ACL 컨퍼런스에서 많은 것을 얻었습니다. ACL2024는 6일간 태국 방콕에서 개최됩니다. ACL은 전산언어학 및 자연어 처리 분야 최고의 국제학술대회로 국제전산언어학회(International Association for Computational Linguistics)가 주최하고 매년 개최된다. ACL은 NLP 분야에서 학술 영향력 1위를 항상 차지하고 있으며, CCF-A 추천 컨퍼런스이기도 합니다. 올해로 62회째를 맞이하는 ACL 컨퍼런스에는 NLP 분야의 최신 저서가 400편 이상 접수됐다. 어제 오후 컨퍼런스에서는 최우수 논문과 기타 상을 발표했습니다. 이번에 최우수논문상 7개(미출판 2개), 우수주제상 1개, 우수논문상 35개가 있다. 이 컨퍼런스에서는 또한 3개의 리소스 논문상(ResourceAward)과 사회적 영향상(Social Impact Award)을 수상했습니다.

Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다. Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다. Sep 03, 2024 pm 05:18 PM

비전과 로봇 학습의 긴밀한 통합. 최근 화제를 모으고 있는 1X 휴머노이드 로봇 네오(NEO)와 두 개의 로봇 손이 원활하게 협력해 옷 개기, 차 따르기, 신발 싸기 등을 하는 모습을 보면 마치 로봇 시대로 접어들고 있다는 느낌을 받을 수 있다. 실제로 이러한 부드러운 움직임은 첨단 로봇 기술 + 정교한 프레임 디자인 + 다중 모드 대형 모델의 산물입니다. 우리는 유용한 로봇이 종종 환경과 복잡하고 절묘한 상호작용을 요구한다는 것을 알고 있으며, 환경은 공간적, 시간적 영역에서 제약으로 표현될 수 있습니다. 예를 들어, 로봇이 차를 따르도록 하려면 먼저 로봇이 찻주전자 손잡이를 잡고 차를 흘리지 않고 똑바로 세운 다음, 주전자 입구와 컵 입구가 일치할 때까지 부드럽게 움직여야 합니다. 을 누른 다음 주전자를 특정 각도로 기울입니다. 이것

분산 인공지능 컨퍼런스 DAI 2024 Call for Papers: Agent Day, 강화학습의 아버지 Richard Sutton이 참석합니다! Yan Shuicheng, Sergey Levine 및 DeepMind 과학자들이 기조 연설을 할 예정입니다. 분산 인공지능 컨퍼런스 DAI 2024 Call for Papers: Agent Day, 강화학습의 아버지 Richard Sutton이 참석합니다! Yan Shuicheng, Sergey Levine 및 DeepMind 과학자들이 기조 연설을 할 예정입니다. Aug 22, 2024 pm 08:02 PM

컨퍼런스 소개 과학기술의 급속한 발전과 함께 인공지능은 사회 발전을 촉진하는 중요한 힘이 되었습니다. 이 시대에 우리는 분산인공지능(DAI)의 혁신과 적용을 목격하고 참여할 수 있어 행운입니다. 분산 인공지능(Distributed Artificial Intelligence)은 인공지능 분야의 중요한 한 분야로, 최근 몇 년간 점점 더 많은 주목을 받고 있습니다. 대규모 언어 모델(LLM) 기반 에이전트가 갑자기 등장했습니다. 대규모 모델의 강력한 언어 이해와 생성 기능을 결합하여 자연어 상호 작용, 지식 추론, 작업 계획 등에 큰 잠재력을 보여주었습니다. AIAgent는 빅 언어 모델을 이어받아 현재 AI계에서 화제가 되고 있습니다. 오

홍멍 스마트 트래블 S9과 풀시나리오 신제품 출시 컨퍼런스, 다수의 블록버스터 신제품이 함께 출시됐다 홍멍 스마트 트래블 S9과 풀시나리오 신제품 출시 컨퍼런스, 다수의 블록버스터 신제품이 함께 출시됐다 Aug 08, 2024 am 07:02 AM

오늘 오후 Hongmeng Zhixing은 공식적으로 새로운 브랜드와 신차를 환영했습니다. 8월 6일, Huawei는 Hongmeng Smart Xingxing S9 및 Huawei 전체 시나리오 신제품 출시 컨퍼런스를 개최하여 파노라마식 스마트 플래그십 세단 Xiangjie S9, 새로운 M7Pro 및 Huawei novaFlip, MatePad Pro 12.2인치, 새로운 MatePad Air, Huawei Bisheng을 선보였습니다. 레이저 프린터 X1 시리즈, FreeBuds6i, WATCHFIT3 및 스마트 스크린 S5Pro를 포함한 다양한 새로운 올-시나리오 스마트 제품, 스마트 여행, 스마트 오피스, 스마트 웨어에 이르기까지 화웨이는 풀 시나리오 스마트 생태계를 지속적으로 구축하여 소비자에게 스마트한 경험을 제공합니다. 만물인터넷. Hongmeng Zhixing: 스마트 자동차 산업의 업그레이드를 촉진하기 위한 심층적인 권한 부여 화웨이는 중국 자동차 산업 파트너와 손을 잡고

See all articles