프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!
Xi Xiaoyao Technology Talk 원본
작성자 | IQ가 곳곳에서 떨어졌습니다
최근 많은 팀이 사용자 친화적인 ChatGPT를 기반으로 재창조했으며 그 중 많은 팀이 뛰어난 결과를 얻었습니다. InternChat 작업은 다중 모드 작업을 위해 언어(커서 및 제스처)를 넘어서는 방식으로 챗봇과 상호 작용함으로써 사용자 친화성을 강조합니다. InternChat의 이름도 흥미롭습니다. 이는 상호작용, 비언어적, 챗봇을 의미합니다. 순수 언어에만 의존하는 기존의 대화형 시스템과 달리 iChat은 포인팅 지침을 추가하여 사용자와 챗봇 간의 의사소통 효율성을 크게 향상시킵니다. 또한 저자는 캡처 및 시각적 질문 답변을 수행할 수 있고 단 70억 개의 매개변수만으로 GPT-3.5-turbo를 감동시킬 수 있는 Husky라는 대규모 시각적 언어 모델도 제공합니다.
하지만 데모 웹사이트의 인기로 인해 팀에서는 공식적으로 체험 페이지를 일시적으로 폐쇄했습니다. 먼저 아래 영상을 통해 이 작업의 내용을 이해해 보세요~
논문 제목:
InternChat: Solving Vision-Centric Tasks by 언어를 뛰어넘는 챗봇과의 상호작용
문서 링크:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1
데모 주소:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff 2de52435
프로젝트 주소:
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b
시스템의 주요 기능
저자는 프로젝트 홈페이지에 일부 작업 스크린샷을 제공하여 일부 기능과 효과를 직관적으로 확인할 수 있습니다. 이 대화형 시스템은 다음과 같습니다.
(a) 가려진 개체 제거
(b) 대화형 이미지 편집
(c) 이미지 생성
(d) 대화형 시각적 질문 및 답변
( e) 대화형 이미지 생성
(f) 비디오 하이라이트 설명
Paper 개요
여기서 먼저 이 문서에서 언급된 두 가지 개념을 소개합니다.
- Vision- 중심 작업: 컴퓨터가 세상에서 보는 것을 이해하고 그에 따라 반응하기 위해서입니다.
- 비언어적 지시 형태의 의사소통: 커서나 몸짓과 같은 지시 동작.
▲ 그림 1 iChat의 전체 아키텍처
iChat은 포인팅 및 언어 명령의 장점을 결합하여 비전 중심 작업을 수행합니다. 그림 1에 표시된 것처럼 이 시스템은 3가지 주요 구성 요소로 구성됩니다.
- 이미지 또는 비디오의 포인팅 지침을 처리하는 인식 장치
- 언어 지침을 정확하게 구문 분석할 수 있는 보조 제어 메커니즘이 있는 LLM 컨트롤러; 다양한 온라인 모델, 사용자 교육을 받은 개인 모델, 기타 애플리케이션(예: 계산기, 검색 엔진)으로 구성된 오픈 월드 툴킷입니다.
- 다음과 같은 3가지 레벨에서 효과적으로 작동할 수 있습니다.
- 기본 상호작용
- 언어 기반 상호작용
- 포인트-언어 기반 상호작용.
따라서 그림 2에 표시된 것처럼 순수 언어 시스템이 작업을 완료할 수 없는 경우에도 시스템은 복잡한 대화형 작업을 성공적으로 수행할 수 있습니다.
▲ 그림 2 언어 기반 대화형 시스템의 장점 지적
실험
먼저 대화형 시스템의 의사소통 효과를 높이기 위해 언어적 지시와 비언어적 지시를 결합하는 방법을 살펴보겠습니다. 순수 언어 지침과 비교하여 이 하이브리드 모델의 장점을 입증하기 위해 연구팀은 사용자 설문 조사를 실시했습니다. 참가자들은 Visual ChatGPT와 iChat을 이용하여 채팅을 하고 이를 사용하면서 느낀 점을 피드백했습니다. 표 1과 2의 결과는 iChat이 Visual ChatGPT보다 더 효율적이고 사용자 친화적이라는 것을 보여줍니다.
▲표 1 "무언가 제거"에 대한 사용자 설문 조사
▲표 2 "무언가로 대체"에 대한 사용자 설문 조사
요약
그러나 이 시스템에는 여전히 몇 가지 문제가 있습니다. :
- iChat의 효율성은 기본 오픈 소스 모델의 품질과 정확성에 크게 좌우됩니다. 그러나 이러한 모델에는 iChat 성능에 부정적인 영향을 미치는 제한 사항이나 편견이 있을 수 있습니다.
- 사용자 상호 작용이 더욱 복잡해지거나 인스턴스 수가 증가함에 따라 시스템은 정확성과 응답 시간을 유지해야 하는데, 이는 iChat에 있어 어려울 수 있습니다.
- 또한 지침 데이터로 조정할 수 있는 기능이 부족한 등 현재 비전과 언어 기반 모델 간에 학습 가능한 협업이 부족합니다.
- iChat은 훈련 데이터 외부의 새롭거나 특이한 상황을 처리하는 데 어려움을 겪을 수 있으며 이로 인해 성능이 저하될 수 있습니다.
- 다양한 하드웨어 기능, 소프트웨어 제한, 접근성 요구 사항으로 인해 다양한 장치와 플랫폼에 걸쳐 원활한 통합을 달성하는 것이 어려울 수 있습니다.
프로젝트 홈페이지에 나열된 계획 목록에는 아직 달성하지 못한 몇 가지 목표가 있습니다. 그 중에는 현재 새로운 대화 시스템에서 편집자가 매번 경험해야 하는 중국어 상호 작용이 있습니다. 아직은 지원하지 말아야 할 것 같은데, 중국어 문제가 있는 것 같은데, 대부분의 다중 모달 데이터 세트가 영어를 기반으로 하기 때문에 영어-중국어 번역은 온라인 리소스와 처리 시간을 낭비하는 것으로 추정됩니다. 중국어화에는 아직 시간이 좀 걸릴 것이다.
위 내용은 프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Terraria에서 명령을 사용하여 아이템을 얻는 방법은 무엇입니까? 1. 테라리아에서 아이템을 주는 명령은 무엇인가요? 테라리아 게임에서 아이템에 명령을 내리는 것은 매우 실용적인 기능입니다. 이 명령을 통해 플레이어는 몬스터와 싸우거나 특정 위치로 순간이동할 필요 없이 필요한 아이템을 직접 얻을 수 있습니다. 이를 통해 시간을 크게 절약하고, 게임 효율성을 향상시키며, 플레이어가 세계를 탐험하고 건설하는 데 더 집중할 수 있습니다. 전반적으로 이 기능은 게임 경험을 더 부드럽고 즐겁게 만듭니다. 2. Terraria를 사용하여 아이템 명령을 내리는 방법 1. 게임을 열고 게임 인터페이스로 들어갑니다. 2. 키보드의 "Enter" 키를 눌러 채팅창을 엽니다. 3. 채팅창에 "/give[플레이어 이름][아이템 ID][아이템 수량]" 명령 형식을 입력하세요.

휴머노이드 로봇 아메카가 2세대로 업그레이드 되었습니다! 최근 세계이동통신학회(MWC2024)에서 세계 최고 수준의 로봇 아메카(Ameca)가 다시 등장했다. 행사장 주변에는 아메카가 많은 관중을 끌어 모았습니다. GPT-4의 축복으로 Ameca는 다양한 문제에 실시간으로 대응할 수 있습니다. "춤을 추자." 감정이 있느냐는 질문에 아메카는 매우 생생해 보이는 일련의 표정으로 대답했습니다. 불과 며칠 전, Ameca의 뒤를 잇는 영국 로봇 회사인 EngineeredArts는 팀의 최신 개발 결과를 시연했습니다. 영상 속 로봇 아메카는 시각 능력을 갖고 있어 방 전체와 특정 사물을 보고 묘사할 수 있다. 가장 놀라운 점은 그녀도 할 수 있다는 것입니다.

오늘 저는 시계열 예측 성능을 향상시키기 위해 잠재 공간에서 시계열 데이터를 대규모 자연어 처리(NLP) 모델과 정렬하는 방법을 제안하는 코네티컷 대학의 최근 연구 작업을 공유하고 싶습니다. 이 방법의 핵심은 잠재 공간 힌트(프롬프트)를 사용하여 시계열 예측의 정확성을 높이는 것입니다. 논문 제목: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting 다운로드 주소: https://arxiv.org/pdf/2403.05798v1.pdf 1. 큰 문제 배경 모델

산업자동화 기술 분야에서 최근 무시하기 어려운 두 핫스팟이 있는데 바로 인공지능(AI)과 엔비디아다. 원본 콘텐츠의 의미를 바꾸지 말고, 콘텐츠를 미세 조정하고, 콘텐츠를 다시 작성하고, 계속하지 마세요. “그뿐만 아니라 Nvidia가 원래 그래픽 처리 장치(GPU)에만 국한되지 않기 때문에 둘은 밀접하게 관련되어 있습니다. 엔비디아는 최근 GPU를 확장해 디지털 트윈 분야까지 확장하고 있으며, 최근 떠오르는 AI 기술과도 긴밀하게 연결돼 있다”고 말했다. Schneider Electric, Teradyne Robotics, MiR 및 Universal Robots 회사도 포함됩니다. 최근 엔비디아(Nvidia)는

이번 주, 오픈AI(OpenAI), 마이크로소프트(Microsoft), 베조스(Bezos), 엔비디아(Nvidia)가 투자한 로봇 회사인 FigureAI는 약 7억 달러의 자금 조달을 받았으며 내년 내에 독립적으로 걸을 수 있는 휴머노이드 로봇을 개발할 계획이라고 발표했습니다. 그리고 Tesla의 Optimus Prime은 계속해서 좋은 소식을 받았습니다. 올해가 휴머노이드 로봇이 폭발하는 해가 될 것이라는 데는 누구도 의심하지 않는다. 캐나다에 본사를 둔 로봇 회사인 SanctuaryAI는 최근 새로운 휴머노이드 로봇인 Phoenix를 출시했습니다. 관계자들은 이 로봇이 인간과 같은 속도로 자율적으로 많은 작업을 완료할 수 있다고 주장한다. 인간의 속도로 자동으로 작업을 완료할 수 있는 세계 최초의 로봇인 Pheonix는 각 물체를 부드럽게 잡고 움직이며 우아하게 왼쪽과 오른쪽에 배치할 수 있습니다. 자동으로 물체를 식별할 수 있습니다.

기계력 보고서 편집자: 우신(Wu Xin) 국내판 휴머노이드 로봇+대형 모델팀이 옷 접기 등 복잡하고 유연한 재료의 작업 작업을 처음으로 완료했습니다. OpenAI 멀티모달 대형 모델을 접목한 Figure01이 공개되면서 국내 동종업체들의 관련 진전이 주목받고 있다. 바로 어제, 중국의 "1위 휴머노이드 로봇 주식"인 UBTECH는 Baidu Wenxin의 대형 모델과 긴밀하게 통합되어 몇 가지 흥미로운 새로운 기능을 보여주는 휴머노이드 로봇 WalkerS의 첫 번째 데모를 출시했습니다. 이제 Baidu Wenxin의 대형 모델 역량을 활용한 WalkerS의 모습은 이렇습니다. Figure01과 마찬가지로 WalkerS는 움직이지 않고 책상 뒤에 서서 일련의 작업을 완료합니다. 인간의 명령을 따르고 옷을 접을 수 있습니다.

다음 10가지 휴머노이드 로봇이 우리의 미래를 형성하고 있습니다. 1. ASIMO: Honda가 개발한 ASIMO는 가장 잘 알려진 휴머노이드 로봇 중 하나입니다. 높이 4피트, 무게 119파운드의 ASIMO는 복잡한 환경을 탐색하고 인간과 상호 작용할 수 있는 고급 센서와 인공 지능 기능을 갖추고 있습니다. ASIMO의 다재다능함은 장애인 지원부터 이벤트 프레젠테이션 제공까지 다양한 작업에 적합합니다. 2. 페퍼(Pepper): 소프트뱅크 로보틱스가 만든 페퍼는 인간의 사회적 동반자가 되는 것을 목표로 한다. 표현력이 풍부한 얼굴과 감정을 인식하는 능력을 갖춘 Pepper는 대화에 참여하고, 소매업 환경을 돕고, 교육 지원도 제공할 수 있습니다. 피망

쓸고 닦는 로봇은 최근 소비자들 사이에서 가장 인기 있는 스마트 가전제품 중 하나입니다. 그것이 가져오는 조작의 편리함, 심지어 조작이 필요하지 않은 것만으로도 게으른 사람들이 손을 자유롭게 할 수 있게 되어 소비자는 일상적인 집안일에서 "해방"되고 위장된 형태로 삶의 질이 향상됩니다. 이러한 열풍에 힘입어 시중에 나와 있는 거의 모든 가전제품 브랜드가 자체적으로 청소, 물걸레 로봇을 제작하고 있어 전체 청소, 물걸레 로봇 시장이 매우 활발해지고 있습니다. 그러나 시장의 급속한 확장은 필연적으로 숨겨진 위험을 가져올 것입니다. 많은 제조업체가 더 많은 시장 점유율을 빠르게 점유하기 위해 바다의 전술을 사용할 것이며 결과적으로 업그레이드 포인트 없이 많은 신제품이 나올 것이라고도 합니다. '마트료시카' 모델이라고 해도 과언이 아닙니다. 그러나 모든 청소 및 걸레질 로봇이 그런 것은 아닙니다.
