> 기술 주변기기 > 일체 포함 > 프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

WBOY
풀어 주다: 2023-05-15 17:55:06
앞으로
1084명이 탐색했습니다.

Xi Xiaoyao Technology Talk 원본
작성자 | IQ가 곳곳에서 떨어졌습니다

최근 많은 팀이 사용자 친화적인 ChatGPT를 기반으로 재창조했으며 그 중 많은 팀이 뛰어난 결과를 얻었습니다. InternChat 작업은 다중 모드 작업을 위해 언어(커서 및 제스처)를 넘어서는 방식으로 챗봇과 상호 작용함으로써 사용자 친화성을 강조합니다. InternChat의 이름도 흥미롭습니다. 이는 상호작용, 비언어적, 챗봇을 의미합니다. 순수 언어에만 의존하는 기존의 대화형 시스템과 달리 iChat은 포인팅 지침을 추가하여 사용자와 챗봇 간의 의사소통 효율성을 크게 향상시킵니다. 또한 저자는 캡처 및 시각적 질문 답변을 수행할 수 있고 단 70억 개의 매개변수만으로 GPT-3.5-turbo를 감동시킬 수 있는 Husky라는 대규모 시각적 언어 모델도 제공합니다.

하지만 데모 웹사이트의 인기로 인해 팀에서는 공식적으로 체험 페이지를 일시적으로 폐쇄했습니다. 먼저 아래 영상을 통해 이 작업의 내용을 이해해 보세요~

논문 제목:
InternChat: Solving Vision-Centric Tasks by 언어를 뛰어넘는 챗봇과의 상호작용

문서 링크:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1

데모 주소:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff 2de52435

프로젝트 주소:
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b

시스템의 주요 기능

저자는 프로젝트 홈페이지에 일부 작업 스크린샷을 제공하여 일부 기능과 효과를 직관적으로 확인할 수 있습니다. 이 대화형 시스템은 다음과 같습니다.

(a) 가려진 개체 제거

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!


(b) 대화형 이미지 편집

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

(c) 이미지 생성

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

(d) 대화형 시각적 질문 및 답변

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

( e) 대화형 이미지 생성

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

(f) 비디오 하이라이트 설명

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

Paper 개요

여기서 먼저 이 문서에서 언급된 두 가지 개념을 소개합니다.

  • Vision- 중심 작업: 컴퓨터가 세상에서 보는 것을 이해하고 그에 따라 반응하기 위해서입니다.
  • 비언어적 지시 형태의 의사소통: 커서나 몸짓과 같은 지시 동작.

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

▲ 그림 1 iChat의 전체 아키텍처

iChat은 포인팅 및 언어 명령의 장점을 결합하여 비전 중심 작업을 수행합니다. 그림 1에 표시된 것처럼 이 시스템은 3가지 주요 구성 요소로 구성됩니다.

  1. 이미지 또는 비디오의 포인팅 지침을 처리하는 인식 장치
  2. 언어 지침을 정확하게 구문 분석할 수 있는 보조 제어 메커니즘이 있는 LLM 컨트롤러; 다양한 온라인 모델, 사용자 교육을 받은 개인 모델, 기타 애플리케이션(예: 계산기, 검색 엔진)으로 구성된 오픈 월드 툴킷입니다.
  3. 다음과 같은 3가지 레벨에서 효과적으로 작동할 수 있습니다.
  1. 기본 상호작용
  2. 언어 기반 상호작용
  3. 포인트-언어 기반 상호작용.

따라서 그림 2에 표시된 것처럼 순수 언어 시스템이 작업을 완료할 수 없는 경우에도 시스템은 복잡한 대화형 작업을 성공적으로 수행할 수 있습니다.

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

▲ 그림 2 언어 기반 대화형 시스템의 장점 지적

실험

먼저 대화형 시스템의 의사소통 효과를 높이기 위해 언어적 지시와 비언어적 지시를 결합하는 방법을 살펴보겠습니다. 순수 언어 지침과 비교하여 이 하이브리드 모델의 장점을 입증하기 위해 연구팀은 사용자 설문 조사를 실시했습니다. 참가자들은 Visual ChatGPT와 iChat을 이용하여 채팅을 하고 이를 사용하면서 느낀 점을 피드백했습니다. 표 1과 2의 결과는 iChat이 Visual ChatGPT보다 더 효율적이고 사용자 친화적이라는 것을 보여줍니다.

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

▲표 1 "무언가 제거"에 대한 사용자 설문 조사

프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!

▲표 2 "무언가로 대체"에 대한 사용자 설문 조사

요약

그러나 이 시스템에는 여전히 몇 가지 문제가 있습니다. :

  • iChat의 효율성은 기본 오픈 소스 모델의 품질과 정확성에 크게 좌우됩니다. 그러나 이러한 모델에는 iChat 성능에 부정적인 영향을 미치는 제한 사항이나 편견이 있을 수 있습니다.
  • 사용자 상호 작용이 더욱 복잡해지거나 인스턴스 수가 증가함에 따라 시스템은 정확성과 응답 시간을 유지해야 하는데, 이는 iChat에 있어 어려울 수 있습니다.
  • 또한 지침 데이터로 조정할 수 있는 기능이 부족한 등 현재 비전과 언어 기반 모델 간에 학습 가능한 협업이 부족합니다.
  • iChat은 훈련 데이터 외부의 새롭거나 특이한 상황을 처리하는 데 어려움을 겪을 수 있으며 이로 인해 성능이 저하될 수 있습니다.
  • 다양한 하드웨어 기능, 소프트웨어 제한, 접근성 요구 사항으로 인해 다양한 장치와 플랫폼에 걸쳐 원활한 통합을 달성하는 것이 어려울 수 있습니다.

프로젝트 홈페이지에 나열된 계획 목록에는 아직 달성하지 못한 몇 가지 목표가 있습니다. 그 중에는 현재 새로운 대화 시스템에서 편집자가 매번 경험해야 하는 중국어 상호 작용이 있습니다. 아직은 지원하지 말아야 할 것 같은데, 중국어 문제가 있는 것 같은데, 대부분의 다중 모달 데이터 세트가 영어를 기반으로 하기 때문에 영어-중국어 번역은 온라인 리소스와 처리 시간을 낭비하는 것으로 추정됩니다. 중국어화에는 아직 시간이 좀 걸릴 것이다.

위 내용은 프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿