Xi Xiaoyao Technology Talk 원본
작성자 | IQ가 곳곳에서 떨어졌습니다
최근 많은 팀이 사용자 친화적인 ChatGPT를 기반으로 재창조했으며 그 중 많은 팀이 뛰어난 결과를 얻었습니다. InternChat 작업은 다중 모드 작업을 위해 언어(커서 및 제스처)를 넘어서는 방식으로 챗봇과 상호 작용함으로써 사용자 친화성을 강조합니다. InternChat의 이름도 흥미롭습니다. 이는 상호작용, 비언어적, 챗봇을 의미합니다. 순수 언어에만 의존하는 기존의 대화형 시스템과 달리 iChat은 포인팅 지침을 추가하여 사용자와 챗봇 간의 의사소통 효율성을 크게 향상시킵니다. 또한 저자는 캡처 및 시각적 질문 답변을 수행할 수 있고 단 70억 개의 매개변수만으로 GPT-3.5-turbo를 감동시킬 수 있는 Husky라는 대규모 시각적 언어 모델도 제공합니다.
하지만 데모 웹사이트의 인기로 인해 팀에서는 공식적으로 체험 페이지를 일시적으로 폐쇄했습니다. 먼저 아래 영상을 통해 이 작업의 내용을 이해해 보세요~
논문 제목:
InternChat: Solving Vision-Centric Tasks by 언어를 뛰어넘는 챗봇과의 상호작용
문서 링크:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1
데모 주소:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff 2de52435
프로젝트 주소:
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b
저자는 프로젝트 홈페이지에 일부 작업 스크린샷을 제공하여 일부 기능과 효과를 직관적으로 확인할 수 있습니다. 이 대화형 시스템은 다음과 같습니다.
(a) 가려진 개체 제거
(b) 대화형 이미지 편집
(c) 이미지 생성
(d) 대화형 시각적 질문 및 답변
( e) 대화형 이미지 생성
(f) 비디오 하이라이트 설명
여기서 먼저 이 문서에서 언급된 두 가지 개념을 소개합니다.
▲ 그림 1 iChat의 전체 아키텍처
iChat은 포인팅 및 언어 명령의 장점을 결합하여 비전 중심 작업을 수행합니다. 그림 1에 표시된 것처럼 이 시스템은 3가지 주요 구성 요소로 구성됩니다.
따라서 그림 2에 표시된 것처럼 순수 언어 시스템이 작업을 완료할 수 없는 경우에도 시스템은 복잡한 대화형 작업을 성공적으로 수행할 수 있습니다.
▲ 그림 2 언어 기반 대화형 시스템의 장점 지적
먼저 대화형 시스템의 의사소통 효과를 높이기 위해 언어적 지시와 비언어적 지시를 결합하는 방법을 살펴보겠습니다. 순수 언어 지침과 비교하여 이 하이브리드 모델의 장점을 입증하기 위해 연구팀은 사용자 설문 조사를 실시했습니다. 참가자들은 Visual ChatGPT와 iChat을 이용하여 채팅을 하고 이를 사용하면서 느낀 점을 피드백했습니다. 표 1과 2의 결과는 iChat이 Visual ChatGPT보다 더 효율적이고 사용자 친화적이라는 것을 보여줍니다.
▲표 1 "무언가 제거"에 대한 사용자 설문 조사
▲표 2 "무언가로 대체"에 대한 사용자 설문 조사
그러나 이 시스템에는 여전히 몇 가지 문제가 있습니다. :
프로젝트 홈페이지에 나열된 계획 목록에는 아직 달성하지 못한 몇 가지 목표가 있습니다. 그 중에는 현재 새로운 대화 시스템에서 편집자가 매번 경험해야 하는 중국어 상호 작용이 있습니다. 아직은 지원하지 말아야 할 것 같은데, 중국어 문제가 있는 것 같은데, 대부분의 다중 모달 데이터 세트가 영어를 기반으로 하기 때문에 영어-중국어 번역은 온라인 리소스와 처리 시간을 낭비하는 것으로 추정됩니다. 중국어화에는 아직 시간이 좀 걸릴 것이다.
위 내용은 프롬프트는 더 이상 필요하지 않습니다. iChat을 사용하여 다중 모드 대화 시스템을 플레이할 수 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!