> 기술 주변기기 > 일체 포함 > TaskMatrix.AI 해석

TaskMatrix.AI 해석

王林
풀어 주다: 2023-04-28 15:37:06
앞으로
1601명이 탐색했습니다.

ChatGPT는 광범위한 개방형 도메인 작업에 대해 매우 강력한 대화, 컨텍스트 학습 및 코드 생성 기능을 보여 주며, 획득한 상식 지식을 통해 도메인별 작업에 대한 높은 수준의 솔루션 요약을 생성할 수도 있습니다. 그러나 보다 강력한 학습, 이해 및 생성 기능 외에도 ChatGPT가 해결해야 할 다른 문제는 무엇입니까?

Microsoft는 최근 인공 지능 생태계의 또 다른 방향이 될 수 있는 TaskMatrix.AI를 출시했습니다. 이는 기본 모델을 수백만 개의 API와 연결하여 작업을 완료하고 Toolformer와 chatGPT의 조합이며 LLM 미래의 또 다른 방향이 될 수 있습니다.

1. 문제점

ChatGPT 또는 GPT-4는 사전 훈련 중에 도메인별 데이터가 충분하지 않거나 작업을 정확하게 수행해야 하는 신경망 계산을 수행하는 데 종종 오류가 발생하기 때문에 일부 전문 작업에서 여전히 어려움을 겪고 있습니다. 반면에 일부 도메인별 작업을 매우 잘 수행할 수 있는 기존 모델과 시스템(기호 기반 또는 신경망 기반)이 많이 있습니다. 그러나 구현이나 작동 메커니즘이 다르기 때문에 기본 모델과 호환되지 않습니다.

또한 AI의 사용 사례는 끝이 없습니다. 디지털 세계뿐만 아니라 물리적 세계에서도 사진 조작부터 스마트 홈 장치 제어에 이르기까지 다양한 작업을 돕는 데 도움이 되며 상상보다 더 많은 일을 할 수 있는 경우가 많습니다.

따라서 기본 모델을 활용하여 작업 솔루션의 개요를 제안한 다음 개요의 일부 하위 작업을 기성 모델 및 특수 기능이 있는 시스템 API와 자동으로 연결하여 이를 완료할 수 있는 메커니즘이 필요합니다. TaskMatrix.AI는 그러한 메커니즘입니다.

2. TaskMatrix.AI 개요

TaskMatrix.AI는 기본 모델과 기존 모델 및 API를 결합하여 다양한 작업을 제공합니다. TaskMatrix.AI가 수행할 수 있는 작업은 다음과 같습니다.

  • 인공 지능은 다양한 유형의 입력(예: 텍스트, 이미지, 비디오, 오디오 및 코드)을 이해하고 디지털 및 물리적 작업을 수행한 다음 코드를 생성하여 작업을 완료하는 API입니다.
  • TaskMatrix.AI에는 다양한 도메인의 작업을 위한 저장소 역할을 하는 API 플랫폼이 있습니다. 이 플랫폼의 모든 API는 일관된 문서 형식을 가지므로 기본 모델을 쉽게 사용하고 개발자가 새 API를 쉽게 추가할 수 있습니다.
  • TaskMatrix.AI는 특정 기능을 갖춘 새로운 API를 API 플랫폼에 추가하여 새로운 작업을 처리하는 기술을 확장할 수 있으므로 강력한 평생 학습 기능을 갖추고 있습니다.
  • 작업 해결 논리(예: 작업 코드)와 API 결과를 모두 이해할 수 있으므로 TaskMatrix.AI의 응답을 더 잘 해석할 수 있습니다.

3. TaskMatrix.AI de Architecture

TaskMatrix.AI의 전체 아키텍처와 네 가지 주요 구성 요소:

  • MCFM(Multimodal Conversation Foundation Model): 사용자와 소통하고 목표를 이해하는 역할을 담당합니다. ) 컨텍스트를 파악하고 API를 기반으로 실행 가능한 코드를 생성하여 특정 작업을 완료합니다.
  • API 플랫폼: 다양한 기능을 갖춘 수백만 개의 API를 저장하는 통합 API 문서 스키마를 제공하고 API 개발자 또는 소유자가 API를 등록, 업데이트 및 삭제할 수 있도록 합니다.
  • API 선택기: MCFM의 사용자 명령 이해를 바탕으로 관련 API를 추천합니다.
  • API 실행기: 관련 API를 호출하여 생성된 연산 코드를 실행하고, 중간 및 최종 실행 결과를 반환합니다.

TaskMatrix.AI 해석

이 4개의 하위 시스템이 함께 작동하여 TaskMatrix.AI가 사용자 목표를 이해하고 특정 작업에 대해 API 기반 실행 코드를 실행할 수 있도록 합니다. MCFM(Multimodal Conversation Foundation Model)은 사용자 커뮤니케이션의 기본 인터페이스로서 다중 모드 컨텍스트를 이해할 수 있습니다. API 플랫폼은 통합된 API 문서 스키마와 수백만 개의 API를 저장할 수 있는 장소를 제공합니다. API 선택기는 사용자 목표에 대한 MCFM의 이해를 활용하여 관련 API를 추천합니다. 마지막으로 API 실행자는 해당 API에서 생성된 작업 코드를 실행하고 결과를 반환합니다. 또한 팀은 인간 피드백 강화 학습(RLHF) 기술을 사용하여 작업 매트릭스(taskMatrix)를 최적화할 수 있는 보상 모델을 훈련했습니다. 이 방법은 MCFM 및 API 선택기가 최적의 전략을 찾고 복잡한 작업의 성능을 향상시키는 데 도움이 될 수 있습니다.

3.1 다중 모드 대화 기본 모델(MCFM)

MCFM에는 기본 모델의 매개변수, API 플랫폼, 사용자 지침 및 세션 컨텍스트의 네 가지 입력이 있습니다. 이러한 입력을 사용하여 모델은 사용자 지침을 완료하기 위한 운영 코드를 생성합니다. 또한 이상적인 MCFM(Multimodal Conversation Framework Model)에는 다음과 같은 네 가지 주요 기능이 있어야 합니다.

  • 다중 모드 입력을 받고 작업별 API를 기반으로 실행 가능한 코드를 생성하세요.
  • 사용자 지침에서 특정 작업을 추출하고 솔루션 개요를 제안합니다.
  • 문서에서 API 사용 방법을 알아보고 상식과 API 사용 내역을 바탕으로 특정 작업에 연결하세요.
  • 신뢰성과 신뢰도를 확인하기 위한 명시적인 코드 확인 메커니즘이 포함되어 있습니다.

ChatGPT와 GPT-4는 MCFM에 필요한 이러한 기능을 갖춘 모델의 두 가지 예입니다. 그러나 다중 모드 입력을 지원하는 GPT-4가 더 적합합니다.

3.2 API 플랫폼

API 플랫폼에는 API 저장과 API 개발자 또는 소유자 관리라는 두 가지 주요 기능이 있습니다. API 플랫폼에는 각 API 문서의 5가지 측면을 포함하는 통합 API 문서 템플릿이 있습니다.

  • API 이름: API 개요를 제공하고 작업 수행자를 위한 진입점 역할을 합니다.
  • 매개변수 목록: 입력 매개변수 및 반환 값을 포함하여 각 매개변수에는 이름, 설명, 데이터 유형 및 기본값이 있습니다.
  • API 설명: API 기능, 작동 방식, 입력 및 출력, 잠재적 오류 또는 예외에 대한 정보가 포함되어 있습니다.
  • 응용 예(선택): API 사용 방법을 보여줍니다.
  • 구성 지침(선택 사항): 여러 API를 결합하여 복잡한 사용자 지침을 완성하는 방법에 대한 지침을 제공합니다.
  • API 플랫폼에는 API 저장과 개발자 또는 소유자에 의한 API 관리라는 두 가지 주요 기능이 있습니다.

API 설명 예: 파일 열기

<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>
로그인 후 복사

3.3 API 선택기

API 선택기는 API 플랫폼에서 작업 요구 사항에 가장 적합한 API를 식별하고 선택하도록 설계되었습니다. 의미론적으로 관련된 API를 검색하여 API 플랫폼에 있을 수 있는 과다한 API를 줄일 수 있습니다. API 선택기는 모듈 전략을 사용하여 관련 API를 빠르게 찾을 수 있습니다.

모듈 전략이란 도메인에 따라 API를 특정 패키지 또는 모듈로 구성하는 방법을 말합니다. 각 모듈은 시각적 모델, 수학, 특정 소프트웨어 또는 물리적 장비와 같은 특정 영역에 해당합니다. 이 전략을 사용하면 API 선택기는 MCFM이 이해하는 임무 요구 사항 및 솔루션 개요에 맞는 관련 API를 빠르게 찾을 수 있습니다. 이 접근 방식을 사용하면 API 선택 프로세스를 단순화하고 API 플랫폼에서 의미상 관련된 API를 더 쉽게 검색할 수 있습니다.

3.4 Action Executor

Action Executor는 액션 코드를 실행하도록 설계되었습니다. AI는 작업 실행기를 사용하여 간단한 HTTP 요청부터 복잡한 알고리즘 또는 여러 입력 매개변수가 필요한 AI 모델에 이르기까지 다양한 API를 실행합니다.

액션 실행자에도 정확성과 신뢰성을 향상시키고 생성된 코드의 결과가 사람이 지정한 작업을 충족하는지 확인하는 검증 메커니즘이 필요합니다.

3.5 인간 중심 강화 학습(RLHF)

TaskMatrix.AI는 RLHF를 활용하여 MCFM 및 API 선택기를 향상시켜 복잡한 작업에서 더 나은 성능을 제공합니다.

RLHF는 API 피드백을 기반으로 훈련된 보상 모델을 사용하여 API 선택기 최적화에 전념할 것입니다.

  • API 개발자에 대한 피드백
  • API 개발자는 API가 작업 피드백을 완료하는 데 사용되는지 여부에 대한 피드백을 받게 됩니다.

이를 통해 특정 API를 사용하는 데 가장 최적화된 방식으로 API 문서를 작성할 수 있습니다.

4. TaskMatrix

TaskMatrix의 사용 사례. AI가 해결하는 데 도움이 될 수 있는 작업은 무엇인가요?

TaskMatrix. AI는 기본 모델, 클라우드 서비스, 로봇 공학 및 사물 인터넷의 지속적인 개발과 결합되어 생산성과 창의성이 향상된 미래 세계를 만들 수 있는 잠재력을 가지고 있습니다.

4.1 시각화 작업

MCFM의 다중 모드 특성을 기반으로 TaskMatrix.AI는 시각화 작업을 수행하고 언어와 이미지를 입력으로 사용할 수 있습니다. 수행할 수 있는 시각적 작업 중 일부인 아래 이미지는 TaskMatrix.AI가 VisualChatGPT 위에 구축되어 VQA 작업을 더 잘 처리할 수 있는 방법을 보여줍니다.

TaskMatrix.AI 해석

TaskMatrix.AI를 통해 이미지의 개체를 삭제하거나 교체하는 이미지 편집. 이미지 처리 기술 또는 컴퓨터 알고리즘 이미지-스케치/깊이/헤드/선을 사용하여 이미지를 스케치, 깊이, 전체 중첩 가장자리 감지 또는 선으로 변환할 수 있습니다. Sketch/Depth/Hed/Line-to-Image는 위와 반대이며, 주어진 옵션에 따라 이미지를 생성합니다.

아래 이미지는 세 가지 API 호출(이미지 Q&A, 이미지 캡션, 이미지의 개체 교체)을 사용하여 솔루션 개요에서 TaskMatrix.AI를 정의하고 실행하는 방법의 예를 보여줍니다.

TaskMatrix.AI 해석

4.2 멀티모달 긴 콘텐츠 생성

TaskMatrix.AI의 또 다른 사용 사례는 다른 모델의 문자 제한을 제거하기 위해 대규모 멀티모달(이미지 및 텍스트) 콘텐츠를 생성하는 것입니다.

아래 예에서는 TaskMatrix.AI가 어떻게 사용자로부터 높은 수준의 지시를 받아 합리적인 응답을 생성하는지 확인할 수 있습니다.

TaskMatrix.AI 해석

4.3 사무 자동화

TaskMatrix.AI는 음성을 통해 받은 사용자 지시를 이해하고 작업을 자동화하여 사무실 업무량을 쉽게 줄일 수 있습니다. 또한 광범위한 교육 없이도 복잡한 소프트웨어를 사용할 수 있어 직원들이 보다 긴급한 작업에 집중할 수 있습니다.

아래 예는 PowerPoint 슬라이드를 만들 때 TaskMatrix.AI와 다른 API를 사용하는 사람 간의 대화를 보여줍니다.

TaskMatrix.AI 해석

4.4 클라우드 서비스 활용

TaskMatrix.AI는 스마트 홈 자동화처럼 작동하여 집 안의 모든 장치와 통신하고 장치 간의 중앙 연결 지점 역할을 할 수 있습니다. 아래 이미지는 사내 로봇 소프트웨어와 하드웨어를 사용하여 일상 작업을 완료하는 TaskMatrix.AI와 사람 간의 대화를 보여줍니다.

TaskMatrix.AI 해석

또한 TaskMatrix.AI는 다른 많은 시나리오에서 사용할 수 있으며 유일한 요구 사항은 Metaverse 또는 Web3에 대한 액세스와 같은 API를 활용할 수 있다는 것입니다.

5. TaskMatrix.AI의 과제

TaskMatrix.AI에는 여전히 다음과 같이 해결하고 처리해야 할 몇 가지 단점과 한계가 있습니다.

  • 다양한 작업을 처리할 수 있는 기본 모델을 만들고 인간의 피드백을 통해 배우고 상식적인 추론을 사용하여 최고 품질로 작업을 완료하는 등 다양한 입력이 가능합니다. TaskMatrix.AI에 필요한 최소 양식 세트를 결정하고 이를 교육하는 것은 여전히 ​​어려운 일입니다.
  • 수백만 개의 API를 호스팅하는 플랫폼을 생성하고 유지하려면 API 문서 생성, API 품질 보증 및 API 생성 권장 사항을 해결해야 합니다. 이를 기반으로 API 플랫폼은 API 개발자에게 이러한 작업을 해결하기 위한 새로운 API를 생성할 수 있는 추가 지침을 제공해야 합니다.
  • 사용자 지침을 완료하기 위해 수백만 개의 API를 활용하면 무료 텍스트 생성 이상의 새로운 과제가 발생하며 특정 작업을 해결하려면 관련 API를 MCFM에 추천하는 것이 중요합니다. 복잡한 작업의 경우 TaskMatrix.AI가 즉시 솔루션을 찾지 못할 수도 있습니다. 대신 MCFM은 사용자와 상호 작용하고 가장 적합한 솔루션을 찾기 위해 다양한 솔루션을 시도해야 합니다.
  • 보안 및 개인 정보 보호는 문제가 될 수 있으며, 모델이 사용자 지침을 완료하고 사용자의 의도를 넘어서는 작업을 수행하지 않는다는 확인이 필요합니다. 데이터 전송은 안전해야 하며 민감한 데이터에 액세스해야 하는 다양한 도메인의 다양한 API와 통합할 때 인증된 데이터 액세스를 허용해야 합니다.
  • TaskMatrix.AI에는 개별 개발자가 자신만의 개인화된 AI 인터페이스를 구축하고 사용자가 자신만의 개인 비서를 가질 수 있도록 지원하는 개인화 전략이 필요합니다. 확장 비용을 줄이고 사용자의 소수의 사례에 맞추는 것은 어려운 일입니다.

6. 요약

무어의 법칙을 되돌아보면 아마도 “18개월마다 AI의 수가 두 배로 늘어난다”는 것이 새로운 법칙이 될 것입니다.

TaskMatrix.AI는 기본 모델을 수백만 개의 기존 모델 및 시스템 API와 통합하여 다양한 디지털 및 물리적 작업을 수행할 수 있는 "초인공지능"을 구현합니다. AI 플랫폼으로서 인간은 대규모 모델과 API를 활용하여 수많은 다양한 작업을 수행할 수 있습니다. 모든 일반적인 작업(예: PPT 슬라이드 만들기 또는 일정에 따라 집을 청소하기 위해 청소 로봇 실행)을 처리할 수 있어 생산성과 창의력이 향상됩니다.

【참고】

TaskMatrix.AI: 수백만 개의 API로 기초 모델을 연결하여 작업 완료, https://arxiv.org/pdf/2303.16434.pdf


위 내용은 TaskMatrix.AI 해석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿