ChatGPT는 광범위한 개방형 도메인 작업에 대해 매우 강력한 대화, 컨텍스트 학습 및 코드 생성 기능을 보여 주며, 획득한 상식 지식을 통해 도메인별 작업에 대한 높은 수준의 솔루션 요약을 생성할 수도 있습니다. 그러나 보다 강력한 학습, 이해 및 생성 기능 외에도 ChatGPT가 해결해야 할 다른 문제는 무엇입니까?
Microsoft는 최근 인공 지능 생태계의 또 다른 방향이 될 수 있는 TaskMatrix.AI를 출시했습니다. 이는 기본 모델을 수백만 개의 API와 연결하여 작업을 완료하고 Toolformer와 chatGPT의 조합이며 LLM 미래의 또 다른 방향이 될 수 있습니다.
ChatGPT 또는 GPT-4는 사전 훈련 중에 도메인별 데이터가 충분하지 않거나 작업을 정확하게 수행해야 하는 신경망 계산을 수행하는 데 종종 오류가 발생하기 때문에 일부 전문 작업에서 여전히 어려움을 겪고 있습니다. 반면에 일부 도메인별 작업을 매우 잘 수행할 수 있는 기존 모델과 시스템(기호 기반 또는 신경망 기반)이 많이 있습니다. 그러나 구현이나 작동 메커니즘이 다르기 때문에 기본 모델과 호환되지 않습니다.
또한 AI의 사용 사례는 끝이 없습니다. 디지털 세계뿐만 아니라 물리적 세계에서도 사진 조작부터 스마트 홈 장치 제어에 이르기까지 다양한 작업을 돕는 데 도움이 되며 상상보다 더 많은 일을 할 수 있는 경우가 많습니다.
따라서 기본 모델을 활용하여 작업 솔루션의 개요를 제안한 다음 개요의 일부 하위 작업을 기성 모델 및 특수 기능이 있는 시스템 API와 자동으로 연결하여 이를 완료할 수 있는 메커니즘이 필요합니다. TaskMatrix.AI는 그러한 메커니즘입니다.
TaskMatrix.AI는 기본 모델과 기존 모델 및 API를 결합하여 다양한 작업을 제공합니다. TaskMatrix.AI가 수행할 수 있는 작업은 다음과 같습니다.
TaskMatrix.AI의 전체 아키텍처와 네 가지 주요 구성 요소:
이 4개의 하위 시스템이 함께 작동하여 TaskMatrix.AI가 사용자 목표를 이해하고 특정 작업에 대해 API 기반 실행 코드를 실행할 수 있도록 합니다. MCFM(Multimodal Conversation Foundation Model)은 사용자 커뮤니케이션의 기본 인터페이스로서 다중 모드 컨텍스트를 이해할 수 있습니다. API 플랫폼은 통합된 API 문서 스키마와 수백만 개의 API를 저장할 수 있는 장소를 제공합니다. API 선택기는 사용자 목표에 대한 MCFM의 이해를 활용하여 관련 API를 추천합니다. 마지막으로 API 실행자는 해당 API에서 생성된 작업 코드를 실행하고 결과를 반환합니다. 또한 팀은 인간 피드백 강화 학습(RLHF) 기술을 사용하여 작업 매트릭스(taskMatrix)를 최적화할 수 있는 보상 모델을 훈련했습니다. 이 방법은 MCFM 및 API 선택기가 최적의 전략을 찾고 복잡한 작업의 성능을 향상시키는 데 도움이 될 수 있습니다.
MCFM에는 기본 모델의 매개변수, API 플랫폼, 사용자 지침 및 세션 컨텍스트의 네 가지 입력이 있습니다. 이러한 입력을 사용하여 모델은 사용자 지침을 완료하기 위한 운영 코드를 생성합니다. 또한 이상적인 MCFM(Multimodal Conversation Framework Model)에는 다음과 같은 네 가지 주요 기능이 있어야 합니다.
ChatGPT와 GPT-4는 MCFM에 필요한 이러한 기능을 갖춘 모델의 두 가지 예입니다. 그러나 다중 모드 입력을 지원하는 GPT-4가 더 적합합니다.
API 플랫폼에는 API 저장과 API 개발자 또는 소유자 관리라는 두 가지 주요 기능이 있습니다. API 플랫폼에는 각 API 문서의 5가지 측면을 포함하는 통합 API 문서 템플릿이 있습니다.
API 설명 예: 파일 열기
<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>
API 선택기는 API 플랫폼에서 작업 요구 사항에 가장 적합한 API를 식별하고 선택하도록 설계되었습니다. 의미론적으로 관련된 API를 검색하여 API 플랫폼에 있을 수 있는 과다한 API를 줄일 수 있습니다. API 선택기는 모듈 전략을 사용하여 관련 API를 빠르게 찾을 수 있습니다.
모듈 전략이란 도메인에 따라 API를 특정 패키지 또는 모듈로 구성하는 방법을 말합니다. 각 모듈은 시각적 모델, 수학, 특정 소프트웨어 또는 물리적 장비와 같은 특정 영역에 해당합니다. 이 전략을 사용하면 API 선택기는 MCFM이 이해하는 임무 요구 사항 및 솔루션 개요에 맞는 관련 API를 빠르게 찾을 수 있습니다. 이 접근 방식을 사용하면 API 선택 프로세스를 단순화하고 API 플랫폼에서 의미상 관련된 API를 더 쉽게 검색할 수 있습니다.
Action Executor는 액션 코드를 실행하도록 설계되었습니다. AI는 작업 실행기를 사용하여 간단한 HTTP 요청부터 복잡한 알고리즘 또는 여러 입력 매개변수가 필요한 AI 모델에 이르기까지 다양한 API를 실행합니다.
액션 실행자에도 정확성과 신뢰성을 향상시키고 생성된 코드의 결과가 사람이 지정한 작업을 충족하는지 확인하는 검증 메커니즘이 필요합니다.
TaskMatrix.AI는 RLHF를 활용하여 MCFM 및 API 선택기를 향상시켜 복잡한 작업에서 더 나은 성능을 제공합니다.
RLHF는 API 피드백을 기반으로 훈련된 보상 모델을 사용하여 API 선택기 최적화에 전념할 것입니다.
이를 통해 특정 API를 사용하는 데 가장 최적화된 방식으로 API 문서를 작성할 수 있습니다.
TaskMatrix의 사용 사례. AI가 해결하는 데 도움이 될 수 있는 작업은 무엇인가요?
TaskMatrix. AI는 기본 모델, 클라우드 서비스, 로봇 공학 및 사물 인터넷의 지속적인 개발과 결합되어 생산성과 창의성이 향상된 미래 세계를 만들 수 있는 잠재력을 가지고 있습니다.
MCFM의 다중 모드 특성을 기반으로 TaskMatrix.AI는 시각화 작업을 수행하고 언어와 이미지를 입력으로 사용할 수 있습니다. 수행할 수 있는 시각적 작업 중 일부인 아래 이미지는 TaskMatrix.AI가 VisualChatGPT 위에 구축되어 VQA 작업을 더 잘 처리할 수 있는 방법을 보여줍니다.
TaskMatrix.AI를 통해 이미지의 개체를 삭제하거나 교체하는 이미지 편집. 이미지 처리 기술 또는 컴퓨터 알고리즘 이미지-스케치/깊이/헤드/선을 사용하여 이미지를 스케치, 깊이, 전체 중첩 가장자리 감지 또는 선으로 변환할 수 있습니다. Sketch/Depth/Hed/Line-to-Image는 위와 반대이며, 주어진 옵션에 따라 이미지를 생성합니다.
아래 이미지는 세 가지 API 호출(이미지 Q&A, 이미지 캡션, 이미지의 개체 교체)을 사용하여 솔루션 개요에서 TaskMatrix.AI를 정의하고 실행하는 방법의 예를 보여줍니다.
TaskMatrix.AI의 또 다른 사용 사례는 다른 모델의 문자 제한을 제거하기 위해 대규모 멀티모달(이미지 및 텍스트) 콘텐츠를 생성하는 것입니다.
아래 예에서는 TaskMatrix.AI가 어떻게 사용자로부터 높은 수준의 지시를 받아 합리적인 응답을 생성하는지 확인할 수 있습니다.
TaskMatrix.AI는 음성을 통해 받은 사용자 지시를 이해하고 작업을 자동화하여 사무실 업무량을 쉽게 줄일 수 있습니다. 또한 광범위한 교육 없이도 복잡한 소프트웨어를 사용할 수 있어 직원들이 보다 긴급한 작업에 집중할 수 있습니다.
아래 예는 PowerPoint 슬라이드를 만들 때 TaskMatrix.AI와 다른 API를 사용하는 사람 간의 대화를 보여줍니다.
TaskMatrix.AI는 스마트 홈 자동화처럼 작동하여 집 안의 모든 장치와 통신하고 장치 간의 중앙 연결 지점 역할을 할 수 있습니다. 아래 이미지는 사내 로봇 소프트웨어와 하드웨어를 사용하여 일상 작업을 완료하는 TaskMatrix.AI와 사람 간의 대화를 보여줍니다.
또한 TaskMatrix.AI는 다른 많은 시나리오에서 사용할 수 있으며 유일한 요구 사항은 Metaverse 또는 Web3에 대한 액세스와 같은 API를 활용할 수 있다는 것입니다.
TaskMatrix.AI에는 여전히 다음과 같이 해결하고 처리해야 할 몇 가지 단점과 한계가 있습니다.
무어의 법칙을 되돌아보면 아마도 “18개월마다 AI의 수가 두 배로 늘어난다”는 것이 새로운 법칙이 될 것입니다.
TaskMatrix.AI는 기본 모델을 수백만 개의 기존 모델 및 시스템 API와 통합하여 다양한 디지털 및 물리적 작업을 수행할 수 있는 "초인공지능"을 구현합니다. AI 플랫폼으로서 인간은 대규모 모델과 API를 활용하여 수많은 다양한 작업을 수행할 수 있습니다. 모든 일반적인 작업(예: PPT 슬라이드 만들기 또는 일정에 따라 집을 청소하기 위해 청소 로봇 실행)을 처리할 수 있어 생산성과 창의력이 향상됩니다.
【참고】
TaskMatrix.AI: 수백만 개의 API로 기초 모델을 연결하여 작업 완료, https://arxiv.org/pdf/2303.16434.pdf
위 내용은 TaskMatrix.AI 해석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!