목차
KOSMOS-1: 다중 모드 대규모 언어 모델
기술 주변기기 일체 포함 Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

Apr 14, 2023 pm 06:28 PM
ai 모델

NLP 분야에서 LLM(대형 언어 모델)은 다양한 자연어 작업에서 공통 인터페이스 역할을 성공적으로 수행했습니다. 입력과 출력을 텍스트로 변환할 수 있는 한 LLM 기반 인터페이스를 작업에 적용할 수 있습니다. 예를 들어 요약 작업은 문서를 가져와서 요약 정보를 출력합니다. 따라서 입력 문서를 요약 언어 모델에 공급하고 요약을 생성할 수 있습니다.

NLP 작업에 LLM을 성공적으로 적용했음에도 불구하고 연구자들은 여전히 ​​이미지 및 오디오와 같은 다중 모드 데이터에 LLM을 기본적으로 사용하는 데 어려움을 겪고 있습니다. 지능의 기본 구성 요소인 다중 모드 인식은 지식 획득과 현실 세계 처리 모두에서 일반 인공 지능을 달성하는 데 필요한 조건입니다. 더 중요한 것은 다중 모드 입력을 잠금 해제하면 다중 모드 로봇 공학, 문서 지능 및 로봇 공학과 같은 더 높은 가치의 분야에서 언어 모델의 적용을 크게 확장할 수 있다는 것입니다.

따라서 Microsoft 팀은 "Language Is Not All You Need: Aligning Perception with Language Models" 논문에서 MLLM(Multimodal Large Language Model) - KOSMOS-1을 도입했습니다. 지침(예: 제로샷 학습) 및 상황에 따른 학습(예: 퓨샷 학습) . 연구 목표는 모델이 보고 말할 수 있도록 인식을 LLM과 일치시키는 것입니다. 연구원들은 METALM 방법에 따라 처음부터 KOSMOS-1을 훈련했습니다("언어 모델은 범용 인터페이스입니다" 논문 참조).

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

  • 논문 주소: https://arxiv.org/pdf/2302.14045.pdf
  • 프로젝트 주소: https://github.com/microsoft/unilm

아래 그림 1과 같이 연구원은 Transformer 기반 언어 모델을 일반 인터페이스로 사용하고 이를 인식 모듈과 연결합니다. 그들은 텍스트 데이터, 임의로 인터리브된 이미지와 텍스트, 이미지-캡션 쌍을 포함하는 웹 규모의 다중 모달 코퍼스에서 모델을 훈련했습니다. 또한 연구원들은 순수 언어 데이터를 전송하여 교차 모달 수업 추종 능력을 보정했습니다.

마지막으로 KOSMOS-1 모델은 아래 표 1과 같이 제로샷 및 퓨샷 학습 설정에서 언어, 지각 언어 및 시각적 작업을 기본적으로 지원합니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

연구원들은 아래 그림 2와 3에 생성된 몇 가지 예를 보여줍니다. KOSMOS-1 모델은 다양한 자연어 작업 외에도 시각적 대화, 시각적 설명, 시각적 질문 답변, 이미지 자막, 간단한 수학 방정식, OCR 및 설명이 포함된 제로샷 이미지 분류. 또한 MLLM의 비언어적 추론 능력을 평가하기 위해 Raven의 RPM(진행 행렬)을 기반으로 IQ 테스트 벤치마크를 구축했습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

이러한 예는 다중 모드 인식에 대한 기본 지원이 LLM을 새로운 작업에 적용할 수 있는 새로운 기회를 열어준다는 것을 보여줍니다. 또한 LLM과 비교하여 MLLM은 더 나은 상식 추론 성능을 달성하며 이는 교차 모달 전송이 지식 획득을 용이하게 함을 나타냅니다.

KOSMOS-1 모델의 매개변수 수가 16억 개에 달하기 때문에 일부 네티즌들은 이 대형 멀티모달 모델을 자신의 컴퓨터에서 실행하고 싶다는 희망을 표현했습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수


KOSMOS-1: 다중 모드 대규모 언어 모델

그림 1에서 볼 수 있듯이 KOSMOS-1은 일반적인 양식을 인식하고 지시를 따르며 상황에 따라 학습하고 출력을 생성할 수 있는 다중 모드 언어 모델입니다. 구체적으로 KOSMOS-1의 백본은 Transformer 기반의 인과언어모델이다. 텍스트 외에도 다른 양식도 임베딩되어 모델에 입력될 수 있습니다. 아래 그림에 표시된 것처럼 언어 외에도 비전, 음성 등의 임베딩도 있습니다. 변환기 디코더는 다중 모드 입력을 위한 일반 인터페이스 역할을 합니다. 모델이 훈련되면 KOSMOS-1은 제로 샷 및 소수 샷 설정에서 언어 작업 및 다중 모달 작업에 대해서도 평가할 수 있습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

Transformer 디코더는 통일된 방식으로 양식을 인식하고 입력 정보는 특수 토큰을 사용하여 시퀀스로 평면화됩니다. 예를 들어 는 시퀀스의 시작을 의미하고 는 시퀀스의 끝을 의미합니다. 특수 토큰 및 은 인코딩된 이미지 삽입의 시작과 끝을 나타냅니다. 임베딩 모듈은 텍스트 토큰 및 기타 입력 양식을 벡터 표현으로 인코딩합니다. 입력 토큰의 경우 연구에서는 조회 테이블을 사용하여 이를 임베딩에 매핑합니다. 연속 신호 형식(예: 이미지 및 오디오)의 경우 입력은 개별 코드로 표시될 수도 있습니다.

이후, 획득된 입력 시퀀스 임베딩이 Transformer 기반 디코더에 공급됩니다. 그런 다음 인과 모델은 자동 회귀 방식으로 시퀀스를 처리하여 다음 토큰을 생성합니다. 요약하면, MLLM 프레임워크는 입력이 벡터로 표현되는 한 다양한 데이터 유형을 유연하게 처리할 수 있습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

모델 훈련

첫 번째는 훈련 데이터 세트입니다. 데이터 세트에는 텍스트 말뭉치, 이미지-자막 쌍, 이미지 및 텍스트 교차 데이터 세트가 포함됩니다. 특히 텍스트 코퍼스에는 The Pile 및 Common Crawl(CC)이 포함되며, 이미지 캡션 쌍에는 영어 LAION-2B, LAION-400M, COYO-700M 및 개념 캡션이 포함됩니다. 이미지 및 텍스트 교차 다중 모드 데이터 세트는 Common Crawl에서 가져옵니다. 스냅샷 .

이제 데이터 세트가 있으므로 훈련 설정이 있습니다. MLLM 구성 요소에는 24개 레이어, 숨겨진 차원 2048개, FFN 8192개, 어텐션 헤드 32개, 매개변수 크기 1.3B가 포함되어 있습니다. 모델의 더 나은 수렴을 가능하게 하기 위해 이미지 표현은 1024개의 특징 차원으로 사전 훈련된 CLIP ViT-L/14 모델에서 얻어집니다. 훈련 중에는 이미지가 224×224 해상도로 전처리됩니다. 또한 마지막 레이어를 제외한 모든 CLIP 모델 매개변수는 훈련 중에 고정됩니다. KOSMOS-1의 전체 매개변수 수는 약 1.6B개입니다.

실험 결과

이 연구는 KOSMOS-1을 평가하기 위해 일련의 풍부한 실험을 수행했습니다. 언어 작업(언어 이해, 언어 생성, OCR 없는 텍스트 분류); 상식 추론), 비언어적 추론(IQ 테스트), 지각-언어적 작업(이미지 자막, 시각적 질문 및 답변, 웹 페이지 질문 및 답변), 시각적 작업(제로샷 이미지 분류, 설명 포함) ).

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

이미지 캡션.

다음 표는 COCO 및 Flickr30k에서 다양한 모델의 제로 샘플 성능을 보여줍니다. KOSMOS-1은 다른 모델에 비해 상당한 결과를 얻었으며, Flamingo에 비해 매개변수 수가 훨씬 적다는 점에서도 성능이 좋습니다.

다음 표는 몇 가지 샘플의 성능 비교를 보여줍니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

시각적 Q&A. KOSMOS-1은 Flamingo-3B 및 Flamingo-9B 모델보다 정확도와 견고성이 더 높습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

다음 표는 몇 가지 샘플 성능 비교를 보여줍니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

IQ 테스트. Raven's Reasoning Test는 비언어적 추론을 평가하는 데 사용되는 가장 일반적인 테스트 중 하나입니다. 그림 4는 예를 보여줍니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

표 6은 IQ 테스트 데이터 세트에 대한 평가 결과를 보여줍니다. KOSMOS-1은 비언어적 환경에서 추상적인 개념 패턴을 인식한 다음 다중 선택 항목 중에서 후속 요소를 추론할 수 있습니다. 우리가 아는 한, 모델이 이러한 제로 샘플 Raven IQ 테스트를 수행할 수 있는 것은 이번이 처음입니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

웹 Q&A. 웹 Q&A는 웹 페이지에서 질문에 대한 답변을 찾는 것을 목표로 합니다. 이를 위해서는 모델이 텍스트의 의미와 구조를 모두 이해해야 합니다. 결과는 다음과 같습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

다중 모드 사고 체인 프롬프트. 사고 사슬 프롬프트에서 영감을 받아 이 기사에서는 이와 관련된 실험을 수행했습니다. 그림 5에서 볼 수 있듯이 이 기사에서는 언어 인식 작업을 두 단계로 분해합니다. 첫 번째 단계의 이미지가 주어지면 단서는 모델이 최종 결과를 생성하기 위한 요구 사항을 충족하는 출력을 생성하도록 안내하는 데 사용됩니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

표 9에서 볼 수 있듯이 다중 모드 사고 체인 프롬프트의 점수는 72.9점으로 표준 프롬프트보다 5.8점 높습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

자세히 알아보기 실험에 대해서는 원본 논문을 참조하세요.

위 내용은 Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Debian Readdir의 파일 정렬을 구현하는 방법 Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Debian Readdir의 성능을 최적화하는 방법 Debian Readdir의 성능을 최적화하는 방법 Apr 13, 2025 am 08:48 AM

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

데비안 아파치 로그 레벨을 설정하는 방법 데비안 아파치 로그 레벨을 설정하는 방법 Apr 13, 2025 am 08:33 AM

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

데비안 메일 서버 SSL 인증서 설치 방법 데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

데비안 메일 서버 방화벽 구성 팁 데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

Debian Readdir가 다른 도구와 통합하는 방법 Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

데비안 syslog를 배우는 방법 데비안 syslog를 배우는 방법 Apr 13, 2025 am 11:51 AM

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud

See all articles