목차
4. LLM에서 지원하는 다중 모드 대형 모델
멀티모달 에이전트는 다양한 멀티모달 전문가를 LLM과 연결하여 복잡한 멀티모달 이해 문제를 해결하는 방법입니다.
이 보고서의 저자는 7명입니다
기술 주변기기 일체 포함 다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

Sep 25, 2023 pm 04:49 PM
데이터 연구

멀티모달 대형 모델에 대한 가장 종합적인 리뷰가 여기에 있습니다!

Microsoft의

7명의 중국 연구원이 저술, 119페이지 ——

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

현재 완성된 아직 선두에 있습니다두 가지 유형의 멀티모달 대형 모델 연구 방향에서 시작됩니다. 처음에는 다섯 가지 구체적인 연구 주제를 종합적으로 요약합니다.

    시각적 이해
  • 시각적 생성
  • 통합 비전 모델
  • LLM 기반 멀티 모달 대형 모델
  • 멀티 모달 에이전트

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

에 집중하세요. 우리는 다음과 같은 현상을 발견했습니다.

다중 모드 기본 모델이 전문화 모델에서

범용 모델로 이동했습니다.

Ps. 작가가 논문 시작 부분에 직접

도라에몽 이미지를 그린 이유도 바로 여기에 있습니다.

이 리뷰를 읽는 데 적합한 사람은 누구입니까

(신고)?

Microsoft의 원래 말:

전문 연구원이든 학생이든 다중 모달 기본 모델의 기본 지식과 최신 진행 상황을 배우는 데 관심이 있다면 이 콘텐츠는 매우 적합합니다.

한번 살펴보세요~

멀티모달 대형모델 현황을 알 수 있는 기사

5가지 특정 주제 중 처음 2개는 현재 성숙한 분야이고, 마지막 3개는 최첨단 분야

1 . 시각적 이해

이 부분의 핵심 문제는 강력한 이미지 이해 백본을 어떻게 사전 훈련시키는가입니다.

아래 그림과 같이 모델 학습에 사용되는 다양한 감독 신호에 따라 방법을

라벨 감독, 언어 감독
(CLIP으로 표시) 및 이미지 전용 자체 감독의 세 가지 범주로 나눌 수 있습니다. .

마지막은 감독 신호가 이미지 자체에서 채굴된다는 것을 나타냅니다. 인기 있는 방법에는 대조 학습, 비대비 학습 및 마스크된 이미지 모델링이 있습니다.

이러한 방법 외에도 기사에서는 다중 모달 융합, 영역 수준 및 픽셀 수준 이미지 이해와 같은 범주에서 사전 학습 방법에 대해 자세히 설명합니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

위의 각 방법의 대표적인 작품은 다음과 같습니다. 또한 나열됩니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

2. 시각적 생성

이 주제는 AIGC의 핵심이며 이미지 생성에만 국한되지 않고 비디오, 3D 포인트 클라우드 등도 포함됩니다.

그리고 그 유용성은 예술, 디자인 및 기타 분야에만 국한되지 않습니다. 교육 데이터를 합성하는 데에도 매우 도움이 되며 다중 모드 콘텐츠 이해 및 생성의 폐쇄 루프를 달성하는 데 직접적으로 도움이 됩니다.

이 부분에서 저자는 인간의 의도

(이미지 생성 강조)와 엄격하게 일치하는 효과를 생성하는 중요성과 방법에 중점을 둡니다.

구체적으로 공간 제어 가능한 생성, 텍스트 기반 재편집, 더 나은 텍스트 프롬프트 따르기 및 생성 개념 사용자 정의

(개념 사용자 정의) 의 네 가지 측면에서 시작됩니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

이 섹션의 끝에서 저자는 현재 연구 동향과 향후 연구 방향에 대한 견해도 공유합니다.

인간의 의도를 더 잘 따르고 위의 네 가지 방향을 모두 더 유연하고 실현 가능하게 만들기 위해서는 대신에 우리가 필요로 하는 것은 일반 텍스트 생성 모델 개발

네 가지 방향의 각 대표 작품은 다음과 같습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

3. 통합된 시각적 모델

이 부분에서는 통합된 시각적 모델을 구축하는 데 직면한 과제에 대해 논의합니다.

The 다시 작성해야 하는 콘텐츠는 다음과 같습니다. 첫째, 입력 유형이 다릅니다.

다시 작성해야 하는 콘텐츠는 다음과 같습니다. 둘째, 작업마다 세부성이 서로 다르며 출력에도 서로 다른 형식이 필요합니다. 모델링 외에도 도전

예를 들어 다양한 유형의 라벨 주석 비용은 크게 다르며 수집 비용은 텍스트 데이터보다 훨씬 높기 때문에 시각적 데이터의 크기는 일반적으로 텍스트 말뭉치보다 훨씬 작습니다.

그러나 많은 어려움에도 불구하고 저자는 다음과 같이 지적했습니다.

CV 분야는 일반 및 통합 비전 시스템 개발에 점점 더 관심을 갖고 있으며 세 가지 유형의 트렌드가 나타났습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

첫 번째, 폐쇄 세트에서( Closed-set) to open-set(open-set)으로 텍스트와 비주얼이 더 잘 어울립니다.

특정 업무에서 일반 역량으로 전환하는 가장 중요한 이유는 새로운 업무마다 새로운 모델을 개발하는 데 드는 비용이 너무 높기 때문입니다

세 번째는 정적 모델에서 프롬프트 가능한 모델로, LLM은 다양한 언어를 채택할 수 있습니다 ​​​​그리고 상황에 맞는 프롬프트를 입력으로 받아 미세 조정 없이 사용자가 원하는 출력을 생성합니다. 우리가 구축하려는 일반 비전 모델은 동일한 상황별 학습 기능을 가져야 합니다.

4. LLM에서 지원하는 다중 모드 대형 모델

이 섹션에서는 다중 모드 대형 모델에 대해 포괄적으로 설명합니다.

먼저 배경과 대표적인 사례에 대한 심층적인 연구를 진행하고 OpenAI의 다중 모드 연구 진행 상황에 대해 논의하며 이 분야의 기존 연구 격차를 파악합니다.

다음으로 저자는 대규모 언어 모델에서 명령어 미세 조정의 중요성을 자세히 살펴봅니다.

그런 다음 저자는 원리, 의미 및 적용을 포함하여 다중 모드 대형 모델의 지침을 미세 조정하는 방법에 대해 논의합니다.

마지막으로 우리는 더 깊은 이해를 위해 다중 모드 모델 분야의 몇 가지 고급 주제도 다룰 것입니다. 콘텐츠.

5. 멀티모달 에이전트

멀티모달 에이전트는 다양한 멀티모달 전문가를 LLM과 연결하여 복잡한 멀티모달 이해 문제를 해결하는 방법입니다.

이 부분에서 저자는 주로 이 모델의 변형을 검토하고 이 방법과 기존 방법의 근본적인 차이점을 요약합니다.

MM-REACT를 예로 들어 이 방법이 어떻게 작동하는지 자세히 소개하겠습니다.

다중 모드 에이전트를 구축하는 방법과 다중 모드 이해에 대한 새로운 기능에 대한 포괄적인 접근 방식을 추가로 요약합니다. 또한 최신 및 최고의 LLM과 잠재적으로 수백만 개의 도구를 포함하여 이 기능을 쉽게 확장하는 방법도 다룹니다.

물론 마지막에는 다중 양식 에이전트를 개선/평가하는 방법을 포함하여 몇 가지 높은 수준의 주제도 논의됩니다. 이를 기반으로 구축된 다양한 애플리케이션 등

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서저자 소개

이 보고서의 저자는 7명입니다

발기자이자 총괄 책임자는 Chunyuan Li입니다. 그는 Microsoft Redmond의 수석 연구원이며 Duke University에서 박사 학위를 취득했습니다. 그의 최근 연구 관심 분야는 CV 및 NLP에 대한 대규모 사전 교육입니다.

그는 오프닝 소개와 마무리 요약을 담당했을 뿐만 아니라 "LLM을 사용하여 훈련된 다중 모드 대형 모델" 장의 집필도 담당했습니다. 재작성된 내용: 그는 기사의 시작과 끝뿐만 아니라 "LLM을 사용하여 훈련된 다중 모드 대형 모델" 장도 작성했습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

핵심 작성자는 4명입니다:

Zhe Gan
  • 이제 Apple AI/ML에 합류하여 대규모 비전 및 다중 모드 기본 모델 연구를 담당하고 있습니다. 이전에는 Microsoft Azure AI의 수석 연구원으로 북경 대학교에서 학사 및 석사 학위를, 듀크 대학교에서 박사 학위를 취득했습니다.

Zhengyuan Yang
  • Microsoft의 수석 연구원입니다. 그는 로체스터 대학을 졸업하고 ACM SIGMM 우수 박사상 및 기타 영예를 받았습니다. 그는 중국 과학 기술 대학교

Jianwei Yang
  • Microsoft Research Redmond 딥 러닝 그룹 수석 연구원에서 학부생으로 공부했습니다. 조지아 공과대학 박사.

Linjie Li
  • (여)
  • Microsoft 클라우드 및 AI 컴퓨터 비전 그룹 연구원, 퍼듀 대학교에서 석사 학위를 취득했습니다.

그들은 나머지 4개 주제 장의 작성을 각각 담당했습니다.

리뷰 주소: https://arxiv.org/abs/2309.10020

위 내용은 다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

ddrescue를 사용하여 Linux에서 데이터 복구 ddrescue를 사용하여 Linux에서 데이터 복구 Mar 20, 2024 pm 01:37 PM

DDREASE는 하드 드라이브, SSD, RAM 디스크, CD, DVD 및 USB 저장 장치와 같은 파일 또는 블록 장치에서 데이터를 복구하기 위한 도구입니다. 한 블록 장치에서 다른 블록 장치로 데이터를 복사하여 손상된 데이터 블록은 남겨두고 양호한 데이터 블록만 이동합니다. ddreasue는 복구 작업 중에 간섭이 필요하지 않으므로 완전히 자동화된 강력한 복구 도구입니다. 게다가 ddasue 맵 파일 덕분에 언제든지 중지하고 다시 시작할 수 있습니다. DDREASE의 다른 주요 기능은 다음과 같습니다. 복구된 데이터를 덮어쓰지 않지만 반복 복구 시 공백을 채웁니다. 그러나 도구에 명시적으로 지시된 경우에는 잘릴 수 있습니다. 여러 파일이나 블록의 데이터를 단일 파일로 복구

오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! 오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! Apr 03, 2024 pm 12:04 PM

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

여러 조건으로 Excel 필터 기능을 사용하는 방법 여러 조건으로 Excel 필터 기능을 사용하는 방법 Feb 26, 2024 am 10:19 AM

Excel에서 여러 기준으로 필터링을 사용하는 방법을 알아야 하는 경우 다음 자습서에서는 데이터를 효과적으로 필터링하고 정렬할 수 있는 단계를 안내합니다. Excel의 필터링 기능은 매우 강력하며 많은 양의 데이터에서 필요한 정보를 추출하는 데 도움이 될 수 있습니다. 이 기능을 사용하면 설정한 조건에 따라 데이터를 필터링하고 조건에 맞는 부분만 표시하여 데이터 관리를 더욱 효율적으로 할 수 있습니다. 필터 기능을 사용하면 대상 데이터를 빠르게 찾을 수 있어 데이터 검색 및 정리에 드는 시간을 절약할 수 있습니다. 이 기능은 단순한 데이터 목록에만 적용할 수 있는 것이 아니라, 여러 조건에 따라 필터링하여 필요한 정보를 보다 정확하게 찾을 수 있도록 도와줍니다. 전반적으로 Excel의 필터링 기능은 매우 실용적입니다.

Google은 열광하고 있습니다. JAX 성능이 Pytorch와 TensorFlow를 능가합니다! GPU 추론 훈련을 위한 가장 빠른 선택이 될 수 있습니다. Google은 열광하고 있습니다. JAX 성능이 Pytorch와 TensorFlow를 능가합니다! GPU 추론 훈련을 위한 가장 빠른 선택이 될 수 있습니다. Apr 01, 2024 pm 07:46 PM

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 May 03, 2024 pm 09:01 PM

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. 초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. Apr 29, 2024 pm 06:55 PM

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. 미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. May 07, 2024 pm 05:00 PM

최근 군계는 미군 전투기가 이제 AI를 활용해 완전 자동 공중전을 완수할 수 있다는 소식에 충격을 받았다. 네, 얼마 전 미군의 AI 전투기가 최초로 공개되면서 그 미스터리가 드러났습니다. 이 전투기의 정식 명칭은 VISTA(Variable Stability Flight Simulator Test Aircraft)로 미 공군 장관이 직접 조종해 일대일 공중전을 모의 실험한 것이다. 5월 2일, 미 공군 장관 프랭크 켄달(Frank Kendall)이 X-62AVISTA를 타고 에드워드 공군 기지에서 이륙했습니다. 1시간의 비행 동안 모든 비행 작업은 AI에 의해 자동으로 완료되었습니다. Kendall은 "지난 수십 년 동안 우리는 자율 공대공 전투의 무한한 잠재력에 대해 생각해 왔지만 항상 도달할 수 없는 것처럼 보였습니다."라고 말했습니다. 그러나 지금은,

다섯 개의 유연한 손가락과 초인적인 속도를 갖춘 인간 작업을 자율적으로 완료하는 최초의 로봇 등장, 가상 공간 훈련을 지원하는 대형 모델 다섯 개의 유연한 손가락과 초인적인 속도를 갖춘 인간 작업을 자율적으로 완료하는 최초의 로봇 등장, 가상 공간 훈련을 지원하는 대형 모델 Mar 11, 2024 pm 12:10 PM

이번 주, 오픈AI(OpenAI), 마이크로소프트(Microsoft), 베조스(Bezos), 엔비디아(Nvidia)가 투자한 로봇 회사인 FigureAI는 약 7억 달러의 자금 조달을 받았으며 내년 내에 독립적으로 걸을 수 있는 휴머노이드 로봇을 개발할 계획이라고 발표했습니다. 그리고 Tesla의 Optimus Prime은 계속해서 좋은 소식을 받았습니다. 올해가 휴머노이드 로봇이 폭발하는 해가 될 것이라는 데는 누구도 의심하지 않는다. 캐나다에 본사를 둔 로봇 회사인 SanctuaryAI는 최근 새로운 휴머노이드 로봇인 Phoenix를 출시했습니다. 관계자들은 이 로봇이 인간과 같은 속도로 자율적으로 많은 작업을 완료할 수 있다고 주장한다. 인간의 속도로 자동으로 작업을 완료할 수 있는 세계 최초의 로봇인 Pheonix는 각 물체를 부드럽게 잡고 움직이며 우아하게 왼쪽과 오른쪽에 배치할 수 있습니다. 자동으로 물체를 식별할 수 있습니다.

See all articles