캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기-일체 포함-php.cn

Background

M2KR 데이터 세트

PreFLMR 검색 모델

실험 결과 및 수직 확장

결론

집

기술 주변기기

일체 포함

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

PHPz

Mar 25, 2024 pm 08:50 PM

ai 오픈 소스 기차

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

논문 링크: https://arxiv.org/abs/2402.08327
DEMO 링크: https://u60 544-b8d4-53eaa55d. westx .seetacloud.com:8443/
프로젝트 홈페이지 링크: https://preflmr.github.io/
논문 제목: PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal 리트리버

Background

대형 멀티모달 모델(예: GPT4-Vision, Gemini 등)은 강력한 일반 이미지 및 텍스트 이해 기능을 보여주었지만, 전문적인 지식이 필요한 문제. GPT4-Vision조차도 지식 집약적인 질문(그림 1 참조)에 효과적으로 답할 수 없으며, 이는 많은 기업 수준 애플리케이션에 문제를 야기합니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

GPT4-Vision은 PreFLMR 다중 모달 지식 검색기를 통해 관련 지식을 얻고 정확한 답변을 생성할 수 있습니다. 그림은 모델의 실제 출력을 보여줍니다.

검색 증강 생성(RAG)은 이 문제를 해결하는 간단하고 효과적인 방법을 제공하여 대규모 다중 모드 모델을 특정 분야의 "도메인 전문가"처럼 만들 수 있습니다. 작동 원리는 다음과 같습니다. 먼저 경량 지식 검색기(Knowledge Retriever)를 사용하여 전문 데이터베이스(예: Wikipedia 또는 기업 지식 기반)에서 관련 전문 지식을 검색한 다음 대규모 모델이 이 지식과 질문을 입력으로 사용합니다. 그리고 정확한 답을 출력합니다. 다중 모드 지식 추출기의 지식 "회상 능력"은 대규모 모델이 추론 질문에 답할 때 정확한 전문 지식을 얻을 수 있는지 여부에 직접적인 영향을 미칩니다.

최근 케임브리지 대학교 정보공학과 인공 지능 연구소는 최초의 사전 훈련된 범용 다중 모달 후기 상호 작용 지식 검색 PreFLMR(사전 훈련된 세분화된 세분화)을 완전히 오픈 소스화했습니다. 후기 상호작용 다중 모달 리트리버) . 과거의 일반 모델과 비교하여 PreFLMR은 다음과 같은 특징을 가지고 있습니다.

PreFLMR은 텍스트 검색, 이미지 검색, 지식 검색 등 여러 하위 작업을 효과적으로 해결할 수 있는 일반적인 사전 학습 모델입니다. 수백만 수준의 다중 모드 데이터에 대해 사전 훈련된 이 모델은 여러 다운스트림 검색 작업에서 잘 작동합니다. 또한 우수한 기본 모델인 PreFLMR은 Private Data에 대한 미세 조정을 거쳐 우수한 도메인별 모델로 빠르게 발전할 수 있습니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 2: PreFLMR 모델은 동시에 여러 작업에서 뛰어난 다중 모드 검색 성능을 달성하며 매우 강력한 사전 학습 기본 모델입니다.

2. 전통적인 DPR(Dense Passage Retrieval)은 하나의 벡터만 사용하여 쿼리(Query) 또는 문서(Document)를 나타냅니다. NeurIPS 2023에서 캠브리지 팀이 발표한 FLMR 모델은 DPR의 단일 벡터 표현 설계가 미세한 정보 손실로 이어질 수 있으며, 이로 인해 DPR이 정밀한 정보 일치가 필요한 검색 작업에서 성능이 저하될 수 있음을 입증했습니다. 특히 다중 모드 작업의 경우 사용자 쿼리에는 복잡한 장면 정보가 포함되어 있으며 이를 1차원 벡터로 압축하면 특징 표현 능력이 크게 저해됩니다. PreFLMR은 FLMR의 구조를 상속하고 개선하여 다중 모드 지식 검색에 고유한 이점을 제공합니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 3: PreFLMR은 쿼리(쿼리, 왼쪽의 1, 2, 3)와 문서(문서, 오른쪽의 4)를 문자 수준(토큰 수준)으로 인코딩합니다. 정보를 1차원 벡터로 압축하는 모든 DPR 시스템을 인코딩하는 것은 세분화된 정보를 얻을 수 있다는 장점이 있습니다.

3. PreFLMR은 사용자가 입력한 지침(예: "다음 질문에 대답하는 데 사용할 수 있는 문서 추출" 또는 "그림의 항목과 관련된 문서 추출")을 기반으로 방대한 지식 베이스에서 관련 문서를 추출할 수 있습니다. "), 다중 모드 대형 모델을 지원하여 전문 지식 질문 및 답변 작업의 성능을 크게 향상시킵니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 4: PreFLMR은 이미지 기반 문서 추출, 질문 기반 문서 추출, 질문 기반 문서와 이미지 기반 문서를 함께 추출하는 멀티 모달 쿼리 작업을 동시에 처리할 수 있습니다. .

캠브리지 대학 팀은 소형부터 대형까지 세 가지 모델을 오픈 소스로 제공했습니다. PreFLMR_ViT-B(207M), PreFLMR_ViT-L(422M), PreFLMR_ViT-G(2B) , 사용자가 실제 조건에 따라 선택할 수 있습니다.

오픈 소스 모델 PreFLMR 자체 외에도 이 프로젝트는 이 연구 방향에서 두 가지 중요한 기여를 했습니다.

이 프로젝트는 또한 일반 지식 검색을 훈련하고 평가하기 위한 대규모 데이터 세트를 오픈 소스로 제공했습니다. M2KR(Multi-task Multi-modal Knowledge Retrieval Benchmark)은 학계에서 널리 연구된 10개의 검색 하위 작업과 총 100만 개 이상의 검색 쌍을 포함합니다.
논문에서 케임브리지 대학 팀은 다양한 크기와 성능의 이미지 인코더와 텍스트 인코더를 비교하고 미래 일반 검색을 위한 매개변수 확장 및 다중 모드 사후 상호작용 지식 검색 시스템 사전 훈련을 위한 모범 사례를 요약했습니다. 모델은 경험적 지침을 제공합니다.

다음에서는 M2KR 데이터 세트, PreFLMR 모델 및 실험 결과 분석을 간략하게 소개합니다.

M2KR 데이터 세트

일반 다중 모드 검색 모델을 대규모로 사전 훈련하고 평가하기 위해 저자는 공개적으로 사용 가능한 10개의 데이터 세트를 컴파일하고 이를 통합된 문제 문서 검색 형식으로 변환했습니다. 이러한 데이터 세트의 원래 작업에는 이미지 캡션 작성, 다중 모드 대화 등이 포함됩니다. 아래 그림은 5개 작업에 대한 질문(첫 번째 행)과 해당 문서(두 번째 행)를 보여줍니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 5: M2KR 데이터 세트의 지식 추출 작업의 일부

PreFLMR 검색 모델

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 6: PreFLMR의 모델 구조. 쿼리는 토큰 수준 기능으로 인코딩됩니다. 쿼리 행렬의 각 벡터에 대해 PreFLMR은 문서 행렬에서 가장 가까운 벡터를 찾고 내적을 계산한 다음 이러한 최대 내적을 합산하여 최종 관련성을 얻습니다.

PreFLMR 모델은 NeurIPS 2023에 게시된 Fine-grained Late-interaction Multi-modal Retriever(FLMR)를 기반으로 하며 M2KR에서 모델 개선 및 대규모 사전 학습을 거칩니다. DPR과 비교하여 FLMR 및 PreFLMR은 모든 토큰 벡터로 구성된 매트릭스를 사용하여 문서 및 쿼리를 특성화합니다. 토큰에는 텍스트 토큰과 텍스트 공간에 투영된 이미지 토큰이 포함됩니다. 후기 상호작용은 두 표현 행렬 사이의 상관관계를 효율적으로 계산하기 위한 알고리즘입니다. 구체적인 방법은 쿼리 행렬의 각 벡터에 대해 문서 행렬에서 가장 가까운 벡터를 찾고 내적을 계산하는 것입니다. 그런 다음 이러한 최대 내적을 합산하여 최종 상관 관계를 얻습니다. 이러한 방식으로 각 토큰의 표현은 최종 상관 관계에 명시적으로 영향을 미칠 수 있으므로 토큰 수준의 세분화된 정보가 보존됩니다. 전용 사후 대화형 검색 엔진 덕분에 PreFLMR은 단 0.2초 만에 400,000개의 문서 중 100개의 관련 문서를 추출할 수 있어 RAG 시나리오에서의 유용성이 크게 향상됩니다.

PreFLMR 사전 훈련은 다음 4단계로 구성됩니다.

텍스트 인코더 사전 훈련: 먼저, 사후 대화형 텍스트 검색 모델은 PreFLMR의 텍스트 인코더인 MSMARCO(순수 텍스트 지식 검색 데이터 세트)에서 사전 훈련됩니다.
이미지-텍스트 투영 레이어 사전 훈련: 둘째, M2KR에서 이미지-텍스트 투영 레이어를 훈련하고 다른 부분을 동결합니다. 이 단계에서는 모델이 텍스트 정보에 지나치게 의존하는 것을 방지하기 위해 검색을 위해 투영된 이미지 벡터만 사용합니다.
지속적인 사전 훈련: 그런 다음 텍스트 인코더와 이미지-텍스트 프로젝션 레이어는 E-VQA, M2KR의 고품질 지식 집약적 시각적 질문 응답 작업에 대해 지속적으로 훈련됩니다. 이 단계는 PreFLMR의 정밀한 지식 검색 기능을 향상시키는 것을 목표로 합니다.
Universal Retrieval Training: 마지막으로 전체 M2KR 데이터 세트에 대한 모든 가중치를 훈련하고 이미지 인코더만 동결합니다. 동시에 쿼리 텍스트 인코더와 문서 텍스트 인코더의 매개변수가 별도로 잠금 해제되고 학습됩니다. 이 단계는 PreFLMR의 일반 검색 기능을 향상시키는 것을 목표로 합니다.

동시에 저자는 PreFLMR이 하위 데이터 세트(예: OK-VQA, Infoseek)에서 더욱 미세 조정되어 특정 작업에서 더 나은 검색 성능을 얻을 수 있음을 보여줍니다.

실험 결과 및 수직 확장

최상의 검색 결과: 최고 성능의 PreFLMR 모델은 ViT-G를 이미지 인코더로 사용하고 ColBERT-base-v2를 텍스트 인코더로 사용하며 총 20억 개의 매개변수를 사용합니다. 7개의 M2KR 검색 하위 작업(WIT, OVEN, Infoseek, E-VQA, OKVQA 등)에서 기준 모델 이상의 성능을 달성합니다.

확장된 시각적 인코딩이 더 효과적입니다. 저자는 이미지 인코더 ViT를 ViT-B(86M)에서 ViT-L(307M)로 업그레이드하면 성능이 크게 향상되지만 텍스트 인코더 ColBERT를 기본(110M)에서 업그레이드한다는 사실을 발견했습니다. )를 대규모(345M)로 확장하면 성능 저하가 발생하고 훈련 불안정 문제가 발생했습니다. 실험 결과에 따르면 이후의 대화형 다중 모드 검색 시스템에서는 시각적 인코더의 매개변수를 늘리면 더 큰 수익을 얻을 수 있는 것으로 나타났습니다. 동시에 이미지-텍스트 투영에 Cross-attention의 다중 레이어를 사용하는 것은 단일 레이어를 사용하는 것과 동일한 효과를 가지므로 이미지-텍스트 투영 네트워크의 설계가 너무 복잡할 필요가 없습니다.

PreFLMR은 RAG를 더욱 효과적으로 만듭니다. 지식 집약적인 시각적 질문 응답 작업에서 검색 향상을 위해 PreFLMR을 사용하면 최종 시스템의 성능이 크게 향상됩니다. Infoseek 및 EVQA에서 각각 94% 및 275% 성능 향상이 달성되었습니다. 간단한 미세 조정을 통해 BLIP-2 기반 모델은 수천억 개의 매개변수가 있는 PALI-X 모델과 Google API로 강화된 PaLM-Bison+Lens 시스템을 이길 수 있습니다.

결론

Cambridge Artificial Intelligence Laboratory에서 제안한 PreFLMR 모델은 최초의 오픈 소스 일반 후기 대화형 다중 모드 검색 모델입니다. M2KR에서 수백만 개의 데이터를 사전 훈련한 후 PreFLMR은 여러 검색 하위 작업에서 강력한 성능을 보여줍니다. M2KR 데이터 세트, PreFLMR 모델 가중치 및 코드는 프로젝트 홈페이지 https://preflmr.github.io/에서 확인할 수 있습니다.

자원 확장

FLMR 논문(NeurIPS 2023): https://proceedings.neurips.cc/paper_files/paper/2023/hash/47393e8594c82ce8fd83adc67 2cf 9872-Abstract-Conference.html
코드 베이스: https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-Answering
영어 버전 블로그: https://www.jinghong-chen.net/preflmr-sota-open- sourced -multi/
FLMR 소개: https://www.jinghong-chen.net/fined-grained-late-interaction-multimodal-retrieval-flmr/

위 내용은 캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7554

Cakephp 튜토리얼

1382

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

Centos 설치 MySQL Apr 14, 2025 pm 08:09 PM

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

CentOS8은 ssh를 다시 시작합니다 Apr 14, 2025 pm 09:00 PM

SSH 서비스를 다시 시작하라는 명령은 SystemCTL SSHD를 다시 시작합니다. 자세한 단계 : 1. 터미널에 액세스하고 서버에 연결; 2. 명령을 입력하십시오 : SystemCTL SSHD 재시작; 3. 서비스 상태를 확인하십시오 : SystemCTL 상태 SSHD.

Centos에서 Pytorch의 분산 교육을 운영하는 방법 Apr 14, 2025 pm 06:36 PM

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

See all articles

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

Background

M2KR 데이터 세트

PreFLMR 검색 모델

실험 결과 및 수직 확장

결론

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제