Multimodal 검색 증명 생성 (RAG) 시스템은 텍스트, 이미지, 오디오 및 비디오 등 다양한 데이터 유형을 통합하여 AI를 혁신하고 있습니다. 이것은 전통적인 걸레를 능가하는 텍스트에만 초점을 둔 전통적인 걸레를 능가합니다. 주요 발전은 Nomic Vision Embedding으로 시각적 및 텍스트 데이터를위한 통합 공간을 만들어 원활한 교차 모달 상호 작용을 가능하게합니다. 고급 모델은 고품질 임베딩을 생성하여 정보 검색을 개선하고 다양한 컨텐츠 형태 간의 격차를 해소하여 궁극적으로 사용자 경험을 풍부하게합니다.
학습 목표
멀티 모달 헝겊의 기본 사항과 전통적인 래그에 대한 장점을 파악하십시오.
텍스트와 이미지 임베딩 공간을 통일하는 데있어서 비전 비전 임베딩의 역할을 이해합니다.
nomic 비전 임베딩을 클립 모델과 비교하고 성능 벤치 마크를 분석합니다.
nomic 비전 및 텍스트 임베딩을 사용하여 파이썬에서 멀티 모달 래그 시스템을 구현하십시오.
멀티 모달 검색을 위해 PDFS에서 텍스트 및 시각 데이터를 추출하고 처리하는 법을 배우십시오.
*이 기사는 *** 데이터 과학 블로그 톤의 일부입니다
목차
멀티 모달 래그 란 무엇입니까?
nomic 비전 임베딩
nomic 비전 임베딩의 성능 벤치 마크
nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현
1 단계 : 필요한 라이브러리 설치
2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기
3 단계 : PDF에서 이미지 추출
4 단계 : pdf
6 단계 : 텍스트 데이터 청킹
7 단계 : 로딩 노미 임베딩 모델
8 단계 : 내장 생성
9 단계 : QDRANT 에 텍스트 임베드를 저장합니다
10 단계 : QDRANT 에 이미지 임베딩을 저장합니다
11 단계 : 멀티 모달 리트리버 생성
12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것
쿼리
결론
자주 묻는 질문
멀티 모달 래그 란 무엇입니까?
멀티 모달 래그는 다양한 데이터 유형을 통합하여 전통적인 래그를 기반으로 한 상당한 AI 발전을 나타냅니다. 텍스트를 주로 처리하는 기존 시스템과 달리 멀티 모달 래그는 여러 데이터 형식을 동시에 통합합니다. 이것은 다른 양식에 걸쳐보다 포괄적 인 이해와 맥락 인식 반응으로 이어집니다. .
주요 멀티 모달 래그 구성 요소 :
데이터 수집 : 다양한 소스의 - 데이터는 특수 프로세서를 사용하여 섭취하여 검증, 청소 및 정규화를 보장합니다.
벡터 표현 : 양식은 신경망 (예 : 이미지 클립, 텍스트의 버트)을 사용하여 처리됩니다.
벡터 데이터베이스 스토리지 : 임베딩은 효율적인 검색을 위해 인덱싱 기술 (HNSW, FAISS)을 사용하여 최적화 된 벡터 데이터베이스 (예 : Qdrant)에 저장됩니다.
쿼리 처리 : > 들어오는 쿼리는 분석되고, 저장된 데이터와 동일한 벡터 공간으로 변환되며, 관련 양식을 식별하고 검색을위한 임베딩을 생성하는 데 사용됩니다.
-
nomic 비전 임베딩
nomic 비전 임베드는 주요 혁신으로 시각적 및 텍스트 데이터를위한 통합 된 임베딩 공간을 만듭니다. NOMIC AI가 개발 한 Nomic Imbed Vision V1 및 V1.5는 텍스트 상대와 동일한 잠복 공간을 공유합니다 (Nomic Imbed Text V1 및 V1.5). 따라서 텍스트-이미지 검색과 같은 멀티 모달 작업에 이상적입니다. 상대적으로 작은 매개 변수 수 (92m)를 사용하면 NOMIC Imbed Vision은 대규모 응용 프로그램에 효율적입니다.
클립 모델 제한 주소 지정 :
클립은 제로 샷 기능으로 탁월하지만 텍스트 인코더는 이미지 검색 이외의 작업에서 (MTEB 벤치 마크에 표시된대로) 성능이 저조합니다. Nomic Imbed Vision은 Nomic Embed Text 잠재 공간과 비전 인코더를 정렬하여이를 해결합니다.
nomic embed Vision은 Nomic Imbed Text와 함께 훈련되어 텍스트 인코더를 동결하고 이미지 텍스트 쌍의 비전 인코더를 훈련 시켰습니다. 이를 통해 NOMIC INMED TEXT INMEDDING과 최적의 결과와 후진 호환성을 보장합니다.
nomic 비전 임베딩의 성능 벤치 마크
클립 모델은 제로 샷 기능에서 인상적이지만 시맨틱 유사성 (MTEB 벤치 마크)과 같은 단단한 작업에서 약점을 보여줍니다. NOMIC INMED VISION은 NOMIC INMED 텍스트 잠재 공간과 비전 인코더를 정렬하여 이미지, 텍스트 및 멀티 모달 작업 (ImageNet Zero-Shot, MTEB, DataComp 벤치 마크)에서 강력한 성능을 제공함으로써이를 극복합니다.
-
nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현
이 튜토리얼은 텍스트와 이미지가 포함 된 PDF에서 정보를 검색하는 멀티 모달 래그 시스템 (T4 GPU와 함께 Google Colab 사용)을 구축합니다.
1 단계 : 라이브러리 설치
필요한 파이썬 라이브러리 설치 : OpenAi, Qdrant, Transformers, Torch, Pymupdf 등2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기
OpenAI API 키를 설정하고 필수 라이브러리를 가져옵니다 (Pymupdf, Pil, Langchain, OpenAi 등). (간결성을 위해 코드가 생략되었습니다.)
3 단계 : PDF에서 이미지 추출
pymupdf를 사용하여 PDF에서 이미지를 추출하고 디렉토리로 저장하십시오. (간결성을 위해 코드가 생략되었습니다.)
4 단계 : pdf pymupdf를 사용하여 각 pdf 페이지에서 텍스트를 추출하십시오. (간결성을 위해 코드가 생략되었습니다.)
5 단계 : 추출 된 데이터 저장
추출 된 이미지와 텍스트를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.)
6 단계 : 텍스트 데이터 청킹
추출 된 텍스트를 Langchain의 를 사용하여 작은 덩어리로 나눕니다. (간결성을 위해 코드가 생략되었습니다.)
7 단계 : 로딩 노미 임베딩 모델
Hugging Face의 변압기를 사용하여 Nomic의 텍스트 및 비전 임베딩 모델을로드하십시오. (간결성을 위해 코드가 생략되었습니다.)
8 단계 : 내장 생성
텍스트 및 이미지 임베딩을 생성합니다. (간결성을 위해 코드가 생략되었습니다.)
9 단계 : QDRANT 에 텍스트 임베드를 저장합니다
Qdrant 컬렉션에 텍스트 임베드를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.)
10 단계 : QDRANT 에 이미지 임베딩을 저장합니다
이미지 임베딩을 별도의 Qdrant 컬렉션에 저장하십시오. (간결성을 위해 코드가 생략되었습니다.)
11 단계 : 멀티 모달 리트리버 생성
쿼리를 기반으로 관련 텍스트 및 이미지 임베딩을 검색하는 함수를 만듭니다. (간결성을 위해 코드가 생략되었습니다.)
12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것
Langchain을 사용하여 검색된 데이터를 처리하고 언어 모델 (예 : GPT-4)을 사용하여 응답을 생성합니다. (간결성을 위해 코드가 생략되었습니다.)
쿼리
예제 쿼리는 PDF 내 텍스트와 이미지 모두에서 정보를 검색하는 시스템의 능력을 보여줍니다. (예제는 간결성을 위해 쿼리 및 출력이 생략되었지만 원본에는 존재합니다.)
결론
nomic 비전 임베드는 멀티 모달 래그를 크게 향상시켜 시각적 데이터와 텍스트 데이터 사이의 원활한 상호 작용을 가능하게합니다. 이는 클립과 같은 모델의 한계를 해결하여 통일 된 임베딩 공간을 제공하고 다양한 작업에서 개선 된 성능을 제공합니다. 이것은 생산 환경에서 더 풍부하고 상황을 인식하는 사용자 경험으로 이어집니다.
키 테이크 아웃
멀티 모달 래그는보다 포괄적 인 이해를 위해 다양한 데이터 유형을 통합합니다.
nomic 비전 임베드는 개선 된 정보 검색을위한 시각적 및 텍스트 데이터를 통합합니다.
시스템은 효율적인 검색을 위해 특수 처리, 벡터 표현 및 스토리지를 사용합니다.
nomic embed Vision은 단단한 작업에서 클립의 한계를 극복합니다
자주 묻는 질문
(FAQS는 간결하게 생략되었지만 원본에 존재합니다.) 참고 : 코드 스 니펫은 간결하게 생략되었지만 핵심 기능과 단계는 정확하게 설명되어 있습니다. 원래 입력에는 광범위한 코드가 포함되어 있습니다. 그것을 포함 하여이 응답을 지나치게 길게 만들 것입니다. 완전한 코드 구현은 원래 입력을 참조하십시오.
위 내용은 nomic 임베딩으로 헝겊 시스템을 향상시킵니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!