기술 주변기기 일체 포함 nomic 임베딩으로 헝겊 시스템을 향상시킵니다

nomic 임베딩으로 헝겊 시스템을 향상시킵니다

Mar 03, 2025 pm 06:08 PM

Multimodal 검색 증명 생성 (RAG) 시스템은 텍스트, 이미지, 오디오 및 비디오 등 다양한 데이터 유형을 통합하여 AI를 혁신하고 있습니다. 이것은 전통적인 걸레를 능가하는 텍스트에만 초점을 둔 전통적인 걸레를 능가합니다. 주요 발전은 Nomic Vision Embedding으로 시각적 및 텍스트 데이터를위한 통합 공간을 만들어 원활한 교차 모달 상호 작용을 가능하게합니다. 고급 모델은 고품질 임베딩을 생성하여 정보 검색을 개선하고 다양한 컨텐츠 형태 간의 격차를 해소하여 궁극적으로 사용자 경험을 풍부하게합니다. 학습 목표

멀티 모달 헝겊의 기본 사항과 전통적인 래그에 대한 장점을 파악하십시오. 텍스트와 이미지 임베딩 공간을 통일하는 데있어서 비전 비전 임베딩의 역할을 이해합니다. nomic 비전 임베딩을 클립 모델과 비교하고 성능 벤치 마크를 분석합니다. nomic 비전 및 텍스트 임베딩을 사용하여 파이썬에서 멀티 모달 래그 시스템을 구현하십시오. 멀티 모달 검색을 위해 PDFS에서 텍스트 및 시각 데이터를 추출하고 처리하는 법을 배우십시오.

*이 기사는 *** 데이터 과학 블로그 톤의 일부입니다 목차
  • 멀티 모달 래그 란 무엇입니까? nomic 비전 임베딩 nomic 비전 임베딩의 성능 벤치 마크 nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현 1 단계 : 필요한 라이브러리 설치 2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기 3 단계 : PDF에서 이미지 추출 4 단계 : pdf 6 단계 : 텍스트 데이터 청킹 7 단계 : 로딩 노미 임베딩 모델 8 단계 : 내장 생성 9 단계 : QDRANT 에 텍스트 임베드를 저장합니다 10 단계 : QDRANT 에 이미지 임베딩을 저장합니다 11 단계 : 멀티 모달 리트리버 생성 12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것
  • 쿼리 결론 자주 묻는 질문
  • 멀티 모달 래그 란 무엇입니까? 멀티 모달 래그는 다양한 데이터 유형을 통합하여 전통적인 래그를 기반으로 한 상당한 AI 발전을 나타냅니다. 텍스트를 주로 처리하는 기존 시스템과 달리 멀티 모달 래그는 여러 데이터 형식을 동시에 통합합니다. 이것은 다른 양식에 걸쳐보다 포괄적 인 이해와 맥락 인식 반응으로 이어집니다. . 주요 멀티 모달 래그 구성 요소 :

      데이터 수집 : 다양한 소스의
    • 데이터는 특수 프로세서를 사용하여 섭취하여 검증, 청소 및 정규화를 보장합니다. 벡터 표현 : 양식은 신경망 (예 : 이미지 클립, 텍스트의 버트)을 사용하여 처리됩니다. 벡터 데이터베이스 스토리지 : 임베딩은 효율적인 검색을 위해 인덱싱 기술 (HNSW, FAISS)을 사용하여 최적화 된 벡터 데이터베이스 (예 : Qdrant)에 저장됩니다. 쿼리 처리 : > 들어오는 쿼리는 분석되고, 저장된 데이터와 동일한 벡터 공간으로 변환되며, 관련 양식을 식별하고 검색을위한 임베딩을 생성하는 데 사용됩니다.
    • nomic 비전 임베딩 nomic 비전 임베드는 주요 혁신으로 시각적 및 텍스트 데이터를위한 통합 된 임베딩 공간을 만듭니다. NOMIC AI가 개발 한 Nomic Imbed Vision V1 및 V1.5는 텍스트 상대와 동일한 잠복 공간을 공유합니다 (Nomic Imbed Text V1 및 V1.5). 따라서 텍스트-이미지 검색과 같은 멀티 모달 작업에 이상적입니다. 상대적으로 작은 매개 변수 수 (92m)를 사용하면 NOMIC Imbed Vision은 대규모 응용 프로그램에 효율적입니다. 클립 모델 제한 주소 지정 : 클립은 제로 샷 기능으로 탁월하지만 텍스트 인코더는 이미지 검색 이외의 작업에서 (MTEB 벤치 마크에 표시된대로) 성능이 저조합니다. Nomic Imbed Vision은 Nomic Embed Text 잠재 공간과 비전 인코더를 정렬하여이를 해결합니다.
    • nomic embed Vision은 Nomic Imbed Text와 함께 훈련되어 텍스트 인코더를 동결하고 이미지 텍스트 쌍의 비전 인코더를 훈련 시켰습니다. 이를 통해 NOMIC INMED TEXT INMEDDING과 최적의 결과와 후진 호환성을 보장합니다. nomic 비전 임베딩의 성능 벤치 마크 클립 모델은 제로 샷 기능에서 인상적이지만 시맨틱 유사성 (MTEB 벤치 마크)과 같은 단단한 작업에서 약점을 보여줍니다. NOMIC INMED VISION은 NOMIC INMED 텍스트 잠재 공간과 비전 인코더를 정렬하여 이미지, 텍스트 및 멀티 모달 작업 (ImageNet Zero-Shot, MTEB, DataComp 벤치 마크)에서 강력한 성능을 제공함으로써이를 극복합니다.
    • nomic 비전 임베딩을 사용한 멀티 모달 래그의 실습 파이썬 구현 이 튜토리얼은 텍스트와 이미지가 포함 된 PDF에서 정보를 검색하는 멀티 모달 래그 시스템 (T4 GPU와 함께 Google Colab 사용)을 구축합니다. 1 단계 : 라이브러리 설치 필요한 파이썬 라이브러리 설치 : OpenAi, Qdrant, Transformers, Torch, Pymupdf 등2 단계 : OpenAI API 키 설정 및 라이브러리 가져 오기 OpenAI API 키를 설정하고 필수 라이브러리를 가져옵니다 (Pymupdf, Pil, Langchain, OpenAi 등). (간결성을 위해 코드가 생략되었습니다.) 3 단계 : PDF에서 이미지 추출 pymupdf를 사용하여 PDF에서 이미지를 추출하고 디렉토리로 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 4 단계 : pdf pymupdf를 사용하여 각 pdf 페이지에서 텍스트를 추출하십시오. (간결성을 위해 코드가 생략되었습니다.) 5 단계 : 추출 된 데이터 저장 추출 된 이미지와 텍스트를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 6 단계 : 텍스트 데이터 청킹 추출 된 텍스트를 Langchain의 를 사용하여 작은 덩어리로 나눕니다. (간결성을 위해 코드가 생략되었습니다.) 7 단계 : 로딩 노미 임베딩 모델 Hugging Face의 변압기를 사용하여 Nomic의 텍스트 및 비전 임베딩 모델을로드하십시오. (간결성을 위해 코드가 생략되었습니다.) 8 단계 : 내장 생성 텍스트 및 이미지 임베딩을 생성합니다. (간결성을 위해 코드가 생략되었습니다.) 9 단계 : QDRANT 에 텍스트 임베드를 저장합니다 Qdrant 컬렉션에 텍스트 임베드를 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 10 단계 : QDRANT 에 이미지 임베딩을 저장합니다 이미지 임베딩을 별도의 Qdrant 컬렉션에 저장하십시오. (간결성을 위해 코드가 생략되었습니다.) 11 단계 : 멀티 모달 리트리버 생성 쿼리를 기반으로 관련 텍스트 및 이미지 임베딩을 검색하는 함수를 만듭니다. (간결성을 위해 코드가 생략되었습니다.) 12 단계 : Langchain 로 다중 모달 헝겊을 만드는 것 Langchain을 사용하여 검색된 데이터를 처리하고 언어 모델 (예 : GPT-4)을 사용하여 응답을 생성합니다. (간결성을 위해 코드가 생략되었습니다.) 쿼리 예제 쿼리는 PDF 내 텍스트와 이미지 모두에서 정보를 검색하는 시스템의 능력을 보여줍니다. (예제는 간결성을 위해 쿼리 및 출력이 생략되었지만 원본에는 존재합니다.)

      결론 nomic 비전 임베드는 멀티 모달 래그를 크게 향상시켜 시각적 데이터와 텍스트 데이터 사이의 원활한 상호 작용을 가능하게합니다. 이는 클립과 같은 모델의 한계를 해결하여 통일 된 임베딩 공간을 제공하고 다양한 작업에서 개선 된 성능을 제공합니다. 이것은 생산 환경에서 더 풍부하고 상황을 인식하는 사용자 경험으로 이어집니다. 키 테이크 아웃

      멀티 모달 래그는보다 포괄적 인 이해를 위해 다양한 데이터 유형을 통합합니다. nomic 비전 임베드는 개선 된 정보 검색을위한 시각적 및 텍스트 데이터를 통합합니다. 시스템은 효율적인 검색을 위해 특수 처리, 벡터 표현 및 스토리지를 사용합니다. nomic embed Vision은 단단한 작업에서 클립의 한계를 극복합니다

      자주 묻는 질문

      (FAQS는 간결하게 생략되었지만 원본에 존재합니다.) 참고 :

      코드 스 니펫은 간결하게 생략되었지만 핵심 기능과 단계는 정확하게 설명되어 있습니다. 원래 입력에는 광범위한 코드가 포함되어 있습니다. 그것을 포함 하여이 응답을 지나치게 길게 만들 것입니다. 완전한 코드 구현은 원래 입력을 참조하십시오.

    위 내용은 nomic 임베딩으로 헝겊 시스템을 향상시킵니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    본 웹사이트의 성명
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

    핫 AI 도구

    Undresser.AI Undress

    Undresser.AI Undress

    사실적인 누드 사진을 만들기 위한 AI 기반 앱

    AI Clothes Remover

    AI Clothes Remover

    사진에서 옷을 제거하는 온라인 AI 도구입니다.

    Undress AI Tool

    Undress AI Tool

    무료로 이미지를 벗다

    Clothoff.io

    Clothoff.io

    AI 옷 제거제

    Video Face Swap

    Video Face Swap

    완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

    뜨거운 도구

    메모장++7.3.1

    메모장++7.3.1

    사용하기 쉬운 무료 코드 편집기

    SublimeText3 중국어 버전

    SublimeText3 중국어 버전

    중국어 버전, 사용하기 매우 쉽습니다.

    스튜디오 13.0.1 보내기

    스튜디오 13.0.1 보내기

    강력한 PHP 통합 개발 환경

    드림위버 CS6

    드림위버 CS6

    시각적 웹 개발 도구

    SublimeText3 Mac 버전

    SublimeText3 Mac 버전

    신 수준의 코드 편집 소프트웨어(SublimeText3)

    Meta Llama 3.2- 분석 Vidhya를 시작합니다 Meta Llama 3.2- 분석 Vidhya를 시작합니다 Apr 11, 2025 pm 12:04 PM

    메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

    10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. 10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. Apr 13, 2025 am 01:14 AM

    이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - &#8217

    직원에게 AI 전략 판매 : Shopify CEO의 선언문 직원에게 AI 전략 판매 : Shopify CEO의 선언문 Apr 10, 2025 am 11:19 AM

    Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

    AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등 AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등 Apr 11, 2025 pm 12:01 PM

    이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

    GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? Apr 13, 2025 am 10:18 AM

    소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

    비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서 비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서 Apr 12, 2025 am 11:58 AM

    소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

    SQL에서 열을 추가하는 방법? - 분석 Vidhya SQL에서 열을 추가하는 방법? - 분석 Vidhya Apr 17, 2025 am 11:43 AM

    SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

    AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까? AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까? Apr 11, 2025 pm 12:13 PM

    Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

    See all articles