docling을 사용하여 멀티 모달 헝겊을 만드는 방법?-일체 포함-php.cn

DOCLING을 사용하여 멀티 모달 AI 잠금 해제 : 검색 형성 생성 시스템 구축 가이드

인공 지능 (AI)은 데이터 처리에 혁명을 일으키고 있으며, Multimodal 검색 세대 생성 (RAG)은 이러한 변환의 최전선에 있습니다. RAG 시스템은 텍스트, 이미지, 오디오 및 비디오 (텍스트, 이미지, 오디오 및 비디오)를 처리하는 데 탁월합니다. 많은 기업에서 발견되는 비정형 데이터를 탐색하는 데 중요한 기능이 있습니다. 이 기능은 상황에 맞는 이해를 향상시키고 정확성을 향상 시키며 의료, 고객 서비스 및 교육을 포함한 다양한 부문에서 AI의 응용 프로그램을 확대합니다.

이 기사는 생성 AI 애플리케이션을위한 문서 처리를 단순화하도록 설계된 IBM의 오픈 소스 툴킷 인 DoCling을 탐색합니다. 특히 멀티 모달 래그 기능 구축에 중점을 둡니다. DOCLING은 다양한 파일 형식 (PDFS, DOCX, 이미지 등)을 구조화 된 출력 (JSON, Markdown)으로 변환하여 Langchain 및 Llamaindex와 같은 인기있는 AI 프레임 워크와 완벽하게 통합됩니다. 이는 구조화되지 않은 데이터의 추출을 단순화하고 고급 레이아웃 분석을 지원하여 AI 중심의 통찰력에 복잡한 엔터프라이즈 데이터에 액세스 할 수 있도록합니다.

주요 학습 목표 :

DOCLING 이해 : DOCLING이 구조화되지 않은 파일에서 멀티 모달 정보를 추출하는 방법을 알아보십시오.
DoCling의 아키텍처 : DoCling의 파이프 라인 및 핵심 AI 구성 요소를 검사하십시오.
Docling의 독특한 특징 : 다른 솔루션과 차별화 된 세트를 발견하십시오.
멀티 모달 래그 시스템 구축 : 데이터 추출 및 검색을 위해 DOCLING을 사용하여 시스템을 구현합니다.
엔드 투 엔드 워크 플로 : PDF에서 데이터를 추출하고 이미지 설명 생성 및 PHI 4를 사용하여 벡터 데이터베이스를 쿼리하는 프로세스를 마스터합니다.

구조화되지 않은 데이터 처리를위한 DOCING :

IBM의 오픈 소스 툴킷 인 DoCling은 비정형 파일 (PDFS, DOCX, 이미지)을 구조 형식 (JSON, Markdown)으로 효율적으로 변환합니다. doclaynet (레이아웃 분석 용) 및 테이블 포맷 머 (테이블 인식 용)와 같은 고급 AI 모델을 활용하면 문서의 구조를 보존하면서 텍스트, 테이블 및 이미지를 정확하게 추출합니다. Langchain 및 Llamaindex와의 원활한 통합은 Rag 및 질문 응용 프로그램을 지원합니다. 가벼운 설계는 표준 하드웨어에 대한 효율적인 성능을 보장하여 클라우드 기반 솔루션에 대한 비용 효율적인 대안을 제공하고 데이터 개인 정보를 우선 순위를 정합니다.

DOCLING 파이프 라인 :

docling을 사용하여 멀티 모달 헝겊을 만드는 방법?

docling은 선형 파이프 라인을 사용합니다. 문서는 처음에 구문 분석 (PDF 백엔드)으로 좌표와 함께 텍스트 토큰을 추출하고 페이지 비트 맵을 렌더링합니다. AI 모델은 각 페이지를 독립적으로 처리하여 레이아웃 및 테이블 구조를 추출합니다. 마지막으로, 사후 처리 단계 집계 페이지 결과, 메타 데이터를 추가하고 언어를 감지하고 순서를 읽고 구조화 된 문서 개체 (JSON 또는 Markdown)를 조립합니다.

docling 내의 핵심 AI 모델 :

Docling은 전통적이고 계산적으로 비싼 OCR을 넘어 움직입니다. 시각적 구성 요소 식별 및 분류를 위해 특별히 훈련 된 컴퓨터 비전 모델을 사용합니다.

레이아웃 분석 모델 : RT-Detr 및 Doclaynet (크고 인간이 발표 된 데이터 세트)을 사용하여 훈련 된이 모델은 객체 검출기 역할을하여 텍스트 블록, 이미지, 테이블 및 캡션과 같은 요소를 식별하고 분류합니다. 그것은 72 dpi에서 이미지를 처리하여 효율적인 CPU 처리를 가능하게합니다.
TableFormer 모델 : 이 Vision-Transformer 모델은 이미지에서 테이블 구조를 재구성하고, 누락 된 경계, 빈 셀 및 일관되지 않은 형식과 같은 복잡성을 처리합니다.

Docling의 주요 장점 :

다목적 형식 지원 : PDFS, DOCX, PPTX, HTML, 이미지 등, JSON 및 Markdown으로 내보내기.
고급 PDF 처리 : 스캔 된 문서에 대한 레이아웃 분석, 읽기 주문 감지, 테이블 인식 및 OCR (선택 사항)이 포함됩니다.
통합 문서 표현 : 보다 쉬운 처리 및 분석을 위해 일관된 형식을 사용합니다.
AI-Ready Integration : Langchain 및 Llamaindex와 완벽하게 통합됩니다.
로컬 실행 : 민감한 데이터의 보안 처리를 가능하게합니다.
효율적인 성능 : 기존 OCR보다 훨씬 빠릅니다.
모듈 식 아키텍처 : 쉽게 사용자 정의 할 수 있고 확장 가능합니다.
오픈 소스 가용성 : MIT 라이센스에 따라 무료로 제공됩니다.

docling (Python 구현)을 사용하여 멀티 모달 헝겊 시스템 구축 :

이 섹션에서는 docling, PDF에서 텍스트, 이미지 및 테이블 추출, 이미지 설명 생성 및 벡터 데이터베이스 쿼리를 사용하여 Rag 시스템을 구축하는 것이 자세히 설명되어 있습니다. 전체 코드는 Google Colab 노트북 (원본 기사에 제공된 링크)에서 제공됩니다. 단계에는 라이브러리 설치, DOCLING 변환기로드, 텍스트 청킹, 테이블 처리, 이미지 인코딩, 이미지 설명 생성을위한 비전 언어 모델 (예 : Ollama를 통한 LLAMA3.2- 비전), 벡터 데이터베이스 (예 : Milvus)에 데이터를 저장하고 LLM (EG, Phi 4)을 사용하여 시스템을 저장하는 것과 관련이 있습니다 (EG, Phi 4). 이 예제는 차트와 함께 샘플 pdf ( "Accenture.pdf")를 사용하여 멀티 모달 검색을 보여줍니다.

(참고 : 원본 기사의 세부 코드 스 니펫은 여기에 포함되지만 길이의 제약으로 인해 생략됩니다. 전체 코드는 원본 기사를 참조하십시오.)

걸레 시스템 분석 :

이 기사는 PDF 내의 텍스트, 테이블 및 이미지 설명에서 정보를 정확하게 검색하고 합성하는 능력을 보여주는 몇 가지 질문으로 시스템을 쿼리하는 것을 보여줍니다. 결과는 PDF의 스크린 샷을 사용하여 시각적으로 확인됩니다.

결론:

DOCLING은 구조화되지 않은 데이터를 생성 AI에 적합한 형식으로 변환하기위한 강력한 도구입니다. 고급 AI 모델, 원활한 프레임 워크 통합 및 오픈 소스 특성의 조합은 강력하고 효율적인 멀티 모달 래그 시스템을 구축하는 데 유용한 자산이됩니다. 현지 실행에 대한 비용 효율성과 지원은 특히 민감한 정보를 처리하는 기업에 유리합니다.

(참고 : 원본 기사의 "자주 묻는 질문"섹션은 길이 제약으로 인해 여기에서 생략됩니다. Rag, Docling의 기능 및 엔터프라이즈 사용에 대한 적합성에 대한 추가 설명을 제공합니다.)

위 내용은 docling을 사용하여 멀티 모달 헝겊을 만드는 방법?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!