2025 년 1 월 27 일에 출시 된 Deepseek Janus Pro 1B는 텍스트 프롬프트에서 이미지를 처리하고 생성하도록 구축 된 고급 멀티 모달 AI 모델입니다. 텍스트를 기반으로 이미지를 이해하고 만들 수있는이 10 억 파라미터 버전 (1B)은 텍스트-이미지 생성 및 이미지 이해를 포함하여 광범위한 응용 프로그램에 대한 효율적인 성능을 제공합니다. 또한 사진에서 자세한 캡션을 생성하는 데 탁월하여 창의적 및 분석 작업을위한 다양한 도구입니다.
학습 목표
기능을 향상시키는 아키텍처 및 주요 기능 분석.
기본 디자인과 성능에 미치는 영향 탐색
검색된 세대 (RAG) 시스템 구축에 대한 단계별 안내서.
실제 응용 프로그램에 대한 Deepseek Janus Pro 10 억 모델 사용.
Deepseek Janus Pro가 AI 중심 솔루션을 최적화하는 방법 이해
이 기사는 데이터 과학 블로그 톤의 의 일부로 출판되었습니다.
목차 학습 목표 Deepseek Janus Pro는 무엇입니까? 이미지 이해 및 생성을위한 디스 커플 리드 아키텍처 핵심 특징 <.> 통합 변압기 아키텍처 최적화 된 훈련 전략 Deepseek Janus Pro 1B 모델
1 Step 1. 필요한 라이브러리 설치 2 단계. pdf
4 단계. 저장된 이미지에서 쿼리 및 검색 5 단계 5. Janus Pro 모델을로드합니다. 6 단계. 출력 생성 결론 - 키 테이크 아웨이
-
Deepseek Janus Pro 란 무엇입니까?
DeepSeek Janus Pro는 텍스트 및 이미지 처리를 통합하여 텍스트 프롬프트에서 이미지를 이해하고 생성 할 수있는 멀티 모달 AI 모델입니다. 10 억 파라미터 버전 (1B)은 텍스트-이미지 생성 및 이미지 이해 작업과 같은 응용 프로그램에서 효율적인 성능을 위해 설계되었습니다.
DeepSeek의 Janus Pro 시리즈에서 사용 가능한 주요 모델은 “Janus Pro 1B”및“Janus Pro 7B”이며, 매개 변수 크기가 주로 다르며, 7B 모델은 상당히 더 크고 텍스트-이미지 생성 작업에서 시각적 이해와 텍스트 생성 모두에서 텍스트-이미지 생성에서 개선 된 성능을 제공합니다. Janus Pro 1b
아키텍처 : Janus Pro는 통합 변압기 아키텍처를 사용하지만 이미지 이해와 생성 작업 모두에서 성능을 향상시키기 위해 시각적 인코딩을 별도의 경로로 분해합니다.
기능 - : 이미지 이해와 텍스트 프롬프트를 기반으로 새로운 이미지의 생성과 관련된 작업에서 탁월합니다. 384 × 384 이미지 입력을 지원합니다
이미지 인코더 : 이미지 이해 작업을 위해 Janus는 Siglip을 사용하여 이미지를 인코딩합니다. Siglip은 Clip의 프레임 워크를 사용하지만 손실 기능을 쌍별 Sigmoid 손실로 대체하는 이미지 임베딩 모델입니다. 이미지 생성의 경우 Janus는 자동 회귀 이미지 생성 모드 인 Llamagen의 기존 인코더를 사용합니다. Llamagen은 대형 언어 모델의 차세대 예측 패러다임을 시각적 세대에 적용하는 이미지 생성 모델 제품군입니다.
오픈 소스 : 는 MIT 라이센스에 따라 Github에서 사용할 수 있으며, DeepSeek 모델 라이센스에 의해 모델 사용량이 있습니다.
도 읽기 : DeepSeek Janus Pro 7B에 액세스하는 방법?
이미지 이해 및 생성을위한 디퍼 커플 아키텍처 및 생성
Janus-Pro는 이미지 이해와 생성에 대한 단일 시각 인코더에 의존하기보다는 시각적 인코딩을위한 별도의 특수 경로를 사용하여 이전의 멀티 모드 모델에서 분기됩니다.
-
이미지 이해 인코더. 이 경로는 이미지에서 의미 론적 특징을 추출합니다.
이미지 생성 인코더.
이 경로는 텍스트 설명에 따라 이미지를 종합합니다.
-
이 분리 된 아키텍처는 작업 별 최적화를 용이하게하여 해석과 창의적 합성 사이의 충돌을 완화시킵니다. 독립 인코더는 입력 기능을 해석 한 다음 통합 된 자동 회귀 변압기로 처리됩니다. 이를 통해 멀티 모달 이해와 생성 구성 요소는 가장 적합한 인코딩 방법을 독립적으로 선택할 수 있습니다.
도 읽기 : Deepseek의 Janus Pro가 Dall-E 3에 대항하여 어떻게 쌓이는가?
모델 아키텍처의 주요 특징
1. 시각적 이해 및 생성을위한 이중 경로 아키텍처
시각적 이해 경로 :
다중 모드 이해 작업의 경우, Janus Pro는 Siglip-L을 Visual Encoder로 사용하여 최대 384 × 384 해상도의 이미지 입력을 지원합니다. 이 고해상도 지원은 모델이 더 많은 이미지 세부 사항을 캡처하여 시각적 이해의 정확도를 향상시킬 수 있습니다.
시각적 생성 경로 : 이미지 생성 작업의 경우 Janus Pro는 16의 다운 샘플링 속도가있는 llamagen 토큰 화기를 사용하여보다 자세한 이미지를 생성합니다.
2. 통합 변압기 아키텍처
공유 변압기 백본은 Prostext 및 이미지 기능 융합입니다. 원시 입력을 기능으로 변환하는 독립 인코딩 방법은 통합 된 자동 회귀 변압기에 의해 처리됩니다.
3. 최적화 된 훈련 전략
이전 Janus 교육 에서이 모델에는 3 단계 교육 과정이있었습니다. 첫 번째 단계는 어댑터와 이미지 헤드 훈련에 중점을 두었습니다. 두 번째 단계는 통합 사전 조정을 처리했으며, 그 동안 이해 인코더 및 생성 인코더를 제외한 모든 구성 요소는 매개 변수를 업데이트했습니다. III 단계는 감독 된 미세 조정을 다루었으며, 훈련 중에 이해 인코더의 매개 변수를 더 잠금 해제함으로써 II 단계를 구축했습니다.
이것은 Janus Pro에서 개선되었습니다 :
단계 I의 훈련 단계를 늘려 Imagenet 데이터 세트에 대한 충분한 교육을 허용합니다.
또한 2 단계에서 텍스트-이미지 생성 교육을 위해 ImageNet 데이터가 완전히 삭제되었습니다. 대신 정상적인 텍스트-이미지 데이터를 사용하여 고밀도 설명을 기반으로 이미지를 생성하도록 모델을 교육했습니다. 이것은 훈련 효율과 전반적인 성능을 향상시키는 것으로 밝혀졌습니다.
이제 Deepseek Janus Pro를 사용하여 멀티 모달 헝겊을 만들어 봅시다
Deepseek Janus Pro 1B Model이있는 멀티 모달 헝겊
다음 단계에서, 우리는 DeepSeek Janus Pro 1B 모델을 기반으로 이미지를 쿼리하기 위해 멀티 모달 래그 시스템을 구축합니다.
1 단계. 필요한 라이브러리를 설치하십시오
2 단계. 이미지 임베딩 저장
Byaldi는 멀티 모달 래그 시스템을 설정하기위한 사용하기 쉬운 프레임 워크를 제공합니다. 위의 코드에서 볼 수 있듯이 시각적 기능을 사용하여 효율적인 문서 색인을 위해 설계된 모델 인 ColqWen2를로드합니다.
3 단계. 이미지를로드 pdf 위 내용은 Deepseek Janus Pro를 사용하여 멀티 모달 래그 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!