겹치는 객체가있는 이미지에 MaskFormer 사용-일체 포함-php.cn

겹치는 객체가있는 이미지에 MaskFormer 사용

William Shakespeare

풀어 주다： 2025-03-17 11:26:13

원래의

435명이 탐색했습니다.

Maskformer : 마스크주의를 가진 이미지 세분화 혁신

컴퓨터 비전의 초석 인 이미지 세분화는 모델 설계의 발전으로 이점을 얻습니다. MaskFormer는 혁신적인 접근 방식으로 눈에 띄고 마스크주의 메커니즘을 활용하여 겹치는 객체를 세분화하는 과제, 즉 전통적인 픽셀 방법에 대한 중요한 장애물입니다. 이 기사에서는 MaskFormer의 아키텍처, 구현 및 실제 응용 프로그램을 살펴 봅니다.

전통적인 이미지 세분화 모델은 종종 겹치는 물체로 어려움을 겪습니다. 그러나 MaskFormer는 변압기 아키텍처를 사용하여 이러한 제한을 극복합니다. R-CNN 및 DETR과 같은 모델은 유사한 기능을 제공하지만 MaskFormer의 독특한 접근 방식은 면밀한 검사를 보장합니다.

학습 목표 :

MaskFormer를 사용한 인스턴스 분할 이해
Maskformer의 운영 원리 탐색.
Maskformer의 모델 아키텍처 분석.
Maskformer 추론 구현.
MaskFormer의 실제 응용 프로그램 발견.

(이 기사는 데이터 과학 블로그의 일부입니다.)

목차 :

MaskFormer 란 무엇입니까?
MaskFormer 모델 아키텍처
모델 실행
- 라이브러리 가져 오기
- 미리 훈련 된 모델로드
- 이미지 준비
- 모델 추론
- 결과 시각화
MaskFormer의 실제 응용 프로그램
결론
- 자원
- 주요 테이크 아웃
자주 묻는 질문

MaskFormer 란 무엇입니까?

Maskformer는 시맨틱 및 인스턴스 분할에서 탁월합니다. 시맨틱 세분화는 각 픽셀에 클래스 레이블을 할당하여 유사한 객체를 함께 그룹화합니다. 그러나 인스턴스 분할은 동일한 클래스의 개별 인스턴스를 구별합니다. MaskFormer는 통합 마스크 분류 접근법을 사용하여 두 유형을 고유하게 처리합니다. 이 접근법은 모든 객체 인스턴스에 대한 클래스 레이블과 이진 마스크를 예측하여 겹치는 마스크를 가능하게합니다.

MaskFormer 모델 아키텍처

MaskFormer는 인코더 디코더 구조를 갖는 변압기 아키텍처를 사용합니다.

겹치는 객체가있는 이미지에 MaskFormer 사용

CNN (Convolutional Neural Network) 백본은 이미지 기능 (F)을 추출합니다. 픽셀 디코더는 픽셀 당 임베딩 (E)을 생성하여 로컬 및 글로벌 컨텍스트를 모두 캡처합니다. 변압기 디코더는 세그먼트 당 임베딩 (Q)을 생성하여 잠재적 인 객체 인스턴스를 현지화합니다. 픽셀 및 마스크 임베딩의 도트 생성물, Sigmoid 활성화는 이진 마스크를 생성합니다. 시맨틱 세분화의 경우,이 마스크 및 클래스 레이블은 행렬 곱셈을 통해 결합됩니다. 이것은 백본이 인코더 역할을하는 전통적인 변압기와 다릅니다.

모델 실행

이 섹션은 Hugging Face Transformers 라이브러리를 사용하여 추론을 실행합니다.

라이브러리 가져 오기 :

 Transformers에서 MaskformerFeatureExtractor, MaskFormerForInstancestration을 가져옵니다
PIL 가져 오기 이미지에서
가져 오기 요청

로그인 후 복사

미리 훈련 된 모델로드 :

 feaction_extractor = maskformerfeatureExtractor.from_pretrained ( "Facebook/Maskformer-Swin-Base-Coco")
model = maskformerforInstanceseMestimation.from_pretrained ( "Facebook/Maskformer-Swin-Base-Coco")

로그인 후 복사

이미지 준비 :

 url = "https://images.pexels.com/photos/5079180/pexels-photo-5079180.jpeg"
image = image.open (requests.get (url, stream = true) .raw)
inputs = feaction_extractor (images = image, return_tensors = "pt")

로그인 후 복사

겹치는 객체가있는 이미지에 MaskFormer 사용

모델 추론 :

 출력 = 모델 (** 입력)
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

로그인 후 복사

결과 시각화 :

 result = feaction_extractor.post_process_panoptic_segmentation (outputs, target_sizes = [image.size [:: -1]]) [0]
predited_panoptic_map = 결과 [ "세분화"]

토치 수입
matplotlib.pyplot을 plt로 가져옵니다
plt.imshow (predicted_panoptic_map)
plt.axis ( 'off')
plt.show ()

로그인 후 복사

겹치는 객체가있는 이미지에 MaskFormer 사용