Maskformer : 마스크주의를 가진 이미지 세분화 혁신
컴퓨터 비전의 초석 인 이미지 세분화는 모델 설계의 발전으로 이점을 얻습니다. MaskFormer는 혁신적인 접근 방식으로 눈에 띄고 마스크주의 메커니즘을 활용하여 겹치는 객체를 세분화하는 과제, 즉 전통적인 픽셀 방법에 대한 중요한 장애물입니다. 이 기사에서는 MaskFormer의 아키텍처, 구현 및 실제 응용 프로그램을 살펴 봅니다.
전통적인 이미지 세분화 모델은 종종 겹치는 물체로 어려움을 겪습니다. 그러나 MaskFormer는 변압기 아키텍처를 사용하여 이러한 제한을 극복합니다. R-CNN 및 DETR과 같은 모델은 유사한 기능을 제공하지만 MaskFormer의 독특한 접근 방식은 면밀한 검사를 보장합니다.
학습 목표 :
(이 기사는 데이터 과학 블로그의 일부입니다.)
목차 :
MaskFormer 란 무엇입니까?
Maskformer는 시맨틱 및 인스턴스 분할에서 탁월합니다. 시맨틱 세분화는 각 픽셀에 클래스 레이블을 할당하여 유사한 객체를 함께 그룹화합니다. 그러나 인스턴스 분할은 동일한 클래스의 개별 인스턴스를 구별합니다. MaskFormer는 통합 마스크 분류 접근법을 사용하여 두 유형을 고유하게 처리합니다. 이 접근법은 모든 객체 인스턴스에 대한 클래스 레이블과 이진 마스크를 예측하여 겹치는 마스크를 가능하게합니다.
MaskFormer 모델 아키텍처
MaskFormer는 인코더 디코더 구조를 갖는 변압기 아키텍처를 사용합니다.
CNN (Convolutional Neural Network) 백본은 이미지 기능 (F)을 추출합니다. 픽셀 디코더는 픽셀 당 임베딩 (E)을 생성하여 로컬 및 글로벌 컨텍스트를 모두 캡처합니다. 변압기 디코더는 세그먼트 당 임베딩 (Q)을 생성하여 잠재적 인 객체 인스턴스를 현지화합니다. 픽셀 및 마스크 임베딩의 도트 생성물, Sigmoid 활성화는 이진 마스크를 생성합니다. 시맨틱 세분화의 경우,이 마스크 및 클래스 레이블은 행렬 곱셈을 통해 결합됩니다. 이것은 백본이 인코더 역할을하는 전통적인 변압기와 다릅니다.
모델 실행
이 섹션은 Hugging Face Transformers 라이브러리를 사용하여 추론을 실행합니다.
라이브러리 가져 오기 :
Transformers에서 MaskformerFeatureExtractor, MaskFormerForInstancestration을 가져옵니다 PIL 가져 오기 이미지에서 가져 오기 요청
미리 훈련 된 모델로드 :
feaction_extractor = maskformerfeatureExtractor.from_pretrained ( "Facebook/Maskformer-Swin-Base-Coco") model = maskformerforInstanceseMestimation.from_pretrained ( "Facebook/Maskformer-Swin-Base-Coco")
이미지 준비 :
url = "https://images.pexels.com/photos/5079180/pexels-photo-5079180.jpeg" image = image.open (requests.get (url, stream = true) .raw) inputs = feaction_extractor (images = image, return_tensors = "pt")
모델 추론 :
출력 = 모델 (** 입력) class_queries_logits = outputs.class_queries_logits masks_queries_logits = outputs.masks_queries_logits
결과 시각화 :
result = feaction_extractor.post_process_panoptic_segmentation (outputs, target_sizes = [image.size [:: -1]]) [0] predited_panoptic_map = 결과 [ "세분화"] 토치 수입 matplotlib.pyplot을 plt로 가져옵니다 plt.imshow (predicted_panoptic_map) plt.axis ( 'off') plt.show ()
MaskFormer의 실제 응용 프로그램
Maskformer는 다양한 분야에서 응용 프로그램을 찾습니다.
결론
이미지 세분화, 특히 겹치는 물체의 처리에 대한 MaskFormer의 혁신적인 접근 방식은 강력한 도구입니다. 시맨틱 및 인스턴스 세분화 작업에 대한 다목적 성은 컴퓨터 비전의 상당한 발전으로 배치됩니다.
자원:
주요 테이크 아웃 :
자주 묻는 질문 :
Q1. Maskformer를 기존 세그먼트 화 모델과 차별화하는 것은 무엇입니까? A. 마스크주의 메커니즘 및 변압기 아키텍처는 겹치는 물체의 우수한 처리를 가능하게합니다.
Q2. Maskformer는 시맨틱 및 인스턴스 세분화를 모두 처리합니까? A. 예, 두 가지 모두 탁월합니다.
Q3. 어떤 산업이 MaskFormer의 혜택을 받습니까? A. 건강 관리, 지리 공간 분석 및 보안은 주요 수혜자입니다.
Q4. Maskformer는 최종 세그먼트 이미지를 어떻게 생성합니까? A. 행렬 곱셈을 통해 이진 마스크와 클래스 레이블을 결합하여.
(참고 : 사용 된 이미지는 저자가 소유하지 않으며 허가를 받아 사용됩니다.)
위 내용은 겹치는 객체가있는 이미지에 MaskFormer 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!