使用MaskFormer用于带重叠对象的图像-人工智能-PHP中文网

使用MaskFormer用于带重叠对象的图像

William Shakespeare

发布： 2025-03-17 11:26:13

原创

435 人浏览过

蒙版：彻底改变图像分割并注意

图像分割是计算机视觉的基石，从模型设计的进步中受益。 MaskFormer脱颖而出，是一种革命性的方法，利用面具的注意机制来应对分割重叠对象的挑战，这是传统每金素方法的重大障碍。本文探讨了MaskFormer的体系结构，实现和现实世界应用程序。

传统的图像分割模型通常会在重叠对象上挣扎。但是，MaskFormer使用变压器体系结构来克服此限制。尽管R-CNN和DETR等模型具有类似的功能，但MaskFormer的独特方法值得仔细检查。

学习目标：

使用MaskFormer了解实例分割。
探索MaskFormer的操作原理。
分析MaskFormer的模型体系结构。
实现蒙版推理。
发现MaskFormer的实际应用。

（本文是数据科学博客马拉松的一部分。）

目录：

什么是maskformer？
MaskFormer模型体系结构
运行模型
- 导入库
- 加载预训练的模型
- 图像准备
- 模型推断
- 结果可视化
MaskFormer的真实应用程序
结论
- 资源
- 关键要点
常见问题

什么是maskformer？

屏蔽器在语义和实例分段中均出色。语义分割将类标签分配给每个像素，将类似对象分组在一起。但是，实例细分区分了同一类的个别实例。 MaskFormer使用统一的掩码分类方法唯一地处理两种类型。此方法可预测每个对象实例的类标签和二进制掩码，从而使掩模重叠。

MaskFormer模型体系结构

MaskFormer采用具有编码器解码器结构的变压器体系结构。

使用MaskFormer用于带重叠对象的图像

卷积神经网络（CNN）骨干提取图像特征（F）。像素解码器会生成每个像素嵌入（e），同时捕获本地和全局上下文。变压器解码器会生成每段嵌入（Q），本地化潜在对象实例。像素和掩模嵌入的点产物，其次是乙状结激活，会产生二进制蒙版。对于语义分割，这些蒙版和类标签是通过矩阵乘法组合的。这与传统的变压器不同，后者充当编码器。

运行模型

本节详细介绍了使用拥抱面孔库库运行推断。

导入库：

从变形金刚导入MaskFormerFeatureExtractor，MaskFormerForinStancesementation
从PIL导入图像
导入请求

登录后复制

加载预训练的模型：

 feature_extractor = maskFormerFeatureExtractor.from_pretrate（“ Facebook/maskformer-swin-base-coco”）
型号= maskformerforinStancesegessegention.from_pretrataining（“ Facebook/maskformer-swin-base-coco”）

登录后复制

图像准备：

 url =“ https://images.pexels.com/photos/5079180/pexels-photo-5079180.jpeg”
image = image.open（requests.get（url，stream = true）.raw）
输入= feature_extractor（images = image，return_tensors =“ pt”）

登录后复制

使用MaskFormer用于带重叠对象的图像

模型推理：

输出=模型（**输入）
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

登录后复制

结果可视化：

结果= feature_extractor.post_process_panoptic_segmentation（输出，target_sizes = [image.size [::--1]]）[0]
predicted_panoptic_map =结果[“分割”]

导入火炬
导入matplotlib.pyplot作为PLT
plt.imshow（predicted_panoptic_map）
plt.axis（'off'）
plt.show（）

登录后复制

使用MaskFormer用于带重叠对象的图像