谷歌團隊推出新Transformer，優化全景分割方案-人工智慧-PHP中文網

結構總覽

研究结果

结论

首頁

科技週邊

人工智慧

谷歌團隊推出新Transformer，優化全景分割方案

PHPz

Apr 08, 2023 pm 01:41 PM

Google 模型

最近，GoogleAI團隊受Transformer和DETR的啟發提出了一種使用Mask Transformer進行全景分割的端到端解決方案。

全名為end-to-end solution for panoptic segmentation with mask transformers，主要用於產生分割MaskTransformer架構的擴充。

此解決方案採用像素路徑（由卷積神經網路或視覺Transformer組成）提取像素特徵，記憶體路徑（由Transformer解碼器模組組成）提取記憶體特徵，以及雙路徑Transformer用於像素特徵和記憶體之間的交互特徵。

然而，利用交叉注意力的雙路徑Transformer最初是為語言任務設計的，它的輸入序列由幾百個單字構成。

而對視覺任務尤其是分割問題來說，其輸入序列由數萬個像素組成，這不僅表明輸入規模的幅度要大得多，而且與語言單字相比也代表了較低級別的嵌入。

全景分割是一個電腦視覺問題，它是現在許多應用程式的核心任務。

它分為語意分割和實例分割兩部分。

語意分割就例如為影像中的每個像素分配語意標籤，例如「人」和「天空」。

而實例分割僅識別和分割圖中的可數對象，如“行人”和“汽車”，並進一步將其劃分為幾個子任務。

每個子任務單獨處理，並應用額外的模組來合併每個子任務階段的結果。

這個過程不僅複雜，而且在處理子任務和整合不同子任務結果時還會引入許多人工設計的先驗。

谷歌團隊推出新Transformer，優化全景分割方案

在CVPR 2022 上發表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中，文章提出從聚類的角度重新解讀並且重新設計交叉注意力cross attention（也就是將相同語意標籤的像素分在同一組），以便更好地適應視覺任務。

CMT-DeepLab 建立在先前最先進的方法 MaX-DeepLab 之上，並採用像素聚類方法來執行交叉注意，從而產生更密集和合理的注意圖。

谷歌團隊推出新Transformer，優化全景分割方案

kMaX-DeepLab 進一步重新設計了交叉注意力，使其更像 k-means 聚類演算法，對激活函數進行了簡單的更改。

結構總覽

研究人員將從聚類的角度重新解釋，而不是直接將交叉注意力應用於視覺任務而不進行修改。

具體來說，他們注意到Mask Transformer 物件查詢可以被視為叢集中心（旨在將具有相同語義標籤的像素分組）。

交叉注意力的過程類似於k-means 聚類演算法，（1）將像素分配給聚類中心的迭代過程，其中可以將多個像素分配給單一聚類中心，而某些聚類中心可能沒有分配的像素，以及（2）透過平均分配給同一聚類中心的像素來更新聚類中心，如果沒有分配像素，則不會更新聚類中心）。

谷歌團隊推出新Transformer，優化全景分割方案

在CMT-DeepLab和kMaX-DeepLab中，我們從聚類的角度重新制定了交叉注意力，其中包括迭代聚類分配和聚類更新步驟

鑑於k-means聚類演算法的流行，在CMT-DeepLab中，他們重新設計了交叉注意力，以便空間方面的softmax操作（即沿圖像空間分辨率應用的softmax 操作），實際上將聚類中心分配給相反，像素是沿著集群中心應用的。

在 kMaX-DeepLab 中，我們進一步將空間方式的 softmax 簡化為集群方式的 argmax（即沿集群中心應用 argmax 操作）。

他們注意到 argmax 操作與 k-means 聚類演算法中使用的硬分配（即一個像素僅分配給一個簇）相同。

从聚类的角度重新构建MaskTransformer的交叉注意力，显著提高了分割性能，并简化了复杂的Masktransformer管道，使其更具可解释性。

首先，使用编码器-解码器结构从输入图像中提取像素特征。然后，使用一组聚类中心对像素进行分组，这些像素会根据聚类分配进一步更新。最后，迭代执行聚类分配和更新步骤，而最后一个分配可直接用作分割预测。

谷歌團隊推出新Transformer，優化全景分割方案

为了将典型的MaskTransformer解码器（由交叉注意力、多头自注意力和前馈网络组成）转换为上文提出的k-means交叉注意力，只需将空间方式的softmax替换为集群方式最大参数。

本次提出的 kMaX-DeepLab 的元架构由三个组件组成：像素编码器、增强像素解码器和 kMaX 解码器。

像素编码器是任何网络主干，用于提取图像特征。

增强的像素解码器包括用于增强像素特征的Transformer编码器，以及用于生成更高分辨率特征的上采样层。

一系列 kMaX 解码器将集群中心转换为 (1) Mask嵌入向量，其与像素特征相乘以生成预测Mask，以及 (2) 每个Mask的类预测。

谷歌團隊推出新Transformer，優化全景分割方案

kMaX-DeepLab 的元架构

研究结果

最后，研究小组在两个最具挑战性的全景分割数据集 COCO 和 Cityscapes 上使用全景质量 (PQ) 度量来评估 CMT-DeepLab 和 kMaX-DeepLab，并对比 MaX-DeepLab 和其他最先进的方法。

其中CMT-DeepLab 实现了显著的性能提升，而 kMaX-DeepLab 不仅简化了修改，还进一步提升了，COCO val set 上的 PQ 为 58.0%，PQ 为 68.4%，44.0% Mask平均精度（Mask AP），Cityscapes 验证集上的 83.5% 平均交集比联合（mIoU），没有测试时间增强或使用外部数据集。

谷歌團隊推出新Transformer，優化全景分割方案

从聚类的角度设计，kMaX-DeepLab 不仅具有更高的性能，而且还可以更合理地可视化注意力图以了解其工作机制。

在下面的示例中，kMaX-DeepLab 迭代地执行聚类分配和更新，从而逐渐提高Mask质量。

谷歌團隊推出新Transformer，優化全景分割方案

kMaX-DeepLab 的注意力图可以直接可视化为全景分割，让模型工作机制更合理

结论

本次研究展示了一种更好地设计视觉任务中的MaskTransformer的方法。

通过简单的修改，CMT-DeepLab 和 kMaX-DeepLab 重新构建了交叉注意力，使其更像一种聚类算法。

因此，所提出的模型在COCO 和 Cityscapes数据集上实现了最先进的性能。

研究团队表示，他们希望 DeepLab2 库中 kMaX-DeepLab 的开源版本有助于未来对专用于视觉Transformer架构设计的研究。

以上是谷歌團隊推出新Transformer，優化全景分割方案的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7545

CakePHP 教程

1381

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

deepseek怎麼評論 Feb 19, 2025 pm 05:42 PM

DeepSeek是一款功能強大的信息檢索工具，其優勢在於能夠深入挖掘信息，但缺點是速度較慢、結果呈現方式較簡單且數據庫覆蓋範圍有限，需要根據具體需求權衡其利弊。

deepseek怎麼搜索 Feb 19, 2025 pm 05:39 PM

DeepSeek是一個專有搜索引擎，僅在特定數據庫或系統中搜索，速度更快，準確性更高。使用時，建議用戶閱讀文檔、嘗試不同的搜索策略、尋求幫助和反饋使用體驗，以便充分利用其優勢。

芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 Feb 28, 2025 am 11:06 AM

本文詳細介紹了芝麻開門交易所（Gate.io）網頁版和Gate交易App的註冊流程。無論是網頁註冊還是App註冊，都需要訪問官方網站或應用商店下載正版App，然後填寫用戶名、密碼、郵箱和手機號等信息，並完成郵箱或手機驗證。

Bybit交易所鏈接為什麼不能直接下載安裝？ Feb 21, 2025 pm 10:57 PM

為什麼Bybit交易所鏈接無法直接下載安裝？ Bybit是一個加密貨幣交易所，為用戶提供交易服務。該交易所的移動應用程序不能直接通過AppStore或GooglePlay下載，原因如下：1.應用商店政策限制蘋果公司和谷歌公司對應用商店中允許的應用程序類型有嚴格的要求。加密貨幣交易所應用程序通常不符合這些要求，因為它們涉及金融服務，需要遵循特定的法規和安全標準。 2.法律法規合規在許多國家/地區，與加密貨幣交易相關的活動都受到監管或限制。為了遵守這些規定，Bybit應用程序只能通過官方網站或其他授權渠

芝麻開門交易平台下載手機版 gateio交易平台下載地址 Feb 28, 2025 am 10:51 AM

選擇正規渠道下載App，保障您的賬戶安全至關重要。

加密數字資產交易APP推薦top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能著称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自