Zhejiang University Li Xi 팀: 표현 이해를 참조하는 새로운 방법인 ScanFormer는 시각적 중복성을 제거하기 위해 거친 것부터 미세한 것까지 반복합니다.-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에 학술 및 기술 콘텐츠를 게재하기 위한 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com 논문은 모두 절강대학교 Li Xi 교수팀의 논문 제1저자는 박사과정 학생 Su Wei이고, 교신저자는 Li Xi 교수(IET Fellow, National Distinguished Young Scholar)입니다. 최근 몇 년 동안 Li Xi 교수팀은 권위 있는 국제 저널(예: TPAMI, IJCV 등)과 최고의 국제 학술 컨퍼런스(ICCV, CVPR, ECCV 등)에 180편 이상의 CV/AIGC 관련 연구 작품을 발표했습니다. 국내외 유명 대학과 협력해 왔으며 과학 연구 기관도 광범위하게 협력하고 있습니다.

기본적인 시각적 언어 작업으로 REC(Reference Expression Comprehension)는 자연어 설명을 기반으로 이미지를 찾아 참조되는 대상입니다. REC 모델은 일반적으로 시각적 특징, 텍스트 특징 및 교차 모달 특징 특징 상호 작용 및 향상을 추출하는 데 사용되는 시각적 인코더, 텍스트 인코더 및 교차 모드 상호 작용의 세 부분으로 구성됩니다.

현재 연구는 주로 작업 정확도를 높이기 위해 효율적인 교차 모드 상호 작용 모듈을 설계하는 데 중점을 두고 있으며 시각적 인코더에 대한 탐색은 부족합니다. 일반적인 접근 방식은 ResNet, DarkNet, Swin Transformer 또는 ViT 등과 같은 분류 및 감지 작업에 대해 사전 훈련된 특징 추출기를 사용하는 것입니다. 이러한 모델은 이미지의 모든 공간 위치를 탐색하여 슬라이딩 윈도우 또는 분할된 패치 방식으로 특징을 추출하며, 계산 복잡성은 이미지 해상도에 따라 급격히 증가하며 이는 Transformer 기반 모델에서 더욱 분명합니다.

이미지의 공간적 중복성 특성으로 인해 정보가 적은 배경 영역과 참조 표현과 관련 없는 영역이 다수 존재합니다. 이러한 영역에서 동일한 특징을 추출하면 계산량이 증가하지만 효과적인 특징 추출에 기여하지 않습니다. 보다 효율적인 방법은 이미지 영역의 텍스트 관련성과 내용 풍부도를 미리 예측하고, 텍스트 관련 전경 영역에서 특징을 완전히 추출하고, 배경 영역에서 특징을 대략적으로 추출하는 것입니다. 지역적 예측을 위해 보다 직관적인 방법은 이미지 피라미드를 사용하여 피라미드 상단의 거친 이미지에서 배경 영역을 미리 식별한 다음 점차적으로 고해상도의 세밀한 전경 영역을 추가하는 것입니다.

위의 분석을 바탕으로 이미지에서
대략적인 반복 인식 프레임워크 ScanFormer

를 제안합니다. 피라미드 레이어별 스캐닝은 저해상도의 거친 이미지부터 시작하여 표현식을 참조하는 관련 없는/배경 영역을 점차적으로 필터링하여 계산 낭비를 줄여 모델이 전경/작업 관련 영역에 더 집중할 수 있도록 합니다.

論文標題：ScanFormer: Referring Expression Comprehension by Iteratively Scanning
論文連結：https://arxiv.org/pdf/2406.180488

一、Coarse-to-fine 迭代感知框架

為簡化結構，我們採用統一文本和視覺模態的 ViLT [1] 模型，並將其沿深度維度分為Encoder1 和Encoder2 兩部分以用於不同的任務。

首先，提取文字特徵並將其存入KV Cache；然後構造圖像金字塔並從金字塔頂層依次往下迭代，在每次迭代中，輸入當前尺度被選擇的patch，Encoder1 用於預測每個patch 對應的下一個尺度的細粒度patch 的選擇情況，特別地，頂層影像的patch 全部被選上，以確保模型能獲得粗粒度的全圖資訊。 Encoder2 進一步提取特徵並基於當前尺度的 [cls] token 來預測該尺度的 bounding box。

同時，Encoder1 和 Encoder2 的中間特徵會被存入 KV Cache 以方便被後續的尺度利用。隨著尺度的增加，細粒度特徵被引入，位置預測會更加準確，同時大部分無關的 patch 被丟棄以節省大量計算。

此外，每個尺度內部的 patch 具有雙向注意力，同時會關注前序尺度所有的 patch 和文本特徵。這種尺度間的因果注意力可以進一步降低計算需求。

二、動態patch 選擇

每個patch 的選擇情況由前一尺度產生的選擇因子決定，對於應用的位置有兩種方案，其一層是用於Encoder 每層MHSA 的所有head 中，然而，對於N 層H 頭的Encoder，很難獲得有效的梯度資訊來更新，因此學到的選擇因子不太理想；其二是直接用於Encoder 的輸入，即patch embedding 上，由於只用在這一個位置，因此更容易學習，本文最終也採用了此方案。

Zhejiang University Li Xi 팀: 표현 이해를 참조하는 새로운 방법인 ScanFormer는 시각적 중복성을 제거하기 위해 거친 것부터 미세한 것까지 반복합니다.

另外，需要注意的是，即使輸入 patch embedding 被置 0，由於 MHSA 和 FFN 的存在，該 patch 在後續層的特徵仍然會變為非 0 並影響其餘 patch 的特徵。幸運的是，當 token 序列中存在許多相同 token 時，可以簡化 MHSA 的計算，以實現實際的推理加速。此外，為了增強模型的靈活性，本文並沒有直接將 patch embedding 置 0，而是將其替換為一個可學習的常數 token。

因此，patch 的選擇問題被轉換成 patch 的替換問題。 patch 選擇的過程可以分解為常數 token 替換和 token 合併兩個步驟。未被選擇的 patch 會被替換為同一個常數 token。由於這些未被選擇的token 是相同的，根據scaled dot product attention 的計算方式，這些token 可以被合併為一個token 並乘上總數，等價於將加到維度上，因此點積注意力的計算方式不變，常見的加速方法依舊可用。

實驗結果

本文方法在 RefCOCO、RefCOCO+、RefCOCOg 和 ReferItGame 四個資料集上取得了和 artstate-of-the-RefCOCOg 和 ReferItGame 四個資料集上取得了和 artstate-of-the-s artstate-of-the-ItGame 四個資料集上取得了和 artstate-of-the-sItGame 相近的效能。透過在大規模資料集上預先訓練並在具體資料集上微調，模型的效能可以進一步大幅提升，並達到和預訓練模型如 MDETR [2] 和 OFA [3] 等相近的結果。

Zhejiang University Li Xi 팀: 표현 이해를 참조하는 새로운 방법인 ScanFormer는 시각적 중복성을 제거하기 위해 거친 것부터 미세한 것까지 반복합니다.

在推理速度上，提出的方法達到了即時的推理速度，同時能確保較高的任務精度。

此外，實驗部分也對模型的 patch 選擇情況以及每個尺度（scale1 和 scale2）定位精度的分佈做了統計。

如左圖所示，隨著尺度的增加，細粒度的影像特徵被加入，模型精度逐漸提升。因此可以嘗試加入早退機制，在定位精度滿足要求時及時退出，避免進一步在高解析度影像上計算，實現根據樣本自適應選擇合適的解析度的效果。本文也進行了一些初步的嘗試，包括加入 IoU、GIoU 和不確定性等預測分支，回歸 early exit 的指標，但發現效果不太理想，如何設計合適且準確的 early exit 指標有待繼續探索。

右圖展示了不同尺度的 patch 選擇情況，在所有的尺度上，被選擇的 patch 佔均比較小，大部分的 patch 都可以被剔除，因此可以有效地節省計算資源。對於每個樣本（圖像 + 指代表達），實際選擇的 patch 數量相對較少，大概佔總數的 65%。

Zhejiang University Li Xi 팀: 표현 이해를 참조하는 새로운 방법인 ScanFormer는 시각적 중복성을 제거하기 위해 거친 것부터 미세한 것까지 반복합니다.

最後，實驗部分展示了一些視覺化結果，隨著尺度的增加（紅→綠→藍），模型的定位精度逐漸提高。另外，根據由被選擇的 patch 重建的圖像，可以看出模型對於背景區域只關注了粗尺度的信息，對於相關的前景區域，模型能夠關注細粒度的細節信息。

Zhejiang University Li Xi 팀: 표현 이해를 참조하는 새로운 방법인 ScanFormer는 시각적 중복성을 제거하기 위해 거친 것부터 미세한 것까지 반복합니다.

^{相關文獻：}

^{[1].Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision [C]/Internationalnational lachine col. PMLR, 2021: 5583-5594.}

^{[2].Kamath A, Singh M, LeCun Y, et al. Mdetr-modulated detection for end-to-end multi-modal stanunderding [C]//Procingsings of the IEEE/CVF international conference on computer vision. 2021: 1780-1790.}

^{[3].Wang P, Yang A, Men R, et al. Ofa: Unifying architectures, tastas, and alities -sequence learning framework [C]//International conference on machine learning. PMLR, 2022: 23318-23340.}

위 내용은 Zhejiang University Li Xi 팀: 표현 이해를 참조하는 새로운 방법인 ScanFormer는 시각적 중복성을 제거하기 위해 거친 것부터 미세한 것까지 반복합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!