最新的目標偵測的深度架構參數少一半、速度快3倍+-人工智慧-PHP中文網

簡單介紹

研究作者提出了 Matrix Net (xNet)，一種用於目標偵測的新深度架構。 xNets將具有不同大小尺寸和縱橫比的目標映射到網路層中，其中目標在層內的大小和縱橫比幾乎是均勻的。因此，xNets提供了一種尺寸和縱橫比感知結構。研究者利用xNets增強基於關鍵點的目標偵測。新的架構實現了比任何其他單鏡頭偵測器的時效性高，具有47.8的mAP在MS COCO資料集，同時使用了一半的參數而且相比於第二好框架，其在訓練上快了3倍。

簡單結果展示

最新的目標偵測的深度架構參數少一半、速度快3倍+

上圖所示，xNet的參數及效率要遠遠超過其它模型。其中FSAF在基於錨點的偵測器中效果是最好的，它超過了經典的RetinaNet。研究者提出的模型在參數量類似的情況下表現超過了所有其他single-shot架構。

背景及現狀

目標偵測是電腦視覺中最廣泛研究的任務之一，具有許多應用到其他視覺任務，如目標追蹤、實例分割和圖片字幕。目標偵測結構可分為兩類：single-shot偵測器和two-stage偵測器。 Two-stage偵測器利用區域候選網路找到固定數量的目標候選，然後使用第二個網路來預測每個候選的分數並改善其邊界框。

常見的Two-stage演算法

最新的目標偵測的深度架構參數少一半、速度快3倍+

#Single-shot偵測器也可以分為兩類：基於錨定的偵測器和基於關鍵點的偵測器。基於錨的偵測器包含許多錨點邊界框，然後預測每個模板的偏移量和類別。最著名的基於錨的體系結構是RetinaNet，它提出了focal損失函數，以幫助修正錨定邊界框的類別不平衡。性能最好的基於錨的探測器是FSAF。 FSAF將錨基輸出與無錨輸出頭整合在一起，以進一步提高效能。

另一方面，基於關鍵點的偵測器可以預測左上角和右下角的熱圖，並使用特徵嵌入將它們匹配起來。最初的基於關鍵點的偵測器是CornerNet，它利用一個特殊的coener池化層來準確地偵測不同大小的目標。從那時起，Centerne透過預測目標中心和角，大幅改進了CornerNet體系結構。

Matrix Nets

下圖所示為Matrix nets（xNets），使用分層矩陣建模具有不同大小和叢橫比的目標，其中矩陣中的每個條目i、j 表示一個層li,j，矩陣左上角層l1,1 中寬度降採樣2^(i-1)，高度降採樣2^(j-1)。對角線層是不同大小的方形層，相當於一個 FPN，而非對角層是長方形層（這是xNets所特有的）。層l1,1是最大的層，每向右一步，層寬度減半，而每向下一步高度減半。

最新的目標偵測的深度架構參數少一半、速度快3倍+

例如，層l3,4是層l3,3寬度的一半。對角層建模寬高比接近方形的目標，而非對角層建模寬高比不接近方形的目標。接近矩陣右上角或左下角的層建模寬高比極高或極低的目標。這類目標非常罕見，所以可以將它們剪枝以提升效率。

1、Layer Generation

產生矩陣層是一個關鍵的步驟，因為它會影響模型參數的數量。參數越多，模型表達越強，優化問題越困難，因此研究者選擇盡可能少引入新的參數。對角線層可以從主幹的不同階段獲得，也可以使用特徵金字塔框架。上三角層是在對角線層上施加一系列具有1x2步長的共享3x3卷積得到的。類似地，左下角層是使用具有2x1步長的共享3x3卷積得到的。參數在所有下採樣卷積之間共享，以最小化新參數的數量。

2、層範圍

矩陣中的每個層都對具有一定寬度和高度的目標進行建模，因此我們需要定義分配給矩陣中每個層的目標的寬度和高度範圍。範圍需要反映矩陣層特徵向量的感受野。矩陣中向右的每一步都有效地使水平維度中的感受野加倍，而每一步都使垂直維度上的感受場加倍。因此，當我們在矩陣中向右或向下移動時，寬度或高度的範圍需要加倍。一旦定義了第一層l1,1的範圍，我們就可以使用上述規則為矩陣層的其餘部分產生範圍。

3、Matrix Nets的優點

Matrix Nets的主要優點是它們允許方形卷積核準確地收集有關不同縱橫比的資訊。在傳統的目標偵測模型中，如RetinaNet，需要一個方形卷積核來輸出不同的長寬比和尺度。這與直覺相反，因為不同方面的邊界框需要不同的背景。在Matrix Nets中，由於每個矩陣層的上下文發生變化，因此相同的方形卷積核可以用於不同比例和長寬比的邊界框。

由於目標大小在其指定的層內幾乎是均勻的，因此與其他架構（例如FPN）相比，寬度和高度的動態範圍更小。因此，回歸目標的高度和寬度將變得更容易優化問題。最後Matrix Nets可用作任何目標檢測架構、基於錨或基於關鍵點、one-shot或two-shots檢測器。