用于精确目标检测的多网格冗余边界框标注
一、前言
目前领先的目标检测器是基于深度CNN的主干分类器网络重新调整用途的两级或单级网络。YOLOv3就是这样一种众所周知的最先进的单级检测器,它接收输入图像并将其划分为大小相等的网格矩阵。具有目标中心的网格单元负责检测特定目标。
今天分享的,就是提出了一种新的数学方法,该方法为每个目标分配多个网格,以实现精确的tight-fit边界框预测。研究者还提出了一种有效的离线复制粘贴数据增强来进行目标检测。新提出的方法显着优于一些当前最先进的目标检测器,并有望获得更好的性能。
二、背景
目标检测网络旨在使用精密匹配边界框在图像上定位对象并准确标记它们。最近,有两种不同的方法可以实现这一目标。第一种方法是性能方面,最主要的方法是两阶段目标检测,最好的代表是区域卷积神经网络(RCNN)及其衍生物[Faster R-CNN: Towards real-time object detection with region proposal networks]、[Fast R-CNN]。相比之下,第二组目标检测实现的因其出色的检测速度和轻量级而被人们所知,被称为单阶段网络,代表性示例为[You only look once: Unified, real-time object detection]、[SSD: Single shot multibox detector]、[Focal loss for dense object detection]。两阶段网络依赖于一个潜在的区域建议网络,该网络生成了可能包含感兴趣对象的图像的候选区域。该网络生成的候选区域可以包含对象的感兴趣区域,在单阶段目标检测中,检测是在一个完整的前向传递中同时处理分类和定位。因此,通常情况下,单阶段网络更轻、更快且易于实现。
今天的研究依然是坚持YOLO的方法,特别是YOLOv3,并提出了一种简单的hack,可以同时使用多个网络单元元素预测目标坐标、类别和目标置信度。每个对象的多网络单元元素背后的基本原理是通过强制多个单元元素在同一对象上工作来增加预测紧密拟合边界框的可能性。
多网格分配的一些优点包括:
目标检测器提供它正在检测的对象的多视角图,而不仅仅依靠一个网格单元来预测对象的类别和坐标。
(b ) 较少随机和不确定的边界框预测,这意味着高精度和召回率,因为附近的网络单元被训练来预测相同的目标类别和坐标;
(c) 减少具有感兴趣对象的网格单元与没有感兴趣对象的网格之间的不平衡。
此外,由于多网格分配是对现有参数的数学利用,并且不需要额外的关键点池化层和后处理来将关键点重新组合到其对应的目标,如CenterNet和CornerNet,可以说它是一个更实现无锚或基于关键点的目标检测器试图实现的自然方式。除了多网格冗余注释,研究者还引入了一种新的基于离线复制粘贴的数据增强技术,用于准确的目标检测。
三、MULTI-GRID ASSIGNMENT
上图包含三个目标,即狗、自行车和汽车。为简洁起见,我们将解释我们在一个对象上的多网格分配。上图显示了三个对象的边界框,其中包含更多关于狗的边界框的细节。下图显示了上图的缩小区域,重点是狗的边界框中心。包含狗边界框中心的网格单元的左上角坐标用数字0标记,而包含中心的网格周围的其他八个网格单元的标签从1到8。
到目前为止,我已经解释了包含目标边界框中心的网格如何注释目标的基本事实。这种对每个对象仅一个网格单元的依赖来完成预测类别的困难工作和精确的tight-fit边界框引发了许多问题,例如:
(a)正负网格之间的巨大不平衡,即有和没有对象中心的网格坐标
(b)缓慢的边界框收敛到GT
(c)缺乏要预测的对象的多视角(角度)视图。
所以这里要问的一个自然问题是,“显然,大多数对象包含一个以上网格单元的区域,因此是否有一种简单的数学方法来分配更多这些网格单元来尝试预测对象的类别和坐标连同中心网格单元?”。这样做的一些优点是(a)减少不平衡,(b)更快的训练以收敛到边界框,因为现在多个网格单元同时针对同一个对象,(c)增加预测tight-fit边界框的机会(d) 为YOLOv3等基于网格的检测器提供多视角视图,而不是对象的单点视图。新提出的多重网格分配试图回答上述问题。
Ground-truth encoding
四、训练
A. The Detection Network: MultiGridDet
MultiGridDet是一个目标检测网络,通过从YOLOv3中删除六个darknet卷积块来使其更轻、更快。一个卷积块有一个Conv2D Batch Normalization LeakyRelu。移除的块不是来自分类主干,即Darknet53。相反,将它们从三个多尺度检测输出网络或头中删除,每个输出网络两个。尽管通常深度网络表现良好,但太深的网络也往往会快速过度拟合或大幅降低网络速度。
B. The Loss function
Coordinate activation function plot with different β values
C. Data Augmentation
离线复制粘贴人工训练图像合成工作如下:首先,使用简单的图像搜索脚本,使用地标、雨、森林等关键字从谷歌图像下载数千张背景无对象图像,即没有我们感兴趣的对象的图像。然后,我们从整个训练数据集的随机q个图像中迭代地选择p个对象及其边界框。然后,我们生成使用它们的索引作为ID选择的p个边界框的所有可能组合。从组合集合中,我们选择满足以下两个条件的边界框子集:
- if arranged in some random order side by side, they must fit within a given target background image area
- and should efficiently utilize the background image space in its entirety or at least most part of it without the objects overlap.
五、实验及可视化
Pascal VOC 2007上的性能比较
coco数据集上的性能比较
从图中可以看出,第一行显示了六个输入图像,而第二行显示了网络在非极大抑制(NMS)之前的预测,最后一行显示了MultiGridDet在NMS之后对输入图像的最终边界框预测。
以上是用于精确目标检测的多网格冗余边界框标注的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

一、前言目前领先的目标检测器是基于深度CNN的主干分类器网络重新调整用途的两级或单级网络。YOLOv3就是这样一种众所周知的最先进的单级检测器,它接收输入图像并将其划分为大小相等的网格矩阵。具有目标中心的网格单元负责检测特定目标。今天分享的,就是提出了一种新的数学方法,该方法为每个目标分配多个网格,以实现精确的tight-fit边界框预测。研究者还提出了一种有效的离线复制粘贴数据增强来进行目标检测。新提出的方法显着优于一些当前最先进的目标检测器,并有望获得更好的性能。二、背景目标检测网络旨在使用

在目标检测领域,YOLOv9在实现过程中不断进步,通过采用新架构和方法,有效提高了传统卷积的参数利用率,这使得其性能远超前代产品。继2023年1月YOLOv8正式发布一年多以后,YOLOv9终于来了!自2015年JosephRedmon和AliFarhadi等人提出了第一代YOLO模型以来,目标检测领域的研究者们对其进行了多次更新和迭代。 YOLO是一种基于图像全局信息的预测系统,其模型性能不断得到增强。通过不断改进算法和技术,研究人员取得了显着的成果,使得YOLO在目标检测任务中表现出越来越强大

1、打开苹果手机的桌面,找到并点击进入【设置】,2、在设置的页面点击进入【相机】。3、点击打开【网格】右侧的开关即可。

这篇论文讨论了3D目标检测的领域,特别是针对Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中,系统需要在预测真实场景中物体的定位3D边界框和语义类别标签,这通常依赖于点云或RGB图像。尽管2D目标检测技术因其普遍性和速度展现出色,但相关研究表明,3D通用检测的发展相比之下显得滞后。当前,大多数3D目标检测方法仍依赖于完全监督学习,并受到特定输入模式下完全标注数据的限制,只能识别经过训练过程中出现的类别,无论是在室内还是室外场景。这篇论文指出,3D通用目标检测面临的挑战主要

如何利用C++进行高性能的图像追踪和目标检测?摘要:随着人工智能和计算机视觉技术的快速发展,图像追踪和目标检测成为了重要的研究领域。本文将通过使用C++语言和一些开源库,介绍如何实现高性能的图像追踪和目标检测,并提供代码示例。引言:图像追踪和目标检测是计算机视觉领域中的两个重要任务。它们在许多领域中都有着广泛的应用,如视频监控、自动驾驶、智能交通系统等。为了

CSS布局技巧:实现圆形网格图标布局的最佳实践在现代网页设计中,网格布局是一种常见且强大的布局技术。而圆形网格图标布局则是一种更加独特和有趣的设计选择。本文将介绍一些最佳实践和具体代码示例,帮助你实现圆形网格图标布局。HTML结构首先,我们需要设置一个容器元素,在这个容器里放置图标。我们可以使用一个无序列表(<ul>)作为容器,列表项(<l

随着人工智能的发展,计算机视觉技术已经成为了人们关注的焦点之一。Python作为一种高效且易学的编程语言,在计算机视觉领域的应用得到了广泛的认可和推广。本文将重点介绍Python中的计算机视觉实例:目标检测。什么是目标检测?目标检测是计算机视觉领域中的一项关键技术,其目的是在一张图片或视频中识别出特定目标的位置和大小。相比于图像分类,目标检测不仅需要识别出图

简要介绍研究作者提出了 Matrix Net (xNet),一种用于目标检测的新深度架构。xNets将具有不同大小尺寸和纵横比的目标映射到网络层中,其中目标在层内的大小和纵横比几乎是均匀的。因此,xNets提供了一种尺寸和纵横比感知结构。研究者利用xNets增强基于关键点的目标检测。新的的架构实现了比任何其他单镜头检测器的时效性高,具有47.8的mAP在MS COCO数据集,同时使用了一半的参数而且相比于第二好框架,其在训练上快了3倍。简单结果展示上图所示,xNet的参数及效率要远远超过其它模型
