USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
当前,半监督学习的发展如火如荼。但是现有的半监督学习基准大多局限于计算机视觉分类任务,排除了对自然语言处理、音频处理等分类任务的一致和多样化评估。此外,大部分半监督论文由大型机构发表,学术界的实验室往往由于计算资源的限制而很难参与到推动该领域的发展中。
为此,微软亚洲研究院的研究员们联合西湖大学、东京工业大学、卡内基梅隆大学、马克斯-普朗克研究所等机构的科研人员提出了 Unified SSL Benchmark(USB):第一个将视觉、语言和音频分类任务进行统一的半监督分类学习基准。
该论文不仅引入了更多样化的应用领域,还首次利用视觉预训练模型大大缩减了半监督算法的验证时间,使得半监督研究对研究者,特别是小研究团体更加友好。相关论文已被国际人工智能领域顶级学术大会 NeurIPS 2022 接收。
文章链接:https://arxiv.org/pdf/2208.07204.pdf
代码链接:https://github.com/microsoft/Semi-supervised-learning
监督学习通过构建模型来拟合有标记数据,当使用监督学习 (supervised learning)对大量高质量的标记数据(labeled data)进行训练时,神经网络模型会产生有竞争力的结果。
例如,据 Paperswithcode 网站统计,在 ImageNet 这一百万量级的数据集上,传统的监督学习方法可以达到超过88%的准确率。然而,获取大量有标签的数据往往费时费力。
为了缓解对标注数据的依赖,半监督学习(semi-supervised learning/SSL)致力于在仅有少量的标注数据时利用大量无标签数据(unlabeled data)来提升模型的泛化性。半监督学习亦是机器学习的重要主题之一。深度学习之前,这一领域的研究者们提出了诸如半监督支持向量机、熵正则化、协同训练等经典算法。
深度半监督学习
随着深度学习的兴起,深度半监督学习算法也取得了长足的进步。同时,包括微软、谷歌、和 Meta 等在内的科技公司也认识到了半监督学习在实际场景中的巨大潜力。
例如,谷歌利用噪声学生训练(noisy student training)这一半监督算法提高了其在搜索方面的性能[1]。当前最具代表性的半监督算法通常对标注数据使用交叉熵损失进行训练,对无标注数据使用一致性正则技术(consistency regularization)鼓励对输入扰动进行不变预测。
例如,谷歌在 NeurIPS 2020 提出的 FixMatch[2] 算法,利用增强锚定(augmentation anchoring)和固定阈值(fixed thresholding)技术来增强模型对不同强度增强数据的泛化性和减少噪声伪标签(noisy pseudo labels)的影响。在训练中,FixMatch 过滤了低于用户指定(user-provided / pre-defined)阈值的无标签数据。
微软亚洲研究院与东京工业大学等在 NeurIPS 2021 合作提出的 FlexMatch[3] 则考虑到了不同类之间的学习难度不同,因此提出了课程伪标签(curriculum pseudo labeling)技术,对于不同类应该采用不同的阈值。
具体来说,对于容易学习的类别,模型应该设置高阈值以降低噪声伪标签的影响;对于难学习的类别,模型应该设置低阈值鼓励该类的拟合。每个类的学习难度评估取决于落入该类且高于固定值的未标记数据样本的数量。
同时,微软亚洲研究院的研究员们还合作提出了一个统一的基于 Pytorch 的半监督方法代码库 TorchSSL[4],对该领域的深度方法、常用数据集和基准结果进行了统一的支持。
图1:FlexMatch 算法流程
当前半监督学习代码库存在的问题与挑战
尽管半监督学习的发展如火如荼,但是,研究员们注意到目前大部分半监督方向的论文只关注计算机视觉 (CV) 分类任务,对于其他领域,例如自然语言处理 (NLP)、音频处理 (audio),研究者无法得知这些在 CV 任务上有效的算法到了不同领域是否依然有效。
另外,大部分半监督相关的论文都是由大型机构发表,学术界的实验室往往由于计算资源的限制而很难参与到推动该领域的发展中。总的来说,半监督学习基准目前存在以下两个问题:
(1)多样性不足。现有的半监督学习基准大多局限于 CV 分类任务(即 CIFAR-10/100,SVHN,STL-10 和 ImageNet 分类),排除了对 NLP、audio 等分类任务的一致和多样化评估,而在 NLP 和 audio 中缺乏足够的标记数据也是一个普遍问题。
(2)耗时且对学术界不友好。现有的半监督学习基准(如 TorchSSL)通常是耗时且不环保的,因为它往往需要从头开始训练深度神经网络模型。具体而言,使用TorchSSL 评估 FixMatch[1]大约需要300个 GPU 日。如此高的训练成本使得许多研究实验室(尤其是学术界的实验室或小研究团体)无法负担得起 SSL 的相关研究,从而阻碍了 SSL 的进展。
USB:任务多样化且对研究者更友好的新基准库
为了解决上述问题,微软亚洲研究院的研究员们联合西湖大学、东京工业大学、卡内基梅隆大学、马克斯-普朗克研究所等机构的科研人员提出了 Unified SSL Benchmark(USB),这是第一个将视觉、语言和音频分类任务进行统一的半监督分类学习基准。
相比于之前的半监督学习基准(如 TorchSSL)只关注少量视觉任务,该基准不仅引入了更多样化的应用领域,还首次利用视觉预训练模型(pretrained vision Transformer)大大缩减了半监督算法的验证时间(从7000 GPU 时缩减至900 GPU 时),从而使得半监督研究对研究者、特别是小研究团体更为友好。
相关论文已被国际人工智能领域的顶级学术大会 NeurIPS 2022 接收。(点击「阅读原文」可了解更多)
USB 提供的解决方案
那么,USB 如何一次性解决当前半监督基准所存在的问题呢?研究员们主要进行了如下改进:
(1)为增强任务多样性,USB 引入了5个 CV 数据集,5个 NLP 数据集和5个 audio 数据集,并提供了一个多样化且具有挑战性的基准,从而能够对来自不同领域的多个任务进行一致的评估。表1提供了 USB 与 TorchSSL 的任务和训练时间等方面的详细对比。
表1:USB 与 TorchSSL 框架的任务和训练时间对比
(2)为了提高训练效率,研究员们将预训练的 vision Transformer 引入 SSL,而不是从头训练 ResNets。具体而言,研究员们发现在不影响性能的情况下使用预训练模型可以大大减少训练迭代次数(例如,将 CV 任务的训练迭代次数从100万步减少到20万步)。
(3)为了对研究人员更加友好,研究员们开源实现了14种 SSL 算法并开源了一个模块化代码库和相关的配置文件以供研究者轻松再现 USB 报告中的结果。为了快速上手,USB 还提供了详细的文档和教程。此外,USB 还提供了 pip 包以供使用者直接调用 SSL 算法。研究员们承诺未来会在 USB 中不断加入新的算法(例如不平衡半监督算法等)和更多更具挑战性的数据集。表2展示了 USB 中已支持的算法和模块。
表2:USB 中已支持的算法和模块
半监督学习通过利用大量无标签数据来训练更精确、更鲁棒的模型,在未来有着重要的研究和应用价值。微软亚洲研究院的研究员们期待通过 USB 这一工作,能够予力学术界和工业界在半监督学习领域取得更大的进展。
以上是USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

恐怖走廊是模拟山羊3之中的一个任务,这个任务要怎么样才能够去完成呢,掌握到详细的过关方式和对应的流程,能够完成这个任务的相应挑战,下面就为大家带来模拟山羊3恐怖走廊攻略,了解相关的信息。模拟山羊3恐怖走廊攻略1、首先需要玩家前往地图左上角的寂静岭处。2、在这里可以看到一个屋顶上写着RESTSTOP的房子,玩家需要操作山羊进入这个房子。3、进入房间之后,我们首先向前直走,随后向右转,在这里尽头有一扇门,我们直接从这里进去。4、进入之后同样是先向前走随后右转,在这里走到门前门会关上,我们需要回头找到

要自动化任务和管理多个系统,任务计划软件是您武器库中的宝贵工具,尤其是对于系统管理员而言。Windows任务计划程序完美地完成了这项工作,但最近许多人报告说操作员拒绝了请求错误。该问题存在于操作系统的所有迭代中,即使已经广泛报告和涵盖,也没有有效的解决方案。继续阅读以找到真正对其他人有用的内容!操作员或管理员拒绝了任务计划程序0x800710e0中的请求是什么?任务计划程序允许在没有用户输入的情况下自动执行各种任务和应用程序。您可以使用它来安排和组织特定应用程序、配置自动通知、帮助传递消息等。它

模拟山羊3是有着经典模拟玩法的游戏,可让玩家充分体验到休闲动作类操作模拟的乐趣,游戏中还拥有很多特色任务的精彩,其中模拟山羊3帝陵任务是需要玩家找寻到钟塔上的三个钟并操作的,一些玩家还不清楚要怎么弄,下面带来模拟山羊3帝陵任务攻略流程分享!模拟山羊3帝陵任务攻略流程按照顺序敲击钟即可。详细步骤拓展1、首先玩家需要打开地图去到雾丘公墓。2、然后上到钟楼上,里面会有着三个钟。3、接着按照从大到小的顺序,按照222312312熟悉怒敲击。4、完成敲击后即可完成任务,并打开大门获得光剑。

营救史蒂夫是模拟山羊3中的一个独特任务,具体需要怎么做才能够完成呢,这个任务比较简单,但是我们需要注意不要理解错意思,下面就为大家带来模拟山羊3营救史蒂夫任务攻略,能够更好的完成相关的任务。模拟山羊3营救史蒂夫任务攻略1、首先来到地图中右下角的温泉。2、在来到温泉边上之后就可以触发营救史蒂夫的这个任务。3、注意在温泉里有个男人,虽然他也叫史蒂夫,但是并不是本次任务的目标。4、在这个温泉里找到一条叫史蒂夫的鱼,并且将其带上岸,即可完成这个任务。

抖音作为当下最受欢迎的社交媒体平台之一,吸引了大量用户参与其中。在抖音上,有很多粉丝团任务可供用户完成,从而获得一定的奖励和福利。那么,抖音粉丝团任务在哪里可以找到呢?一、抖音粉丝团任务在哪里看?为了找到抖音粉丝团任务,你需要访问抖音的个人主页。在主页上,你会看到一个名为“粉丝团”的选项。点击这个选项,你就可以浏览你所加入的粉丝团和相关任务。在粉丝团任务栏目中,你会看到各种不同类型的任务,如点赞、评论、分享、转发等。每个任务都有对应的奖励和要求,一般来说,完成任务后会获得一定数量的金币或者经验值

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

1介绍神经辐射场(NeRF)是深度学习和计算机视觉领域的一个相当新的范式。ECCV2020论文《NeRF:将场景表示为视图合成的神经辐射场》(该论文获得了最佳论文奖)中介绍了这项技术,该技术自此大受欢迎,迄今已获得近800次引用[1]。该方法标志着机器学习处理3D数据的传统方式发生了巨大变化。神经辐射场场景表示和可微分渲染过程:通过沿着相机射线采样5D坐标(位置和观看方向)来合成图像;将这些位置输入MLP以产生颜色和体积密度;并使用体积渲染技术将这些值合成图像;该渲染函数是可微分的,因此可以通过

实现任务通用是深度学习基础模型研究的核心问题,也是近期大模型方向的主要关注点之一。然而,在时间序列领域,各类分析任务的差别较大,既有需要细粒度建模的预测任务,也有需要提取高层语义信息的分类任务。如何构建统一的深度基础模型高效地完成各类时序分析任务,此前尚未有成型方案。为此,来自清华大学软件学院的团队围绕时序变化建模这一基本问题展开研究,提出了任务通用的时序基础模型TimesNet,论文被ICLR 2023接收。作者列表:吴海旭*,胡腾戈*,刘雍*,周航,王建民,龙明盛链接:https://ope
