自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法
预训练已成为一种替代和有效的范式,以克服这些缺点,其中模型首先使用容易获得的数据进行训练,然后用于解决感兴趣的下游任务,标记数据比监督学习少得多。
使用未标记数据进行预训练,即自监督学习,尤其具有革命性,在不同领域取得了成功:文本、视觉、语音等。
这就提出了一个有趣且具有挑战性的问题:为什么对未标记数据进行预训练应该有助于看似不相关的下游任务?
论文地址:https://dataspace.princeton.edu/handle/88435/dsp01t435gh21h
本文提出了一些工作,提出并建立了一个理论框架,以研究为什么自监督学习对下游任务有益。
该框架适用于对比学习、自回归语言建模和基于自我预测的方法。该框架的核心思想是预训练有助于学习数据的低维表示,这随后有助于用线性分类器解决感兴趣的下游任务,需要较少的标记数据。
一个常见的主题是形式化用于构建自监督学习任务的无标记数据分布的理想属性。在适当的形式化下,可以表明,近似最小化正确的预训练目标可以提取在无标记数据分布中隐式编码的下游信号。
最后表明,该信号可以用线性分类器从学习到的表示中解码,从而为跨任务的「技能和知识」迁移提供了一种形式化。
引言
在寻求设计智能体和数据驱动的问题解决方案的过程中,机器学习和人工智能领域在过去十年中取得了巨大的进步。随着在具有挑战性的监督学习基准上的初步成功,如ImageNet[Deng等人,2009],深度学习的创新随后导致模型在不同领域的许多此类基准上具有超人的性能。训练这种特定于任务的模型当然令人印象深刻,并具有巨大的实用价值。然而,它有一个重要的限制,即需要大量的标记或标注数据集,而这通常是昂贵的。此外,从智能的角度来看,人们希望有更通用的模型,就像人类一样[Ahn和Brewer, 1993],可以从以前的经验中学习,将它们总结为技能或概念,并利用这些技能或概念来解决新任务,很少或没有演示。毕竟,在没有明确监督的情况下,婴儿通过观察和互动来学习很多东西。这些局限性启发了预训练的另一种范式。
本文的重点是使用通常大量可用的未标记数据进行预训练。使用未标记数据的想法一直是机器学习的兴趣点,特别是通过无监督学习和半监督学习。使用深度学习对其进行的现代适应通常称为自监督学习(SSL),并已经开始通过对比学习和语言建模等思想改变机器学习和人工智能的格局。自监督学习的思想是仅使用未标记的数据构建某些任务,并训练模型在构建的任务上表现良好。这类任务通常需要模型通过从观察到的或保留的部分预测输入的未观察到的或隐藏的部分(或属性)来编码数据的结构属性[LeCun和Misra, 2021]。自监督学习在许多感兴趣的下游任务上显示出了通用性和实用性,通常比从头解决任务具有更好的样本效率,从而使我们离通用智能体的目标更近了一步。事实上,最近,像GPT-3 [Brown等人,2020]等大型语言模型已经展示了大规模出现的令人着迷的「突发行为」,引发了人们对自监督预训练想法的更多兴趣。
尽管自监督学习在经验上取得了成功,并继续显示出巨大的前景,但除了粗略的直觉之外,仍然缺乏对其工作原理的良好理论理解。这些令人印象深刻的成功提出了有趣的问题,因为先验不清楚为什么在一个任务上训练的模型应该有助于另一个看似不相关的任务,即为什么在任务a上训练应该有助于任务b。虽然对SSL(和一般的深度学习)的完整理论理解是具有挑战性和难以实现的,但在任何抽象层次上理解这种现象都可能有助于开发更有原则的算法。本文的研究动机是:
为什么在自监督学习任务上进行训练(使用大量未标记数据)有助于解决数据稀缺的下游任务?如何将「知识和技能」的迁移正式化?
虽然有大量关于监督学习的文献,但来自SSL任务→下游任务的泛化与监督学习中来自训练集→测试集的泛化有本质的不同。对于分类下游任务的监督学习,例如,从未知分布中采样的在输入-标签对的训练集上训练的模型,可以直接用于对从相同分布中采样的未见过的测试集的评估。这个基本的分布建立了从训练集到测试集的联系。然而,从SSL任务→下游任务的概念连接就不那么清晰了,因为SSL任务中使用的未标记数据没有关于下游标签的明确信号。这意味着在SSL任务上预训练的模型(例如,从其余部分预测输入的一部分)不能直接用于下游任务(例如,从输入预测类别标签)。因此,「知识和技能」的迁移需要使用一些标记数据进行额外的训练步骤,理想情况下比从头开始监督学习所需的少。对SSL任务→下游任务泛化的任何理论理解都需要解决这些问题:「未标记数据的内在作用是什么?以及「如何将预训练模型用于下游任务?」本文针对分类的下游任务,通过对无标签数据进行分布假设,并利用表示学习的思想,研究这些问题:
(a)(分布假设)未标记的数据分布隐含地包含有关感兴趣的下游分类任务的信息。
(b)(表示学习)在适当的SSL任务上预训练的模型可以通过学习到的表示对该信号进行编码,这些表示随后可以用线性分类器解决下游分类任务。
点(a)表明,未标记的某些结构属性隐式地为我们提供了有关后续下游任务的提示,而自监督学习可以帮助从数据中梳理出这个信号。点(b)提出了一种简单且经验上有效的方法来使用预训练模型,利用模型的学习表示。本文识别并在数学上量化了未标记数据的分布属性,对于不同的SSL方法,如对比学习、语言建模和自我预测,可以证明可以学习到良好的表示。在下一节中,我们将深入研究表示学习的思想,并形式化解释为什么自监督学习有助于下游任务。
以上是自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP
