目录
从生成模型中学习
与OpenAI的CLIP相媲美
首页 科技周边 人工智能 谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

Jan 14, 2024 pm 08:30 PM
数据 训练

获取高质量数据,已经成为当前大模型训练的一大瓶颈。

前几天,OpenAI被《纽约时报》起诉,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。

甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

一直以来,AI界多位大佬认为「合成数据」或许是解决这个问题的最优解。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

此前,谷歌团队还提出了用LLM代替人类标记偏好的方法RLAIF,效果甚至不输人类。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

现如今,谷歌MIT的研究人员发现,从大模型中学习可以得到使用真实数据训练的最佳模型的表征。

这一最新方法称SynCLR,一种完全从合成图像和合成描述学习虚拟表征的方法,无需任何真实数据。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

论文地址:https://arxiv.org/abs/2312.17742

实验结果表明,通过SynCLR方法学习到的表征,能够与OpenAI的CLIP在ImageNet 上的传输效果一样好。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

从生成模型中学习

目前表现最好的「视觉表征」学习方法依赖于大规模的实际数据集。然而,真实数据的收集却有不少的困难。

为了降低收集数据的成本,研究人员本文中提出了一个问题:

从现成的生成模型中采样的合成数据,是否是一条通往大规模策划数据集的可行之路,从而训练出最先进的视觉表征?

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

与直接从数据中学习不同,谷歌研究人员称这种模式为「从模型中学习」。作为建立大规模训练集的数据源,模型有几个优势:

- 通过其潜在变量、条件变量和超参数,为数据管理提供了新的控制方法。

- 模型也更容易共享和存储(因为模型比数据更容易压缩),并且可以产生无限数量的数据样本。

越来越多的文献研究了生成模型的这些特性和其他优点和缺点,并将其作为训练下游模型的数据源。

其中一些方法采用混合模式,即混合真实数据集和合成数据集,或需要一个真实数据集来生成另一个合成数据集。

其他方法试图从纯粹的「合成数据」中学习表征,但远远落后于表现最好的模型。

论文中,研究人员提出的最新方法,使用生成模型重新定义可视化类的粒度。

如图2所示,使用2个提示生成了四张图片「一只戴着墨镜和沙滩帽的金毛猎犬骑着自行车」和「一只可爱的金毛猎犬坐在寿司做成的房子里」。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

传统的自监督方法(如Sim-CLR)会将这些图像视为不同的类,不同图像的嵌入会被分开,而不会明确考虑图像之间的共享语义。

另一个极端是,监督学习方法(即SupCE)会将所有这些图像视为单一类(如「金毛猎犬」)。这就忽略了这些图像在语义上的细微差别,例如在一对图像中狗在骑自行车,而在另一对图像中狗坐在寿司屋内。

相反,SynCLR方法将描述视为类,即每个描述一个可视化类。

这样,我们就可以按照「骑自行车」和「坐在寿司店里」这两个概念对图片进行分组。

这种粒度很难在真实数据中挖掘,因为收集由给定描述的多张图片并非易事,尤其是当描述数量增加时。

然而,文本到图像的扩散模型从根本上就具备这种能力。

只需对相同的描述设定条件,并使用不同的噪声输入,文本到图像的扩散模型就能生成与相同描述相匹配的不同图像。

具体来说,作者研究了在没有真实图像或文本数据的情况下,学习视觉编码器的问题。

最新方法依赖3个关键资源的利用:一个语言生成模型(g1),一个文本到图像的生成模型(g2),以及一个经过整理的视觉概念列表(c)。

前处理包括三个步骤:

(1)使用(g1)合成一组全面的图像描述T,其中涵盖了C中的各种视觉概念;

(2)对于T中的每个标题,使用(g2)生成多个图像,最终生成一个广泛的合成图像数据集X;

(3)在X上进行训练,以获得视觉表示编码器f。

然后,分别使用llama-27b和Stable Diffusion 1.5作为(g1)和(g2),因为其推理速度很快。

合成描述

为了利用强大的文本到图像模型的能力,来生成大量的训练图像数据集,首先需要一个不仅精确描述图像而且展示多样性的描述集合,以包含广泛的视觉概念。

对此,作者开发了一种可扩展的方法来创建如此大量的描述集,利用大模型的上下文学习能力。

如下展示了三个合成模板的示例。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

如下是使用Llama-2生成上下文描述,研究人员在每次推理运行中随机抽取三个上下文示例。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

合成图像

对于每个文本描述,研究人员都会用不同的随机噪声启动反向扩散过程,从而生成各种图像。

在此过程中,无分类器引导(CFG)比例是一个关键因素。

CFG标度越高,样本的质量和文本与图像之间的一致性就越好,而标度越低,样本的多样性就越大,也就越符合基于给定文本的图像原始条件分布。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

表征学习

论文中,表征学习的方法建立在StableRep的基础上。

作者提出的方法的关键组成部分是多正对比学习损失,它的工作原理是对齐(在嵌入空间)从同一描述生成的图像。

另外,研究中还结合了其他自监督学习方法的多种技术。

与OpenAI的CLIP相媲美

实验评估中,研究人员首先进行消融研究,以评估管道内各种设计和模块的有效性,然后继续扩大合成数据的量。

下图是不同描述合成策略的比较。

研究人员报告了9个细粒度数据集的ImageNet线性评估准确性和平均准确性。这里的每个项目包括1000万个描述和每个描述4张图片。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

下表是ImageNet线性评估与细粒度分类的比较。

尽管只使用了合成数据,但SynCLR与OpenAI的CLIP和DINO v2模型取得了不相上下的结果。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

下表是在相同的合成数据上比较SynCLR和CLIP,可以看出,SynCLR明显优于CLIP。

具体设置为,每个标题生成4个图像,SynCaps-150M为SynCLR和CLIP提供了更好的表示。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

PCA可视化如下。按照DINO v2,研究人员计算了同一组图像的斑块之间的PCA,并根据其前3个分量进行着色。

与DINO v2相比,SynCLR对汽车和飞机的绘制的图更为准确,而对能绘制的图则稍差一些。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

图6和图7中,分别展示了不同训练规模下的ImageNet线性准确率,以及不同训练参数规模下的精细分类。

谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道

为什么要从生成模型中学习?

一个令人信服的原因是,生成模型可以像数百个数据集一样同时运作,能够为策划训练数据提供了一种方便有效的方法。

总而言之,最新论文研究了视觉表征学习的新范式——从生成模型中学习。

在没有使用任何实际数据的情况下,SynCLR学习到的视觉表征,与最先进的通用视觉表征学习器学习到的视觉表征不相上下。

以上是谷歌MIT最新研究显示:获取高质量数据并非难事,大型模型是解决之道的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

使用ddrescue在Linux上恢复数据 使用ddrescue在Linux上恢复数据 Mar 20, 2024 pm 01:37 PM

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

iPhone上的蜂窝数据互联网速度慢:修复 iPhone上的蜂窝数据互联网速度慢:修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

See all articles