首页 科技周边 人工智能 DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

Mar 05, 2024 pm 12:04 PM
数据 训练

谷歌在2月之后突然切换到了996模式,不到一个月的时间抛出了5个模型。

而DeepMind CEO Hassabis本人也是四处为自家的产品站台,曝出了很多幕后的开发内幕。

在他看来,虽然还需要技术突破,但是现在人类通往AGI之路已经出现。

而DeepMind和谷歌Brain的合并,标志着AI技术发展已经进入了新的时代。

问:DeepMind一直站在技术的前沿。比如像AlphaZero这样系统,内部的智能体能够经过一系列思考,达成最终目标。这是否意味着大型语言模型(LLM)也能够加入这种研究的行列呢?

Hassabis认为,大型模型有巨大的潜力,需要进一步优化,以提高其预测精度,从而建立更可靠的世界模型。尽管这一步骤至关重要,但这可能并不足以构建一个完整的通用人工智能(AGI)系统。

在此基础上,我们正在开发类似AlphaZero的规划机制,通过世界模型来制定实现具体世界目标的计划。

这包括将不同的思维或推理链条串联起来,或者利用树搜索来探索广阔的可能性空间。

这些都是目前我们的大型模型所缺失的环节。

问:从纯粹的强化学习(RL)方法出发,是否有可能直接迈向 AGI 呢?

看来,大型语言模型会构成基础先验知识,然后在此基础上进行进一步研究。

理论上,完全采用开发AlphaZero的方式是有可能的。

DeepMind和RL社区的一些人正在致力于这一方向,他们从零开始,不依赖任何先验知识或数据,完全构建新的知识体系。

我认为,利用现有的世界知识——例如网络上的信息和我们已经收集的数据——将是实现AGI的最快途径。

我们现在已经有了能吸收这些信息的可扩展算法——Transformers,我们完全可以利用这些已有的模型作为先验知识来进行预测和学习。

因此,我认为,最终的AGI系统一定将包括现在的大模型作为解决方案的一部分。

但光有大模型还不足够,我们还需要在其上加入更多的规划和搜索的能力。

问:面对这些方法所需的巨大计算资源,我们怎样才能突破呢?

即使是AlphaGo这样的系统,由于需要在决策树的每个节点上进行计算,也是相当昂贵的。

我们致力于开发样本高效的方法和重复利用现有数据的策略,例如经验回放(experience replay),以及探索更高效的方法。

实际上,如果世界模型足够好,你的搜索就可以更高效。

以Alpha Zero为例,它在围棋和象棋等游戏中的表现超过了世界冠军水平,但其搜索的范围远小于传统的暴力搜索方法。

这表明,改进模型可以使搜索更高效,从而达到更远的目标。

但在定义奖励函数和目标时,如何确保系统朝着正确的方向发展,将是我们面临的挑战之一。

谷歌为什么半个月能出5个模型?

问:你能谈谈为什么Google和DeepMind同时研究这么多不同的模型吗?

因为我们一直在进行基础研究,我们有大量的基础研究工作,涵盖各种不同的创新和方向。

这意味着,我们同时在构建主要的模型轨道——核心Gemini模型,同时也有许多更具探索性的项目正在进行。

当这些探索项目取得一些成果时,我们会将其融入主分支,进入下一版本的 Gemini,这就是为什么你会看到1.5紧随1.0之后发布,因为我们已经在研究下一个版本了,因为我们有多个团队在不同的时间尺度上工作,相互之间进行循环,这就是我们能够持续进步的方式。

我希望这将成为我们的新常态,以这种高速度发布产品,当然,同时还要非常负责任,牢记发布安全的模型是我们的第一要务。

问:我想问的是你们最近的一次重大发布,即Gemini 1.5 Pro,你们的新 Gemini Pro 1.5模型可以处理高达一百万个token。你能解释一下这意味着什么以及为什么上下文窗口是一个很重要的技术指标吗?

DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

是的,这非常重要。长上下文可以被视为模型的工作记忆,即它一次可以记住并处理多少数据。

你拥有的上下文越长,它的准确性也很重要,从长上下文中回忆事物的精确度也同样重要,你就可以考虑到更多的数据和上下文。

因此,一百万意味着你可以处理巨大的书籍、完整的电影、大量的音频内容,比如完整的代码库。

如果你有一个更短的上下文窗口,比如只有十万这个级别,那么你只能处理其中的片段,模型就无法对你感兴趣的整个语料库进行推理或检索。

因此,这实际上为所有类型的新用例提供了可能性,这些是小上下文无法完成的。

问:我从人工智能研究人员那里听说,这些大上下文窗口的问题是它们非常消耗计算资源。比如,如果你上传了一整部电影或一本生物学教科书,并询问关于它的问题,就需要更多的处理能力来处理所有这些并做出回应。如果很多人都这样做,成本会很快增加。Google DeepMind是否提出了一些巧妙的创新来使这些巨大的上下文窗口更高效,还是Google只是承担了所有这些额外计算的成本?

是的,这是一个全新的创新,因为如果没有创新,你无法拥有这么长的上下文。

但这仍然需要花很高昂的计算成本,所以我们正在努力优化。

如果你用满了整个上下文窗口的话。上传数据的初始处理可能需要几分钟。

但如果你考虑到这就像是在一两分钟内观看整部电影或阅读整部《战争与和平》,那么这还不算太坏,然后你就能回答任何关于它的问题了。

然后我们想确保的是,一旦你上传并处理了文档、视频或音频,那么随后的问题和回答应该更快。

这就是我们目前正在努力的方向,我们非常有信心能将其缩短到几秒钟的时间内。

问:你说你们已经测试了高达一千万token的系统了,效果如何?

在我们的测试中效果非常好。因为计算成本还比较高,目前还不实际提供服务。

但在精确度和回忆方面,它的表现非常出色。

问:我想问你关于Gemini的问题,Gemini能做什么特别的事情,之前的Google语言模型或其他模型做不到的?

嗯,我认为Gemini,尤其是1.5版本的激动人心之处在于其天生的多模态特性,我们从头开始构建它,使其能够处理任何类型的输入:文本、图像、代码、视频。

如果你结合长上下文,你就会看到它的潜力。比如,你可以想象你在听一整场讲座,或者有一个重要的概念你想了解,你想快进到那里。

所以现在我们可以将整个代码库放入上下文窗口中,这对于新程序员的入门非常有用。假设你是星期一开始上班的新工程师,通常你需要去查阅数以十万计的代码行,你如何访问某个函数?

你需要去询问代码库的专家。但现在实际上你可以使用Gemini作为编码助手,以这种有趣的方式。它会返回一些摘要,告诉你代码的重要部分在哪里,你就可以开始工作了。

我认为拥有这种能力非常有帮助,使你的日常工作流程更加高效。

我非常期待看到Gemini在像slack这样的东西中被整合进去后的表现,以及你的一般工作流程。未来的工作流程是什么样的?我认为我们才刚刚开始体会到变化。

谷歌开源的首要任务是保证安全

问:我现在想转向 Gemma,你们刚刚发布的一系列轻量级开源模型。今天,是否通过开源发布基础模型,或者将它们保持封闭,似乎是最具争议的话题之一。到目前为止,Google一直将其基础模型保持为封闭源。为什么现在选择开源?你如何看待这样一种批评,即通过开源使基础模型可用,增加了它们被恶意行为者使用的风险和可能性?

是的,我实际上公开讨论了这个问题很多次。

其中一个主要担忧是,通常来说,开源和开放研究显然是有益的。但这里有一个特定的问题,那就是与AGI和AI技术相关的问题,因为它们是通用的。

一旦你发布了它们,恶意行为者就可能将它们用于有害的目的。

当然,一旦你开源了某样东西,你就没有真正的办法再收回来了,不像API访问之类的,如果发现下游有之前没人考虑到的有害用例,你可以直接切断访问。

我认为这意味着对于安全性、鲁棒性和负责任性的门槛甚至更高。随着我们接近 AGI,它们将拥有更强大的能力,所以我们必须更加小心,考虑它们可能被恶意行为者用于什么。

我还没有从那些支持开源的人那里听到一个好的论点,比如开源的极端主义者,他们中有很多是我在学术界尊敬的同事,他们如何回答这个问题,——符合防范开源模型对于会让更多的恶意行为者的访问模型的问题?

我们需要更多地考虑这些问题,因为这些系统变得越来越强大。

问:那么,为什么Gemma没有让你担忧这个问题呢?

DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

是的,当然,因为你会注意到,Gemma只提供轻量级版本,所以它们相对较小。

实际上,较小的尺寸对开发者更有用,因为通常个人开发者、学者或小团队希望在他们的笔记本电脑上快速工作,所以它们为此进行了优化。

因为它们不是前沿模型,它们是小型模型,我们觉得放心,因为这些模型的能力经过了严格的测试,我们非常清楚它们的能力,这种尺寸的模型没有大风险。

DeepMind为什么要和Google Brain合并

问:去年,当Google Brain和DeepMind合并时,我在 AI 行业中认识的一些人感到担忧。他们担心,Google历来给 DeepMind相当大的自由度,让它工作在它认为重要的各种研究项目上。

而随着合并,DeepMind的可能会不得不被转向到对Google短期内有益的事情,而不是这些较长期的基础研究项目。自从合并以来,已经一年了,对 Google 的短期利益和可能的长期 AI 进步之间的这种紧张关系是否改变了你可以工作的内容?

是的,你所提到的这第一年一切都非常好。一个原因是,我们认为现在是合适的时机,而且我从研究者的角度认为是时候了。

也许让我们回溯五年或六年,当我们做像AlphaGo这样的事情时,在AI领域,我们一直在探索性地研究如何达到 AGI,需要什么突破,应该押注什么,以及在那种情况下,你想做一系列广泛的事情,所以我认为那是一个非常探索性的阶段。

我认为在过去的两三年里,AGI的主要组成部分将是什么已经变得清晰,正如我之前提到的,虽然我们仍然需要新的创新。

DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

我认为你刚刚看到了Gemini1.5的长上下文,我认为还有很多类似的新创新将是必需的,所以基础研究仍然像以往一样重要。

但现在还需要在工程方向努力,即扩大和利用已知技术,并将其推向极限,需要在规模上进行非常有创造性的工程,从原型机级别的硬件到数据中心规模,以及涉及到的效率问题。

还有一个原因是,如果在五六年前制造一些AI驱动的产品,将不得不构建与AGI研究轨道完全不同的AI。

只能为特定产品做特殊场景下的任务,属于一种定制的AI,「手工制作的AI」。

但今天情况不一样了,为产品做AI,现在最好的方式是使用通用AI技术和系统,因为它们已经达到了足够的复杂性和能力水平。

所以实际上这是一个融合点,所以大家现在可以看到,研究轨道和产品轨道已经融合在一起了。

比如我们现在要做一个AI语音助手,与之相对的是一个真正理解语言的聊天机器人,它们现在是一体的,所以现在不需要考虑那种二分法或者协调紧张的关系了。

第二点个原因是,研究与现实应用之间有紧密的反馈循环实际上对研究非常有利。

因为产品能让你真正了解你的模型表现如何的方式,你可以有学术指标,但真正的测试是当数百万用户使用你的产品时,他们是否觉得它有用,是否觉得它有帮助,是否对世界有益。

你显然会得到大量的反馈,然后这将导致底层模型的非常快速改进,所以我认为我们现在正处于这个非常非常令人兴奋的阶段。

以上是DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

使用ddrescue在Linux上恢复数据 使用ddrescue在Linux上恢复数据 Mar 20, 2024 pm 01:37 PM

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

iPhone上的蜂窝数据互联网速度慢:修复 iPhone上的蜂窝数据互联网速度慢:修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

See all articles