目录
谷歌Meta隔壁,智谱AI也在
特邀演讲
Raia Hadsell
Devi Parikh
Moritz Hardt
GLM Team
国内顶流技术团队
GLM-4跻身全球第一梯队
首页 科技周边 人工智能 图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

May 30, 2024 am 11:17 AM
ai 图灵

这几天,AI届的盛会——ICLR在维也纳举办。

OpenAI、Meta、谷歌、智谱AI等世界前沿AI科技企业齐聚一堂。

现场名流云集,星光耀眼,走几步就能偶遇一位发过颠覆性paper的大咖。

毫无意外地,ICLR 2024展厅也变成了追星现场。热闹的气氛,快把屋顶掀翻了。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

现场追星图灵巨头

图灵三巨头中的著名「e人」LeCun,提前就在X上大方公布出自己的行程,满怀期待地等着和粉丝们相见了。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

在评论区,不仅有粉丝激动打卡,甚至还有准备现场递简历的。

粉丝们果然不虚此行,在现场,LeCun口若悬河地讲解,热情的观众们在周围形成密实的包围圈。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

言归正传,在整个ICLR活动上,Meta团队将分享25余篇论文和两个研讨会。这次,LeCun团队在ICLR上发表了以下两篇论文。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

论文地址:https://arxiv.org/abs/2305.19523

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

论文地址:https://arxiv.org/abs/2311.12983

另一位图灵巨头Yoshua Bengio,也显示了自己的超高人气。

现场观众总结道:「一个人真的需要在他的领域中做到独一无二,才能让他的会议室外排起如此长的队伍!」

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

此前LeCun和Hinton都对此发表过言辞激烈的意见,Bengio的态度似乎一直比较模糊,迫不及待想知道他对于AGI是什么看法了。在即将到来的5月11日,他就会在一场关于AGI的Workshop中发表演讲。

值得一提的是,Bengio团队也在今年的ICLR上获得了杰出论文荣誉提名。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

论文地址:https://openreview.net/pdf?id=Ouj6p4ca60

谷歌Meta隔壁,智谱AI也在

现场,谷歌开源模型Gema、机器人智能体背后框架Robotics Transformers,以及其他开创性的研究一并呈现。

紧挨着Meta和谷歌,展厅中间有一家非常亮眼的公司——智谱AI。

现场的童鞋正为大家介绍GLM-4、ChatGLM等一系列研究成果。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

这一系列展示,引起了众多国外学者的围观。

现场的近两千名与会嘉宾和学者,认真听了GLM大模型技术团队的介绍。

介绍内容包括了GLM系列大模型的多项前沿研究成果,涵盖数学、文生图、图像理解、视觉UI理解、Agent智能体等领域。

在现场,大家热烈讨论起了对Scaling Law的看法。而GLM团队,对此也有独到见解——

「相比模型大小或训练计算量,智能涌现和预训练损失有更加紧密的联系。」

比如,著名的OpenAI 996研究员Jason Wei,认真读过智谱AI这篇讲预训练损失的论文后,表示十分赞叹。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

论文中,团队通过训练30 个不同参数和数据规模LLM,评估了其在12个中英文数据集上的表现。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

论文地址:https://arxiv.org/abs/2403.15796

结果观察到,只有当预训练损失低于某个阈值时,LLM会出现涌现能力。

而且,从预训练损失的角度定义「涌现能力」,效果优于仅依赖模型参数或训练量。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

智谱AI的此番表现,也让越来越多外国网友意识到——

19岁获得博士的Stability AI研究主任Tanishq表示,CogVLM这类最有竞争力、为开源生态做出重大贡献的开源基础模型,就是来自中国。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

这位游戏工作室的前CEO,去年就开始用CogVLM和Stable Diffusion做完整的开源版本了。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

是的,自CogVLM自发布之后,其强大的能力便引起了外国网友的惊呼。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

在今年1月的LLM排行榜中,也有人发现——

当时Gemini和GPT-4V远远领先于任何开源LLM,唯一一个例外,就是CogVLM。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

可见,这波国产大模型出海,智谱AI已经闷声不响地在国外建立了自己的巨大影响力。

特邀演讲

展厅精彩演示之外,今年的ICLR,共邀请了七位特邀演讲嘉宾,分享他们对AI的见解。

有来自谷歌DeepMind的研究科学家Raia Hadsell,佐治亚理工学院副教授&FAIR首席科学家Devi Parik,有来自马克斯·普朗克计算机科学研究所(MPI-SWS)的主任Moritz Hardt,唯一一家中国团队是智谱AI 的GLM 大模型技术团队。

Raia Hadsell

谷歌DeepMind科学家Raia Hadsell的演讲题目是——「在人工智能发展的起伏过程中学习:通向AGI道路上的意外真理」。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

经过数十年的稳定发展和偶尔的挫折后,AI正处在一个关键的拐点。

AI产品已经爆炸式地进入主流市场,我们还未触及到scaling红利的天花板,因此整个社区都在探讨下一步的方向。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

在这次的演讲中,基于20多年在AI领域的经验,Raia探讨了我们对AGI发展之路的假设,如何随时间发展而变化。

与此同时,她还揭示了,在这个探索的过程中,我们得到的意外发现。

从强化学习到分布式架构,再到神经网络,已经在科学领域发挥着潜在的革命性作用。

Raia认为,通过汲取过去的经验教训,可以为AI未来的研究方向提供重要的洞见。

Devi Parikh

另一边,FAIR首席科学家Devi Parik给所有人讲述了,自己生活中的故事。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

从演讲题目可见略知,Parik的分享内容,非比寻常。

在ICLR大会上,在解释为什么技术环境是现在这个样子时,大家会重点针对互联网、大数据和算力的发展,展开讨论。

然鹅,鲜有人关注那些微小,但重要的个人故事。

其实,每个人的故事,都可以汇聚成为推动技术进步的重要力量。

通过这种方式,我们可以彼此学习,相互激励。这让我们在追求目标时,更加坚韧和高效。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

Moritz Hardt

德国MPI-SWS主任Moritz Hardt带来了「新兴的科学基准」的演讲。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

显然,基准测试成为机器学习领域的「核心支柱」。

自20世纪80年代以来,虽然人类在这个研究范式下取得了诸多成就,但对其深层次的理解仍然有限。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

在此次演讲中,Hardt通过一系列选定的实证研究和理论分析,探索基准测试作为一门新兴科学的基本原理。

他具体讨论了标注错误对数据质量的影响、模型排名的外部验证性,以及多任务基准测试的前景。

与此同时,Hard还展示了许多案例研究。

这些挑战了我们的传统看法,还突显了发展科学基准测试的重要性和益处。

GLM Team

中国这边,智谱AI的GLM大模型技术团队,也带来了「ChatGLM通往AGI之路」的精彩演讲。

值得一提的是,这也是国内「首次」在国际顶级会议上展示大模型相关的主题演讲。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

这次演讲,首先从中国的角度,介绍AI在过去几十年的发展历程。

同时,他们以ChatGLM为例,阐述自身在实践过程中获得的理解和洞见。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

2024 AGI前瞻:GLM 4.5、 GLM-OS、 GLM-zero

在ICLR上,GLM大模型团队介绍了面向AGI的GLM三大技术趋势。

通往AGI的必经之路在哪里?

业界对此意见不一。有人认为是智能体,有人认为是多模态,有人说,Scaling Law是通往AGI的必要非充分条件。

而LeCun坚持认为,LLM是通往AGI的一条歧路,靠LLM带不来AGI。

对此,团队也提出了自己的独特观点。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

首先,他们讲到了GLM-4的后续升级版本,即GLM-4.5及其升级模型。

GLM-4的后续升级版,将基于超级认知(SuperIntelligence)和超级对齐(SuperAlignment)技术,同时在原生多模态领域和AI安全领域有长足进步。

GLM大模型团队认为,在通往AGI的路上,文本是最关键的基础。

而下一步,则应该把文本、图像、视频、音频等多种模态混合在一起训练,变成一个真正的「原生多模态模型」。

同时,为了解决更加复杂的问题,他们还引入了GLM-OS概念,即以大模型为中心的通用计算系统。

这一观点,与Karpathy此前提出的大模型操作系统的观点,不谋而合。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

在ICLR现场,GLM大模型团队详细介绍了GLM-OS的实现方式:

基于已有的All-Tools能力,再加上内存记忆(memory)和自我反馈(self-reflection)能力,GLM-OS有望成功模仿人类的PDCA机制,即Plan-Do-Check-Act循环。

具体来说就是,首先做出计划,然后试一试形成反馈,调整规划然后再行动以期达到更好的效果。

依靠PDCA循环机制,LLM便可以自我反馈和自主进化——恰如人类自己所做的一样。

此外,GLM大模型团队还透露,自2019年以来,团队就一直在研究名为GLM-zero的技术,旨在研究人类的「无意识」学习机制。

「当人在睡觉的时候,大脑依然在无意识地学习。」

GLM大模型团队表示,「无意识」学习机制是人类认知能力的重要组成部分,包括自我学习、自我反思和自我批评。

人脑中存在着「反馈」和「决策」两个系统,分别对应着LLM大模型和内存记忆两部分。

因此,GLM-zero的相关研究将进一步拓展人类对意识、知识、学习行为的理解。

尽管还处于非常早期的研究阶段,但GLM-zero可以视为通向AGI的必经之路。

而这,也是GLM大模型团队首次向外界公开这一技术趋势。

国内顶流技术团队

2020年底,GLM大模型技术团队研发了GLM预训练架构。

2021年训练完成百亿参数模型GLM-10B,同年利用MoE架构成功训练出收敛的万亿稀疏模型。

2022年还合作研发了中英双语千亿级超大规模预训练模型GLM-130B并开源。

而过去一年里,团队几乎每3-4个月,就完成一次基座大模型的升级,目前已经更新到了GLM-4版本。

不仅如此,作为国内最早入局LLM公司,智谱AI曾在2023年就设立了一个雄心勃勃的目标——全线对标OpenAI。

GLM大模型技术团队构建了基于AGI愿景的完整大模型产品矩阵。

在GLM系列之外,还有CogView文生图模型、CodeGeeX代码模型,多模态理解模型CogVLM,再到GLM-4V多模态大模型和All-Tools功能以及AI助手智谱清言。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

与此同时,GLM大模型技术团队的研究人员,在业界有着极高的影响力。

比如,圈里爆火的李飞飞主讲斯坦福大学CS25课程,每次都会邀请Transformer研究前沿的专家,分享自己的最新突破。

而目前已经确定,CS25课程的嘉宾中,就有来自智谱AI的研究员。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

CogVLM

团队开发的开源视觉语言模型CogVLM,一经发布就引发了业界关注。

3月Stability AI公布的一篇论文就显示,因性能太出色,CogVLM直接被Stable Diffufion 3拿来做图像标注了。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

论文地址:https://arxiv.org/abs/2403.03206

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

CogAgent

在此基础之上,基于CogVLM改进的开源视觉语言模型CogAgent,主要针对的是用户图形界面GUI的理解。

而CogAgent的相关论文,已经被国际计算机视觉领域级别最高的学术会议CVPR 2024收录。

要知道,CVPR以录取严格著称,今年论文录取率只有约2.8%。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

论文地址:https://arxiv.org/abs/2312.08914

ChatGLM-Math

针对LLM解决数学问题,GLM大模型团队提出了「Self-Critique」的迭代训练方法。

即通过自我反馈机制,帮助LLM同时提升语言和数学的能力。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

论文地址:https://arxiv.org/abs/2404.02893

这一方法,包含了两个关键步骤:

首先训练一个从LLM本身生成「Math-Critique」模型,以评估模型生成数学问题答案,并提供反馈信号。

其次,通过拒绝采样微调和DPO,利用新模型对LLM自身的生成进行监督。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

GLM大模型团队还设计了MATHUSEREVAL基准测试集,以评估新模型数学能力,结果如下:

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

显而易见,新方法显着提升了LLM的数学问题解决能力,同时仍能提升其语言能力。重要的是,它在某些情况下优于参数量增加两倍的大模型。

GLM-4跻身全球第一梯队

在OpenCompass 2.0基准测试中,智谱AI新一代基座大模型的实力不容小觑。

在总榜排名中,GLM-4位列第三,位居国内榜首。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

在不久前SuperBench团队发布的《SuperBench大模型综合能力评测报告》中,GLM-4也跻身全球第一梯队。

特别是在最关键的语义理解,智能体能力上,GLM-4更是国内第一,力压一众竞争对手。

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象

刚刚过去的大模型元年,热闹非凡的百模大战打了一年。

2024年,若想化身为AGI元年,全世界大模型团队还有很长的路要走。

以上是图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1242
24
如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接内存访问技术,允许硬件设备直接与内存进行数据传输,不需要CPU干预。1)DMA操作高度依赖于硬件设备和驱动程序,实现方式因系统而异。2)直接访问内存可能带来安全风险,需确保代码的正确性和安全性。3)DMA可提高性能,但使用不当可能导致系统性能下降。通过实践和学习,可以掌握DMA的使用技巧,在高速数据传输和实时信号处理等场景中发挥其最大效能。

C  中的chrono库如何使用? C 中的chrono库如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono库可以让你更加精确地控制时间和时间间隔,让我们来探讨一下这个库的魅力所在吧。C 的chrono库是标准库的一部分,它提供了一种现代化的方式来处理时间和时间间隔。对于那些曾经饱受time.h和ctime折磨的程序员来说,chrono无疑是一个福音。它不仅提高了代码的可读性和可维护性,还提供了更高的精度和灵活性。让我们从基础开始,chrono库主要包括以下几个关键组件:std::chrono::system_clock:表示系统时钟,用于获取当前时间。std::chron

量化交易所排行榜2025 数字货币量化交易APP前十名推荐 量化交易所排行榜2025 数字货币量化交易APP前十名推荐 Apr 30, 2025 pm 07:24 PM

交易所内置量化工具包括:1. Binance(币安):提供Binance Futures量化模块,低手续费,支持AI辅助交易。2. OKX(欧易):支持多账户管理和智能订单路由,提供机构级风控。独立量化策略平台有:3. 3Commas:拖拽式策略生成器,适用于多平台对冲套利。4. Quadency:专业级算法策略库,支持自定义风险阈值。5. Pionex:内置16 预设策略,低交易手续费。垂直领域工具包括:6. Cryptohopper:云端量化平台,支持150 技术指标。7. Bitsgap:

怎样在C  中处理高DPI显示? 怎样在C 中处理高DPI显示? Apr 28, 2025 pm 09:57 PM

在C 中处理高DPI显示可以通过以下步骤实现:1)理解DPI和缩放,使用操作系统API获取DPI信息并调整图形输出;2)处理跨平台兼容性,使用如SDL或Qt的跨平台图形库;3)进行性能优化,通过缓存、硬件加速和动态调整细节级别来提升性能;4)解决常见问题,如模糊文本和界面元素过小,通过正确应用DPI缩放来解决。

C  中的实时操作系统编程是什么? C 中的实时操作系统编程是什么? Apr 28, 2025 pm 10:15 PM

C 在实时操作系统(RTOS)编程中表现出色,提供了高效的执行效率和精确的时间管理。1)C 通过直接操作硬件资源和高效的内存管理满足RTOS的需求。2)利用面向对象特性,C 可以设计灵活的任务调度系统。3)C 支持高效的中断处理,但需避免动态内存分配和异常处理以保证实时性。4)模板编程和内联函数有助于性能优化。5)实际应用中,C 可用于实现高效的日志系统。

C  中的字符串流如何使用? C 中的字符串流如何使用? Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步骤和注意事项如下:1.创建输出字符串流并转换数据,如将整数转换为字符串。2.应用于复杂数据结构的序列化,如将vector转换为字符串。3.注意性能问题,避免在处理大量数据时频繁使用字符串流,可考虑使用std::string的append方法。4.注意内存管理,避免频繁创建和销毁字符串流对象,可以重用或使用std::stringstream。

怎样在C  中测量线程性能? 怎样在C 中测量线程性能? Apr 28, 2025 pm 10:21 PM

在C 中测量线程性能可以使用标准库中的计时工具、性能分析工具和自定义计时器。1.使用库测量执行时间。2.使用gprof进行性能分析,步骤包括编译时添加-pg选项、运行程序生成gmon.out文件、生成性能报告。3.使用Valgrind的Callgrind模块进行更详细的分析,步骤包括运行程序生成callgrind.out文件、使用kcachegrind查看结果。4.自定义计时器可灵活测量特定代码段的执行时间。这些方法帮助全面了解线程性能,并优化代码。

MySQL批量插入数据的高效方法 MySQL批量插入数据的高效方法 Apr 29, 2025 pm 04:18 PM

MySQL批量插入数据的高效方法包括:1.使用INSERTINTO...VALUES语法,2.利用LOADDATAINFILE命令,3.使用事务处理,4.调整批量大小,5.禁用索引,6.使用INSERTIGNORE或INSERT...ONDUPLICATEKEYUPDATE,这些方法能显着提升数据库操作效率。

See all articles