首页 科技周边 人工智能 清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

Mar 08, 2024 pm 09:52 PM
工程 量子杂志

通过消除「隐藏的低效」问题,计算机科学家提出了一种比以往更快的大型矩阵相乘新方法。

矩阵乘法作为众多GPU算子的基础操作,在高性能计算中扮演着重要角色,也是AI等应用的关键组成部分。虽然其算法本身相对简单,但为了实现更高的速度,人们多年来一直在不断努力优化。然而,优化的程度一直受到一定限制。

在最新一期的《量子杂志》报道中,我们发现了两篇能够加快矩阵乘法速度的论文。这两篇论文的撰写中,清华大学姚班一位大四本科生积极参与,为该领域的算法改进带来了崭新的前景。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

矩阵乘法改进出现新「奇点」

计算机科学家是一群非常要求严格的人。他们追求的不仅是解决问题,更在于以最高效的方式达成目标。

以矩阵或数字数组相乘为例,1812年,法国数学家Jacques Philippe Marie Binet提出了一套基本规则,至今仍在教授学生。这套规则被广泛应用,但近年来一些数学家已发现了简化和加速该过程的方法。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

                              法国数学家 Jacques Philippe Marie Binet。

目前,加速矩阵乘法过程已经成为数学和计算机科学的交叉领域。研究人员一直在努力改进这一过程,尽管近几十年来的进展有限。名古屋大学的计算机科学家François Le Gall指出,自1987年以来,对矩阵乘法的数值改进一直进展缓慢且难以实现。他认为在当前情况下,进一步提升矩阵乘法效率面临着巨大挑战,需要更多的创新和突破。尽管困难重重,但科学家们仍在不懈努力寻求突破,希望能够找到新的方法和技术,以提高矩阵乘法的计算速度和效率。这表明矩阵乘法优化仍然是一个具有挑战性的课题,需要集合

清华大学的段然(Ran Duan)、周任飞(Renfei Zhou)和加州大学伯克利分校的 Hongxun Wu 近期在解决这个长期存在的问题上取得了重要进展,他们的研究成果在一篇 87 页的论文中得以详细展示。Le Gall 对这三位研究者的工作给予了高度评价,他认为尽管改进相对较小,但在概念上却是前所未有的重大突破。

该论文被计算机科学领域的顶会 FOCS 2023 接收。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

论文 v1 发布在 2022 年 10 月,v5 在 2023 年 11 月。论文地址:https://arxiv.org/abs/2210.10173

其中,段然为清华大学交叉信息研究院副教授,主要研究方向为图论算法、数据结构、计算理论。Hongxun Wu 为加州大学伯克利分校二年级博士生,也是清华姚班出身。

周任飞为清华姚班 2020 级的大四本科生,主修理论计算机科学(TCS)。他主要研究(简洁)数据结构和快速矩阵乘法,并对 TCS 的其他领域具有广泛兴趣,比如流算法、博弈论和在线算法等。

此前,周任飞曾在理论计算机科学顶级会议 FOCS/SODA 上发表多篇论文。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

三位研究者的论文揭示了以前未知且未开发的潜在改进来源,并且已经取得了成果。2024 年 1 月发表的第二篇论文(周任飞同样参与撰写)以此为基础,展示了如何进一步增强矩阵乘法。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

论文地址:https://epubs.siam.org/doi/10.1137/1.9781611977912.134

哈佛大学理论计算机科学家 William Kuszmaul 对此表示,这是一项重大的技术突破,是十多年来我们所看到的矩阵乘法的最大改进。

矩阵乘法要改进什么问题

矩阵乘法可能看起来是一个晦涩的问题,但它是一种基本的计算操作。它被融入了人们每天使用的大部分算法中,用于各种任务,从显示更清晰的计算机图形到解决网络理论中的物流问题。就像在计算的其他领域一样,速度至关重要。即使是微小的改进最终也可能大大减少所需要的时间、计算能力和金钱。但目前,理论家主要感兴趣的是弄清这个过程到底能够有多快。

传统的两个 n×n 矩阵相乘的方法 —— 即将第一个矩阵中每一行的数字与第二个矩阵中每一列的数字相乘 —— 需要进行 n³ 次独立的乘法操作。对于 2 乘 2 的矩阵而言,这意味着需要进行 2³,也就是 8 次乘法操作。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

1969 年,数学家 Volker Strassen 发现了一种更精巧的方法,只需 7 个乘法步骤和 18 个加法步骤,就能完成 2×2 矩阵的乘法运算。两年后,计算机科学家 Shmuel Winograd 证明,对于 2×2 矩阵来说,7 步乘法确实是绝对最小值。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

Strassen 利用同样的想法证明,所有较大的 n×n 矩阵也可以用少于  n3 步的方法进行乘法运算。这一策略中的一个关键因素涉及一个称为分解的程序:将一个大矩阵分解成一个个更小的子矩阵,这些子矩阵最终可能小到 2×2 甚至 1×1(只是单个数字)。

对于将巨型数组分解成小块的理由相当简单,麻省理工学院的计算机科学家 Virginia Vassilevska Williams 说:「对于一个大矩阵(比如 100×100 的矩阵),人类很难想到最佳的算法。」即使是 3 乘 3 的矩阵也还没有完全解决。「然而,人们可以使用已经为小矩阵开发的快速算法来获得更大矩阵的快速算法。」

研究人员确定,速度的关键在于减少乘法步骤的数量,尽可能将指数从 n3(传统方法)降低。可能的最低值 n² 基本上就是写出答案所需的时间。计算机科学家把这个指数称为 Ω,即 ω。nω 是当 n 越来越大时,成功将两个 n×n 矩阵相乘所需的最少步骤。同为 2024 年 1 月论文合著者的周任飞说:「这项工作的重点,是看你能接近 2 多少,并且是否可以在理论上实现。」

激光法

1986 年,Strassen 取得了另一项重大突破,他推出了矩阵乘法的激光法。Strassen 用它确定了 ω 的上限值为 2.48。虽然该方法只是大型矩阵乘法的一个步骤,但却是最重要的步骤之一,因为研究人员一直在不断改进它。

一年后,Winograd 和 Don Coppersmith 推出了一种新算法,对激光法进行了完美的补充。这套工具的组合在后来几乎所有加速矩阵乘法的研究中都得到了应用。

下面是一个简化的方法,让我们来看看这些不同的元素是如何结合在一起的。让我们从两个大型矩阵 A 和 B 开始,将它们相乘。首先,你要把它们分解成许多较小的子矩阵,有时也叫块。接下来,你就可以使用 Coppersmith 和 Winograd 的算法,将其作为处理并最终组装这些块的指导手册。Vassilevska Williams 说:「它告诉我在乘积矩阵 C 中要乘什么、加什么,以及哪些元素在哪里。」「它只是一个从 A 和 B 建立 C 的『配方』」。

然而,这里有一个问题:有时你会得到具有共同元素的块。保留这些共同元素会相当于将这些元素计算两次,因此在某个时候,需要消除这些重叠部分。研究人员通过「消灭」它们所在的块来解决这个问题 —— 将它们的分量设置为零以将它们从计算中移除。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

                        Virginia Vassilevska Williams 是改进矩阵乘法新方法的团队成员之一,她提出了目前最快的方法。

这就是 Strassen 的激光法最终发挥作用的地方。Le Gall 说,「激光法通常非常有效,并且通常能找到消除重叠的子块的好方法」。在激光消除了所有重叠之后,你就可以构建最终的乘积矩阵 C。

将这些各种技术结合起来,就得到了一种用尽量少的乘法总数来乘两个矩阵的算法,至少在理论上是这样。激光法并不是为了实际应用;它只是一种思考矩阵相乘的理想方式。周任飞表示,「我们从未在计算机上运行这种方法,我们进行对它的分析。」

正是这种分析促成了 ω 十多年来的最大改进。

被发现的「隐藏损失」

在段然、周任飞和 Hongxun Wu 的第一篇论文《Faster Matrix Multiplication via Asymmetric Hashing》中,他们表明,施特拉森算法的进程可以大大加快。这一切要得益于他们称之为「隐藏损失」(hidden loss)的概念。周任飞表示,该概念深深地隐藏在以前的分析中,是无意中消除了太多块的结果。

激光法的工作原理是将重叠的块标记为垃圾,并安排处理,而其他块被认为有价值并将被保存。不过,选择过程有些随机。事实上,被标记为垃圾的块可能最终还是有用的。

这并不完全令人惊讶,但通过检查许多随机选择,段然团队确定激光法系统性地低估了块的价值,因此应该保存更多的块,减少扔掉的块。而且,正如通常的情况一样,更少的浪费可以转化为更高的效率。

对于段然团队的做法,Le Gall 认为,「能够保留更多块而不重叠,这种做法实现了更快的矩阵乘法算法。」

在证明了这种损失的存在后,段然团队修改了激光法标记块的方式,从而大大减少了浪费。他们将 ω 的新上限设定在了 2.371866 左右,这要比 Josh Alman 和 Vassilevska Williams 在 2020 年设定的上限 2.3728596 有所改进。

这看起来是一个不大的变化,将上限降低了大约 0.001,但这是自 2010 年以来科学家们看到的最大进步。相比之下,Vassilevska Williams 和 Alman 2020 年的结果只比之前的结果提高了 0.00001。

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

当然,对研究人员来说,最令人兴奋的不仅仅是新纪录本身,该记录并没有持续多久。事实上,这篇论文揭示了一种新的改进途径,而在此之前,这种途径完全没有被注意到。

Le Gall 称,近四十年来,每个人都依赖相同的激光法。随着段然等三位研究者的论文出现,我们可以做得更好。

因此,周任飞参与撰写的 2024 年 1 月的论文改善了这种新方法,进一步减少了隐藏损失。他们又进一步提高了 ω 的上限,使它降低到了 2.371552

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

研究者还使用同样的方法来改进矩形(n×m)矩阵的乘法过程,该乘法过程在图论、机器学习和其他领域均有广泛应用。

沿着这些方向取得一些进一步的进展几乎是肯定的,但这是有限度的。2015 年,Le Gall 和两位合作者证明,目前的方法,也就是激光法,再加上 Coppersmith 和 Winograd 的方法,无法得到低于 2.3078 的 ω。

Le Gall 说:「要想进一步改进,就必须在 Coppersmith and Winograd 的原始方法基础上加以改进,而这种方法自 1987 年以来就没有真正改变过。」但到目前为止,还没有人提出更好的方法。也许根本就没有。

周任飞说:「改进 ω 实际上是理解这个问题的一部分。如果我们能很好地理解这个问题,就能设计出更好的算法。不过,人们对这个古老问题的理解还处于非常初级的阶段。」

原文链接:

https://www.quantamagazine.org/new-breakthrough-brings-matrix-multiplication-closer-to-ideal-20240307/

以上是清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1672
14
CakePHP 教程
1428
52
Laravel 教程
1332
25
PHP教程
1277
29
C# 教程
1257
24
ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

LLM用于时序预测真的不行,连推理能力都没用到 LLM用于时序预测真的不行,连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的LLM并不能很好地处理时序数据。时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles