首个全自动科学发现AI系统,Transformer作者创业公司Sakana AI推出AI Scientist
编辑 | ScienceAI
一年前,谷歌最后一位 Transformer 论文作者 Llion Jones 离职创业,与前谷歌研究人员 David Ha共同创立人工智能公司 Sakana AI。Sakana AI 声称将创建一种基于自然启发智能的新型基础模型!
现在,Sakana AI 交上了自己的答卷。
Sakana AI 宣布推出 AI Scientist,这是世界上第一个用于自动化科学研究和开放式发现的 AI 系统!
从构思、编写代码、运行实验和总结结果,到撰写整篇论文和进行同行评审,AI Scientist 开启了 AI 驱动的科学研究和加速发现的新时代。
原则上,它可以不断重复科学研究过程,以开放式的方式迭代开发想法,就像人类科学家一样。
研究人员通过将其应用于机器学习的三个不同子领域来展示它的多功能性:扩散建模、基于 Transformer 的语言建模和学习动力学。
每个想法都会被实施并发展成一篇完整的论文,每篇论文的成本不到 15 美元。为了评估生成的论文,研究人员设计并验证了一个自动审阅器,它在评估论文分数方面的表现接近人类。
AI Scientist 可以撰写出超过顶级机器学习会议接受门槛的论文。
AI Scientist 的推出标志着朝着充分发挥人工智能在科学研究中的潜力迈出了重要一步。通过自动化发现过程并整合人工智能驱动的审查系统,为最具挑战性的科学技术领域的创新和解决问题打开了无限可能之门。
相关研究以「The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery」为题,于 8 月 12 日发布在预印平台 arXiv 上。
论文链接:https://arxiv.org/abs/2408.06292
人工智能面临的一大挑战是开发能够进行科学研究和发现新知识的智能体。虽然前沿模型已被用作人类科学家的辅助工具,例如集思广益、编写代码或执行预测任务,但它们仍然只完成了科学过程的一小部分。
在最新的研究中,Sakana AI 的科学家提出了第一个全自动科学发现的综合框架,使前沿大型语言模型能够独立进行研究并传达其研究结果。
AI Scientist 可以产生新颖的研究想法、编写代码、执行实验、可视化结果、通过撰写完整的科学论文描述其研究结果,然后运行模拟审查流程进行评估。
关于AI Scientist
AI Scientist 有三个主要阶段:(1)创意生成,(2)实验迭代,(3)论文撰写。撰写完成后,研究人员会引入并验证 LLM 生成的评论,以评估所生成论文的质量。
图示:端到端 LLM 驱动的科学发现过程 AI Scientist 的概念说明。(来源:论文)
研究人员为 AI Scientist 提供了一个起始代码模板,该模板可重现流行模型或基准的轻量级基线训练运行。例如,这可能是针对莎士比亚作品训练小型 transformer 的代码,这是自然语言处理中的经典概念验证训练运行,可在几分钟内完成。
然后,AI Scientist 就可以自由探索任何可能的研究方向。该模板还包括一个 LaTeX 文件夹,其中包含样式文件和节标题以及简单的绘图代码。一般来说,每次运行都是从与主题领域相关的代表性小规模实验开始的。
研究人员解释道:「专注于小规模实验并不是我们方法的根本限制,而只是出于计算效率的因素,以及我们这边设备的计算限制。」
为什么写论文很重要?
鉴于科学家的总体目标是实现科学发现的自动化,为什么研究人员要让 AI Scientist 像人类科学家一样写论文呢?例如,以前的人工智能系统(如 FunSearch 和 GNoME)曾经在受限领域产生了令人印象深刻的科学发现,但它们并不能撰写论文。
该团队认为,AI Scientist 撰写科学论文来传播其发现至关重要,原因如下:首先,撰写论文为人类提供了一种高度可解释的方法,使人类能够从所学知识中受益;其次,在现有的机器学习会议框架内审查书面论文使科学家能够标准化评估;第三,自现代科学诞生以来,科学论文一直是传播研究成果的主要媒介。
由于论文可以使用自然语言,并包含情节和代码,因此它可以灵活地描述任何类型的科学研究和发现。几乎任何其他可以想到的格式都被锁定在某种数据或科学类型中。在出现更优的替代方案(或可能由人工智能发明)之前,该团队相信训练 AI Scientist 撰写科学论文对于其融入更广泛的科学界至关重要。
图示:由 AI Scientist 完全自主生成的《Adaptive Dual-Scale Denoising》论文预览。(来源:论文)
关于成本
这里的框架非常灵活,可以有效地开展机器学习各个子领域的研究,包括基于 transformer 的语言建模、神经网络学习动态和扩散建模。该系统的成本效益很高,每篇论文的成本约为 15 美元,可生成与会议类相关的论文,凸显了其使研究民主化(提高其可及性)和加速科学进步的能力。
例如,研究人员对 AI Scientist 的初步定性分析表明,生成的论文可以提供广泛的信息和新颖性,或者至少包含值得未来研究的想法。
按照当下的标准,该团队为 AI Scientist 进行实验分配的实际计算量也非常小。值得注意的是,研究人员在一周内生成数百篇论文的实验大部分仅使用单个 8×NVIDIA H100 节点运行。如果大规模扩大搜索和过滤范围,可能会产生质量更高的论文。
在这个项目中,运行 AI Scientist 的大部分成本与 LLM API 编码和论文写作的成本相关。相比之下,由于该团队为降低总体成本而施加的限制,运行 LLM 审阅器相关的成本以及进行实验的计算费用可以忽略不计。
当然,如果 AI Scientist 被应用到其他科学领域或用于更大规模的计算实验,这种成本分摊在未来可能会发生变化。
开放与封闭模型
为了定量评估和优化生成的论文,研究人员首先创建并验证了自动论文审阅器。结果表明,虽然还有很大的优化空间,但 LLM 能够产生相当准确的评论,并在各个指标上取得与人类相当的结果。
图示:Violin 图显示了 AI Scientist 审阅者在三个领域和四个基础模型中为人工智能生成的论文的评分分布。(来源:论文)
将这个审阅器应用于 AI Scientist 生成的论文,使科学家能够将论文评估范围扩大到人工检查之外。研究人员发现 Sonnet 3.5 始终能生成最好的论文,其中一些论文的分数甚至超过了自动论文审阅器在标准机器学习会议上的接受门槛。
但是,该团队没有理由期望 AI Scientist 像 Sonnet 3.5 这样的单一模型能够保持领先地位。研究人员认为所有前沿 LLM(包括开放模型)都将继续优化改进。LLM 之间的竞争会使它们的商品化和能力都大幅增强。
图示:使用 GPT-4o 对 ICLR 2022 OpenReview 数据上的 AI Scientist 的论文审查流程进行评估。(来源:论文)
在这个项目中,研究人员研究了各种专有的 LLM,包括 GPT-4o 和 Sonnet,但也探索了使用 DeepSeek 和 Llama-3 等开放模型。发现开放模型具有显著的优势,例如成本更低、可用性有保证、透明度更高、灵活性更高,尽管质量略差。
未来,研究人员的目标是利用所提出的发现过程,在使用开放模型的闭环系统中产生自我改进的人工智能。
未来方向
对 AI Scientist 的直接改进可能包括集成视觉功能以更好地处理图表和图形,结合人类反馈和交互来改进人工智能的输出,并使 AI Scientist 能够通过从互联网上提取新数据和模型来自动扩大其实验范围,前提是这样做是安全的。
此外,AI Scientist 可以跟进其最佳想法,甚至可以以自参考的方式直接对自己的代码进行研究。事实上,该项目的大部分代码都是由 Aider 编写的。将框架扩展到其他科学领域可以进一步扩大其影响力,为自动化科学发现的新时代铺平道路。
至关重要的是,未来的工作应该解决可靠性和幻觉问题,可能通过对报告的结果进行更深入的自动验证来实现。这可以通过直接链接代码和实验来实现,或者通过查看自动验证器是否可以独立重现结果来实现。
结语
AI Scientist 标志着机器学习科学发现新时代的开始:将 AI 智能体的变革性优势带入 AI 本身的整个研究过程,并让科学家更接近一个可以释放无限且经济实惠的创造力和创新,来解决世界上最具挑战性的问题的世界。
最终,「我们设想一个完全由人工智能驱动的科学生态系统,不仅包括人工智能驱动的研究人员,还包括审稿人、领域主席和整个会议。然而,我们并不认为人类科学家的作用会减弱。随着我们适应新技术并向食物链上游移动,科学家的作用将发生变化。」研究人员在论文里表示。
虽然 AI Scientist 的当前迭代展示了在成熟理念(如扩散建模或 Transformers)之上进行创新的强大能力,但此类系统最终是否能够提出真正颠覆范式的理念仍是一个悬而未决的问题。
未来版本的 AI Scientist 是否能够提出像扩散建模一样具有影响力的想法,或者提出下一个 Transformer 架构?机器最终是否能够发明像人工神经网络或信息理论一样基本的概念?
「我们相信 AI Scientist 将成为人类科学家的绝佳伙伴,但只有时间才能告诉我们。」
GitHub 开源地址:http://github.com/SakanaAI/AI-Scientist
论文链接:https://arxiv.org/abs/2408.06292
参考内容:
http://sakana.ai/ai-scientist/
https://x.com/SakanaAILabs/status/1823178623513239992
https://mp.weixin.qq.com/s/-jjXBJAkdMEyl2JhRgwdaA
以上是首个全自动科学发现AI系统,Transformer作者创业公司Sakana AI推出AI Scientist的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50
