「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇
编辑 | ScienceAI
近日,卡内基梅隆大学(Carnegie Mellon University)教授,有着「机器学习之父」之称的Tom M. Mitchell撰写了新的AI for Science 白皮书,重点讨论了「人工智能如何加速科学发展?美国政府如何帮助实现这一目标?」这一主题。
ScienceAI 对白皮书原文进行了不改变原意的全文编译,内容如下。
人工智能领域最近取得了显着进展,包括GPT、Claude 和 Gemini 等大型语言模型,因此提出了这样一种可能性:人工智能的一个非常积极的影响,也许是大大加速从细胞生物学到材料科学、天气和气候建模到神经科学等各种科学领域的研究进展。这里我们简要总结一下这个人工智能科学机遇,以及美国政府可以做些什么来抓住这个机遇。
人工智能与科学的机遇
当今几乎所有领域的绝大多数科学研究都可以归为「独行侠」科学。
换句话说,科学家和他们的十几名研究人员组成的研究团队提出一个想法,进行实验来测试它,撰写并发表结果,也许在互联网上分享他们的实验数据,然后重复这个过程。
其他科学家可以通过阅读已发表的论文来巩固这些成果,但由于以下几个原因,这一过程容易出错且效率极低:
( 1)个别科学家不可能读到其领域内已发表的所有文章,因此对其他相关研究部分视而不见;(2)期刊出版物中描述的实验必然会省略许多细节,这使得其他人很难复制其结果并在结果基础上进行研究;(3)单个实验数据集的分析通常是孤立进行的,未能纳入其他科学家进行的其他相关实验的数据(因此也没有纳入有价值的信息)。
在未来十年,人工智能可以帮助科学家克服上述三个问题
AI 可以将这种「独行侠」式的科学研究模式转变为「社区科学发现」模式。特别是,人工智能可以用来创造一种新型的计算机研究助手,帮助人类科学家克服这些问题,方法是:
发现复杂数据集(包括由多个实验室进行的许多实验建立的数据集)中的规律,而不是对单个、规模小得多且代表性较差的数据集进行孤立的分析。通过基于超出人类能力的更大数量级的数据集进行分析,可以实现更全面、更准确的分析。 使用GPT 等人工智能大型语言模型阅读和消化该领域的每一篇相关出版物,从而帮助科学家不仅根据自己实验室和其他实验室的实验数据形成新的假设,还可以根据已发表的研究文献中的假设和论据形成新的假设,从而得出比没有这种自然语言人工智能工具时可能得出的更为明智的假设。 创建「基础模型」,通过利用实验室和科学家收集的多种不同类型的实验数据来训练这些模型,从而将领域内不断增长的知识集中到一个地方,并提供这些知识的计算机可执行模型。这些可执行的「基础模型」可以发挥与方程(例如 f = ma)相同的作用,即它们根据其他观察到的量对某些量进行预测。并且,与经典的方程不同,这些基础模型可以捕捉数十万个不同变量之间的经验关系,而不是少数几个变量。 实现新实验设计和机器人执行的自动化或半自动化,从而加快新相关实验的速度,提高科学实验的可重复性。
这种科学实践范式的转变可能带来哪些科学突破?
以下是几个例子:
将针对新疾病爆发的新疫苗的开发时间和成本减少 10 倍。 加快材料科学研究,可能带来诸如室温超导体、将热量转化为电能且不产生排放的热电材料等突破性产品。 将以前从未尝试过的大量和多样性的细胞生物学实验数据结合起来,形成人类细胞功能的「基础模型」,从而能够在实验室中进行体内实验这一更昂贵的步骤之前,快速模拟许多潜在实验的结果。 结合神经科学的实验数据(从单个神经元行为数据到全脑 fMRI 成像),在多个细节层面构建人类大脑的「基础模型」,以前所未有的规模和多样性整合数据,并建立一个模型,该模型可以预测大脑用来编码不同类型的思想和情感的神经活动,这些思想和情感如何被不同的刺激所引起,药物对神经活动的影响,以及不同疗法治疗精神障碍的有效性。 提高我们预测天气的能力,既可以针对高度本地化的区域(例如,单个农场)定制预测,也可以扩展我们预测未来天气的能力。
美国政府可以做些什么来抓住这个机会?
将这一机遇转化为现实需要几个要素:
大量实验数据
基于文本的基础模型的一个教训是,它们训练的数据越多,其能力就越强。有经验的科学家也非常清楚,更多、更多样化的实验数据的价值。要实现科学的多个数量级的进步,并训练我们想要的基础模型类型,我们需要在共享和联合分析整个科学界贡献的各种数据集的能力方面取得非常显著的进步。
获取科学出版物和用计算机阅读它们的能力
这里机遇的一个关键部分是改变现在的状态:科学家不太可能阅读其领域中 1% 的相关出版物,计算机通过阅读 100% 的出版物、总结它们及其与当前科学问题的相关性,并提供对话界面来讨论其内容和含义。这不仅需要访问在线文献,还需要 AI 研究构建这样一个「文学助手」。
计算和网络资源
GPT 和 Gemini 等基于文本的基础模型,因其开发过程中耗费的大量处理资源而闻名,开发不同科学领域的基础模型也需要大量计算资源。然而,许多 AI 科学工作中的计算需求可能比训练 GPT 等 LLM 所需的计算要小得多,因此可以通过与政府研究实验室正在进行的类似投资来实现。
例如,AlphaFold 是一种已经彻底改变了药物设计蛋白质分析的 AI 模型,它使用的训练计算量比 GPT 和 Gemini 等基于文本的基础模型要少得多。为了支持数据共享,我们需要大量的计算机网络,但当前的互联网已经为传输大型实验数据集提供了足够的起点。因此,与潜在收益相比,支持 AI 驱动的科学进步的硬件成本可能相当低。
新的机器学习和 AI 方法
当前的机器学习方法对于发现人类无法检查的庞大数据集中的统计规律极为有用(例如,AlphaFold 是在大量蛋白质序列及其精心测量的 3D 结构上进行训练的)。新机遇的关键部分是将当前的机器学习方法(发现数据中的统计相关性)扩展到两个重要方向:(1)从发现相关性转向发现数据中的因果关系,(2)从仅从大型结构化数据集学习转向从大型结构化数据集和大量研究文献中学习;也就是说,像人类科学家一样从实验数据和其他人用自然语言表达的已发表假设和论点中学习。最近出现的 LLM 具有消化、总结和推理大型文本集合的高级能力,可以为这种新的机器学习算法奠定基础。
政府应该做什么?关键是支持上述四部分,并团结科学界探索基于人工智能的新方法,以促进他们的研究进展。因此,政府应该考虑采取以下几种行动:
探索特定科学领域的特定机会,资助许多科学领域的多机构研究团队,提出愿景和初步结果,展示如何使用人工智能来显着加速其领域的进步,以及扩大该方法所需的条件。这项工作不应以拨款的形式资助给个别机构,因为最大的进步可能来自于整合许多机构的许多科学家的数据和研究。相反,如果由许多机构的科学家团队来执行,这可能是最有效的,他们提出的机会和方法可以激励他们参与整个科学界。
加速创建新的实验数据集以训练新的基础模型,并向整个科学家社区提供数据:
创建数据共享标准,使一位科学家能够方便使用由不同科学家创建的实验数据,并为每个相关科学领域的国家数据资源奠定基础。请注意,在制定和使用此类标准方面,之前已有成功案例,可以为标准工作提供起始模板(例如,人类基因组计划中数据共享的成功)。
为每个相关领域创建和支持数据共享网站。正如GitHub 已成为软件开发人员贡献、共享和重用软件代码的首选网站一样,为科学数据集创建一个GitHub,它既可用作数据存储库,又可用作搜索引擎,用于发现与特定主题、假设或计划实验最相关的数据集。
研究如何构建激励机制以实现数据共享最大化。目前,各个科学领域在个体科学家共享数据的程度,以及营利机构将其数据用于基础科学研究的程度方面差异很大。建立一个大型、可共享的国家数据资源是人工智能科学机遇不可或缺的组成部分,构建一个令人信服的数据共享激励结构将是成功的关键。
在适当的情况下,资助开发自动化实验室(例如,用于化学、生物等实验的机器人实验室,可通过互联网供众多科学家使用),以高效地进行实验,并以标准格式生成数据。创建此类实验室的一个主要好处是,它们还将推动制定标准,以精确说明要遵循的实验程序,从而提高实验结果的可重复性。正如我们可以从数据集的 GitHub 中受益一样,我们也可以从相关的 GitHub 中受益,以共享、修改和重复使用实验协议的组件。
要创建新一代人工智能工具,需要:
资助专门开发适用于科学研究方法的相关基础AI 研究。这应包括开发广义上的「基础模型」,作为加速不同领域研究的工具,并加速从「独行侠」科学向更强大的「社区科学发现」范式的转变。
特别支持阅读研究文献的研究,对陈述的输入假设进行批评和提出改进建议,并帮助科学家以与他们当前问题直接相关的方式从科学文献中获取结果。
特别支持将机器学习从发现相关性扩展到发现因果关系的研究,特别是在可以计划和执行新实验以测试因果关系假设的环境中。
特别支持对机器学习算法的扩展研究,从仅将大数据作为输入,到同时将大实验数据和该领域的完整研究文献作为输入,以便产生由实验数据中的统计规律以及研究文献中讨论的假设、解释和论点共同提供的信息。
相关内容:
以上是「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

使用C 中的chrono库可以让你更加精确地控制时间和时间间隔,让我们来探讨一下这个库的魅力所在吧。C 的chrono库是标准库的一部分,它提供了一种现代化的方式来处理时间和时间间隔。对于那些曾经饱受time.h和ctime折磨的程序员来说,chrono无疑是一个福音。它不仅提高了代码的可读性和可维护性,还提供了更高的精度和灵活性。让我们从基础开始,chrono库主要包括以下几个关键组件:std::chrono::system_clock:表示系统时钟,用于获取当前时间。std::chron

在C 中处理高DPI显示可以通过以下步骤实现:1)理解DPI和缩放,使用操作系统API获取DPI信息并调整图形输出;2)处理跨平台兼容性,使用如SDL或Qt的跨平台图形库;3)进行性能优化,通过缓存、硬件加速和动态调整细节级别来提升性能;4)解决常见问题,如模糊文本和界面元素过小,通过正确应用DPI缩放来解决。

DMA在C 中是指DirectMemoryAccess,直接内存访问技术,允许硬件设备直接与内存进行数据传输,不需要CPU干预。1)DMA操作高度依赖于硬件设备和驱动程序,实现方式因系统而异。2)直接访问内存可能带来安全风险,需确保代码的正确性和安全性。3)DMA可提高性能,但使用不当可能导致系统性能下降。通过实践和学习,可以掌握DMA的使用技巧,在高速数据传输和实时信号处理等场景中发挥其最大效能。

C 在实时操作系统(RTOS)编程中表现出色,提供了高效的执行效率和精确的时间管理。1)C 通过直接操作硬件资源和高效的内存管理满足RTOS的需求。2)利用面向对象特性,C 可以设计灵活的任务调度系统。3)C 支持高效的中断处理,但需避免动态内存分配和异常处理以保证实时性。4)模板编程和内联函数有助于性能优化。5)实际应用中,C 可用于实现高效的日志系统。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,删除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段时,需指定位置以优化查询性能和数据结构;删除字段前需确认操作不可逆;使用在线DDL、备份数据、测试环境和低负载时间段修改表结构是性能优化和最佳实践。

在C 中测量线程性能可以使用标准库中的计时工具、性能分析工具和自定义计时器。1.使用库测量执行时间。2.使用gprof进行性能分析,步骤包括编译时添加-pg选项、运行程序生成gmon.out文件、生成性能报告。3.使用Valgrind的Callgrind模块进行更详细的分析,步骤包括运行程序生成callgrind.out文件、使用kcachegrind查看结果。4.自定义计时器可灵活测量特定代码段的执行时间。这些方法帮助全面了解线程性能,并优化代码。

交易所内置量化工具包括:1. Binance(币安):提供Binance Futures量化模块,低手续费,支持AI辅助交易。2. OKX(欧易):支持多账户管理和智能订单路由,提供机构级风控。独立量化策略平台有:3. 3Commas:拖拽式策略生成器,适用于多平台对冲套利。4. Quadency:专业级算法策略库,支持自定义风险阈值。5. Pionex:内置16 预设策略,低交易手续费。垂直领域工具包括:6. Cryptohopper:云端量化平台,支持150 技术指标。7. Bitsgap:

如何实现鼠标滚动事件穿透效果?在我们浏览网页时,经常会遇到一些特别的交互设计。比如在deepseek官网上,�...
