跟男朋友约会也要问语言模型？Nature：提idea，总结笔记，GPT-3竟成当代「科研民工」-人工智能-PHP中文网

让机器帮你思考

何必亲自写代码？

文献检索

不断进化的模型

首页

科技周边

人工智能

跟男朋友约会也要问语言模型？Nature：提idea，总结笔记，GPT-3竟成当代「科研民工」

王林

Apr 14, 2023 pm 05:19 PM

语言模型 nature

让一只猴子在打字机上随机地按键，只要给足够长的时间，莎士比亚全集也能敲出来。

那要是一只懂语法和语义的猴子呢？答案是连科研都能帮你做！

语言模型的发展势头十分迅猛，几年前还只能在输入法上对下一个要输入的词进行自动补全，今天就已经可以帮助研究人员分析和撰写科学论文、生成代码了。

大型语言模型（LLM）的训练一般需要海量的文本数据作支撑。

2020年，OpenAI发布了拥有1750亿参数的GPT-3模型，写诗、做数学题，几乎生成模型能做的，GPT-3已然做到极致，即便到了今天，GPT-3仍然是很多语言模型要拿来对比和超越的基线。

GPT-3发布后，很快在Twitter和其他社交媒体上引发热议，大量研究人员对这种诡异的「类人写作」方式感到吃惊。

GPT-3发布在线服务后，用户可以随意输入文本，并让模型返回下文，每处理750个单词的收费最低仅为0.0004美元，堪称物美价廉。

最近Nature专栏科技专题上发布了一篇文章，没想到除了帮忙写小作文，这些语言模型还能帮你「做科研」！

让机器帮你思考

冰岛大学雷克雅未克分校的计算机科学家Hafsteinn Einarsson表示：我几乎每天都会用到GPT-3，比如给论文摘要进行修改。

Einarsson在6月份的一次会议上准备文案时，虽然GPT-3提了很多无用的修改建议，但也有一些有帮助的，比如「使研究问题在摘要的开头更加明确」，而这类问题你自己看手稿时根本不会意识到，除非你让别人帮你看，而这个别人为什么不能是「GPT-3」呢？

语言模型甚至还可以帮助你改进实验设计！

在另一个项目中，Einarsson想使用Pictionary游戏在参与者中收集语言数据。

在给出了游戏的描述后，GPT-3给出了一些游戏的修改建议。理论上讲，研究人员也可以要求对实验方案进行新的尝试。

一些研究人员也会使用语言模型来生成论文标题或使文本更易读。

斯坦福大学计算机科学教授的博士生Mina Lee的使用方法是，给GPT-3输入「使用这些关键词，生成一篇论文标题」等作为提示，模型就会帮你拟定几个标题。

有部分章节如果需要重写的话，她还会用到以色列特拉维夫AI21实验室发布的人工智能写作助手Wordtune，只需要点击「Rewrite」，就能转换出多个版本的重写段落，然后进行仔细挑选即可。

Lee还会要求GPT-3为生活中的一些事提供建议，比如询问「如何把男朋友介绍给她的父母」时，GPT-3建议去海边的一家餐馆。

位于纽约布鲁克林的科技初创公司Scite的计算机科学家Domenic Rosati使用Generate语言模型对自己的思路进行重新组织。

链接：https://cohere.ai/generate

Generate由加拿大的一家NLP公司Cohere开发，模型的工作流程与GPT-3非常相似。

只需要输入笔记，或者只是随便说点idea，最后加上「总结一下」或是「把它变成一个抽象概念」，模型就会自动帮你整理思路。

何必亲自写代码？

OpenAI 的研究人员对 GPT-3进行了大量的文本训练，包括书籍、新闻故事、维基百科条目和软件代码。

后来，团队注意到GPT-3可以像补全普通文本一样对代码进行补全。

研究人员创建了一个名为 Codex 的算法的微调版本，使用来自代码共享平台GitHub上超过150G 的文本上进行训练；目前GitHub 现在已经将Codex 集成到 Copilot 的服务中，可以辅助用户编写代码。

位于华盛顿州西雅图的艾伦人工智能研究所AI2的计算机科学家Luca Soldaini说，他们办公室里至少有一半的人都在用Copilot

Soldaini表示，Copilot最适合重复性编程的场景。比如他有一个项目涉及到编写处理PDF的模板代码，Copilot直接就给补全了。

不过Copilot补全的内容也会经常出错，最好在一些自己熟悉的语言上使用。

文献检索

语言模型最为成熟的应用场景可能就是搜索和总结文献了。

AI2开发的Semantic Scholar搜索引擎使用了TLDR的语言模型对每篇论文给出了一个类似Twitter长度的描述。

该搜索引擎覆盖了大约2亿篇论文，其中大部分来自生物医学和计算机科学。

TLDR的开发基于由Meta更早发布的BART模型，然后AI2的研究人员在人写摘要的基础上对模型进行了微调。

按照今天的标准，TLDR并不是一个大型语言模型，因为它只包含大约4亿个参数，而GPT-3的最大版本包含1750亿。

TLDR在AI2开发的扩充科学论文应用程序Semantic Reader中也有应用。

当用户使用Semantic Reader中的文内引用时，会弹出一个包含TLDR摘要的信息框。

Semantic Scholar的首席科学家Dan Weld表示，我们的想法是利用语言模型来提升阅读体验。

当语言模型生成文本摘要时，模型有可能会生成一些文章中不存在的事实，研究人员将这种问题称之为「幻觉」，但实际上语言模型纯粹是在编造或撒谎。

TLDR 在真实性检验中表现较好，论文作者对TLDR的准确度评分为2.5分(满分3分)。

Weld表示，TLDR更真实是因为摘要只有大约20个单词的长度，也可能是因为算法不会将没有出现在正文中的单词放入摘要中。

在搜索工具方面，2021年在加利福尼亚州旧金山的机器学习非营利组织Ought推出了Elicit ，如果用户问它「mindfulness对决策的影响是什么?」它会输出一个包含十篇论文的表格。

用户可以要求软件在列中填写诸如摘要和元数据等内容，以及关于研究参与者、方法和结果的信息，然后使用包括 GPT-3在内的工具从论文中提取或生成这些信息。

马里兰大学帕克分校的Joel Chan的研究方向为人机交互，每当他开始一个新项目的时候都会使用Elicit搜索相关论文。

斯德哥尔摩卡罗琳学院的神经系统科学家Gustav Nilsonne还利用Elicit找到了一些可以添加到汇总分析中的数据的论文，用这个工具可以找到在其他搜索中没有发现的文件。

不断进化的模型

AI2的原型为LLM提供了一种未来的感觉。

有时研究人员在阅读科学论文的摘要后会有疑问，但还没有时间阅读全文。

AI2的一个团队还开发了一个工具，可以在NLP领域回答这些问题。

模型首先要求研究人员阅读NLP论文的摘要，然后询问相关问题(比如「分析了哪五个对话属性?」)

研究小组随后要求其他研究人员在阅读完全部论文后回答这些问题。

AI2训练了另一个版本的Longformer语言模型，输入为一篇完整的论文，然后利用收集的数据集生成关于其他论文不同问题的答案。

ACCoRD模型可以为150个与NLP相关的科学概念生成定义和类比。

MS2是一个包含470,000个医学文档和20,000个多文档摘要的数据集，用MS2微调BART后，研究人员就能够提出一个问题和一组文档，并生成一个简短的元分析摘要。

2019年，AI2对谷歌2018年创建的语言模型 BERT 进行了微调，在Semantic Scholar的论文上创建了拥有1.1亿个参数的 SciBERT

Scite使用人工智能创建了一个科学搜索引擎，进一步对SciBERT进行了微调，以便当其搜索引擎列出引用目标论文的论文时，将这些论文归类为支持、对比或以其他方式提到该论文。

Rosati表示这种细微差别有助于人们识别科技文献中的局限性或差距。

AI2的SPECTER模型也是基于SciBERT，它将论文简化为紧凑的数学表示。

Weld 说，会议组织者使用 SPECTER 将提交的论文与同行评审者匹配，Semantic Scholar使用它根据用户的库推荐论文。

在希伯来大学和AI2的计算机科学家Tom Hope说他们有研究项目通过微调语言模型来确定有效的药物组合、基因和疾病之间的联系，以及在COVID-19研究中的科学挑战和方向。

但是，语言模型能否提供更深入的洞察力，甚至是发现能力呢？

今年5月，Hope 和 Weld 与微软首席科学官Eric Horvitz共同撰写了一篇评论，列出了实现这一目标的挑战，包括教授模型以「(推断)重组两个概念的结果」。

Hope表示，这基本和 OpenAI 的 DALL · E 2图像生成模型「生成一张猫飞入太空的图片是一回事」，但是我们怎样才能走向结合抽象的、高度复杂的科学概念呢?

这是个开放性问题。

时至今日，大型语言模型已经对研究产生了实实在在的影响，如果人们还没有开始使用这些大型语言模型辅助工作，他们就会错过这些机会。

参考资料：

https://www.nature.com/articles/d41586-022-03479-w

以上是跟男朋友约会也要问语言模型？Nature：提idea，总结笔记，GPT-3竟成当代「科研民工」的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7464

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

你好，电动Atlas！波士顿动力机器人复活，180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas，正式进入电动机器人时代！昨天，液压Atlas刚刚「含泪」退出历史舞台，今天波士顿动力就宣布：电动Atlas上岗。看来，在商用人形机器人领域，波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后，短短十几小时内，就已经有一百多万观看。旧人离去，新角色登场，这是历史的必然。毫无疑问，今年是人形机器人的爆发年。网友锐评：机器人的进步，让今年看起来像人类的开幕式动作、自由度远超人类，但这真不是恐怖片？视频一开始，Atlas平静地躺在地上，看起来应该是仰面朝天。接下来，让人惊掉下巴

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

AI颠覆数学研究！菲尔兹奖得主、华裔数学家领衔11篇顶刊论文｜陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI，的确正在改变数学。最近，一直十分关注这个议题的陶哲轩，转发了最近一期的《美国数学学会通报》（BulletinoftheAmericanMathematicalSociety）。围绕「机器会改变数学吗？」这个话题，众多数学家发表了自己的观点，全程火花四射，内容硬核，精彩纷呈。作者阵容强大，包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化，要知道，其中很多文章是在一年前提交的，而在这一

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中，Pytorch依然比Tensorflow更受欢迎。但未来，也许有更多的大模型会基于JAX平台进行训练和运行。模型最近，Keras团队为三个后端（TensorFlow、JAX、PyTorch）与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先，他们为生成式和非生成式人工智能任务选择了一组主流

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！ May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉，已经可以在厂子里打工了。正常速度下，它分拣电池（特斯拉的4680电池）是这样的：官方还放出了20倍速下的样子——在小小的“工位”上，拣啊拣啊拣：这次放出的视频亮点之一在于Optimus在厂子里完成这项工作，是完全自主的，全程没有人为的干预。并且在Optimus的视角之下，它还可以把放歪了的电池重新捡起来放置，主打一个自动纠错：对于Optimus的手，英伟达科学家JimFan给出了高度的评价：Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

FisheyeDetNet：首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大，标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述，我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示，并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型，并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

单卡跑Llama 70B快过双卡，微软硬生生把FP6搞到了A100里 | 开源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮点数量化精度，不再是H100的“专利”了！老黄想让大家用INT8/INT4，微软DeepSpeed团队在没有英伟达官方支持的条件下，硬生生在A100上跑起FP6。测试结果表明，新方法TC-FPx在A100上的FP6量化，速度接近甚至偶尔超过INT4，而且拥有比后者更高的精度。在此基础之上，还有端到端的大模型支持，目前已经开源并集成到了DeepSpeed等深度学习推理框架中。这一成果对大模型的加速效果也是立竿见影——在这种框架下用单卡跑Llama，吞吐量比双卡还要高2.65倍。一名

See all articles

跟男朋友约会也要问语言模型？Nature：提idea，总结笔记，GPT-3竟成当代「科研民工」

让机器帮你思考

何必亲自写代码？

文献检索

不断进化的模型

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题