论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别-人工智能-PHP中文网

实测GPT-4论文评审水平

一作都是华人

首页

科技周边

人工智能

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

PHPz

Oct 06, 2023 pm 02:37 PM

ai 论文

GPT-4有能力做论文评审吗？

来自斯坦福等大学的研究人员还真测试了一把。

他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章，让它生成评审意见（包括修改建议啥的），然后与人类给的意见进行比较。

经过调查，我们发现：

GPT-4提出的超50%观点与至少一名人类评审员一致；

并且有超过82.4%的作者发现GPT-4提供的意见非常有帮助

这项研究能给我们带来哪些启示呢？

结论是：

高质量的人类反馈仍然不可替代；但GPT-4可以帮助作者在正式同行评审前改进初稿。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

具体来看。

实测GPT-4论文评审水平

为了证明GPT-4的潜力，研究人员首先用GPT-4创建了一个自动pipeline。

它能够分析整篇PDF格式的论文，提取标题、摘要、图表、表格标题等内容，以建立提示语

然后让GPT-4提供评审意见。

其中，意见和各顶会的标准一样，共包含四个部分：

研究的重要性和新颖性，以及可能被接受或拒绝的原因和改进建议

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

具体实验从两方面展开。

首先是量化实验：

阅读现有论文，生成反馈，并与真实人类观点进行系统比较，以找出重叠部分

在此，团队从Nature正刊和各大子刊挑选了3096篇文章，从ICLR机器学习会议（包含去年和今年）挑选了1709篇，共计4805篇。

其中，Nature论文共涉及8745条人类评审意见；ICLR会议涉及6506条。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

GPT-4给出意见之后，pipeline就在match环节分别提取人类和GPT-4的论点，然后进行语义文本匹配，找到重叠的论点，以此来衡量GPT-4意见的有效性和可靠度。

结果是：

1、GPT-4意见与人类评审员真实意见显著重叠

整体来看，在Nature论文中，GPT-4有57.55%的意见与至少一位人类评审员一致；在ICLR中，这个数字则高达77.18%。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

再进一步仔细比较GPT-4与每一位评审员的意见之后，团队又发现：

GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%，在ICLR上降为39.23%。

然而，这与两位人类审稿人之间的重叠率相当

在Nature论文中，人类的平均重叠率为28.58%；而在ICLR上则为35.25%

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

此外，他们还通过分析论文的等级水平（oral、spotlight、或是直接被拒绝的）发现：

对于水平较弱的论文而言，GPT-4和人类审稿人之间的重叠率有望提高。从目前的30%多，可以增加到接近50%

这表明，GPT-4具有很高的辨别能力，可以辨别出水平较差的论文

作者也因此表示，那些需要更实质性修改才能被接收的论文有福了，大伙儿可以在正式提交前多试试GPT-4给出的修改意见。

2、GPT-4能够提供非通用的反馈

所谓非通用反馈，即GPT-4不会给出一个适用于多篇论文的通用评审意见。

在此，作者们衡量了一个“成对重叠率”的指标，结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。

这表明GPT-4具有特定目标

3、能够与人类观点在重大、普遍问题上达成一致

一般而言，那些最早出现并且被多个评审员提及的意见，往往代表着重要且普遍存在的问题

在这里，团队还发现LLM更有可能识别出多个评审员一致认可的常见问题或缺陷

GPT-4在整体上表现尚可

4、GPT-4给的意见更强调一些与人类不同的方面

研究发现，GPT-4评论研究本身含义的频率是人类的7.27倍，评论研究新颖性的可能性是人类的10.69倍。

以及GPT-4和人类都经常建议进行额外的实验，但人类更关注于消融实验，GPT-4更建议在更多数据集上试试。

作者表示，这些发现表明，GPT-4和人类评审员在各方面的的重视程度各不相同，两者合作可能带来潜在优势。

定量实验之外是用户研究。

本次研究共有308名来自不同机构的AI和计算生物学领域的研究员参与，他们将各自的论文上传给GPT-4进行评审

研究团队收集了他们对GPT-4评审意见的真实反馈。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

总体而言，超过一半（57.4%）的参与者认为GPT-4生成的反馈很有帮助，包括给到一些人类想不到的点。

以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。

此外，还有超过一半的人（50.5%）表示，愿意进一步使用GPT-4等大模型来改进论文。

其中一人表示，只需要5分钟GPT-4就给出了结果，这个反馈速度真的非常快，对研究人员改善论文很有帮助。

当然，作者强调：

GPT-4的能力也有一些限制

最明显的是它更关注于“整体布局”，缺少特定技术领域（例如模型架构）的深度建议。

因此，正如作者最后的结论所述：

在正式评审之前，人类评审员的高质量反馈是非常重要的，但我们可以先试水一下，以弥补实验和构建等方面的细节可能被遗漏的情况

当然，他们也提醒：

正式评审中，审稿人应该还是独立参与，不依赖任何LLM。

一作都是华人

本研究一作共三位，都是华人，都来自斯坦福大学计算机科学学院。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

他们分别是：

梁伟欣，该校博士生，也是斯坦福AI实验室（SAIL）成员。他硕士毕业于斯坦福电气工程专业，本科毕业于浙江大学计算机科学。
Yuhui Zhang，同博士生在读，研究方向为多模态AI系统。清华本科毕业，斯坦福硕士毕业。
曹瀚成，该校五年级博士在读，辅修管理科学与工程，同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。

论文链接：https://arxiv.org/abs/2310.01783

以上是论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7449

CakePHP 教程

1374

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Vue.js 中字符串转对象用什么方法？ Apr 07, 2025 pm 09:39 PM

Vue.js 中字符串转对象时，首选 JSON.parse() 适用于标准 JSON 字符串。对于非标准 JSON 字符串，可根据格式采用正则表达式和 reduce 方法或解码 URL 编码字符串后再处理。根据字符串格式选择合适的方法，并注意安全性与编码问题，以避免 bug。

如何设置Vue Axios的超时时间 Apr 07, 2025 pm 10:03 PM

为了设置 Vue Axios 的超时时间，我们可以创建 Axios 实例并指定超时选项：在全局设置中：Vue.prototype.$axios = axios.create({ timeout: 5000 })；在单个请求中：this.$axios.get('/api/users', { timeout: 10000 })。

mysql 无法启动怎么解决 Apr 08, 2025 pm 02:21 PM

MySQL启动失败的原因有多种，可以通过检查错误日志进行诊断。常见原因包括端口冲突（检查端口占用情况并修改配置）、权限问题（检查服务运行用户权限）、配置文件错误（检查参数设置）、数据目录损坏（恢复数据或重建表空间）、InnoDB表空间问题（检查ibdata1文件）、插件加载失败（检查错误日志）。解决问题时应根据错误日志进行分析，找到问题的根源，并养成定期备份数据的习惯，以预防和解决问题。

Laravel的地理空间：互动图和大量数据的优化 Apr 08, 2025 pm 12:24 PM

利用地理空间技术高效处理700万条记录并创建交互式地图本文探讨如何使用Laravel和MySQL高效处理超过700万条记录，并将其转换为可交互的地图可视化。初始挑战项目需求：利用MySQL数据库中700万条记录，提取有价值的见解。许多人首先考虑编程语言，却忽略了数据库本身：它能否满足需求？是否需要数据迁移或结构调整？MySQL能否承受如此大的数据负载？初步分析：需要确定关键过滤器和属性。经过分析，发现仅少数属性与解决方案相关。我们验证了过滤器的可行性，并设置了一些限制来优化搜索。地图搜索基于城

Vue.js 如何将字符串类型的数组转换为对象数组？ Apr 07, 2025 pm 09:36 PM

总结：将 Vue.js 字符串数组转换为对象数组有以下方法：基本方法：使用 map 函数，适合格式规整的数据。高级玩法：使用正则表达式，可处理复杂格式，但需谨慎编写，考虑性能。性能优化：考虑大数据量，可使用异步操作或高效数据处理库。最佳实践：清晰的代码风格，使用有意义的变量名、注释，保持代码简洁。

偏远的高级后端工程师（平台）需要圈子 Apr 08, 2025 pm 12:27 PM

远程高级后端工程师职位空缺公司：Circle地点：远程办公职位类型：全职薪资：$130,000-$140,000美元职位描述参与Circle移动应用和公共API相关功能的研究和开发，涵盖整个软件开发生命周期。主要职责独立完成基于RubyonRails的开发工作，并与React/Redux/Relay前端团队协作。为Web应用构建核心功能和改进，并在整个功能设计过程中与设计师和领导层紧密合作。推动积极的开发流程，并确定迭代速度的优先级。要求6年以上复杂Web应用后端

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

mysql安装后怎么优化数据库性能 Apr 08, 2025 am 11:36 AM

MySQL性能优化需从安装配置、索引及查询优化、监控与调优三个方面入手。1.安装后需根据服务器配置调整my.cnf文件，例如innodb_buffer_pool_size参数，并关闭query_cache_size；2.创建合适的索引，避免索引过多，并优化查询语句，例如使用EXPLAIN命令分析执行计划；3.利用MySQL自带监控工具(SHOWPROCESSLIST,SHOWSTATUS)监控数据库运行状况，定期备份和整理数据库。通过这些步骤，持续优化，才能提升MySQL数据库性能。

See all articles

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

实测GPT-4论文评审水平

一作都是华人

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题