目录
拥抱开源,拒绝垄断
首页 科技周边 人工智能 少用ChatGPT,多支持开源!纽约大学教授Nature发文:为了科学界的未来

少用ChatGPT,多支持开源!纽约大学教授Nature发文:为了科学界的未来

May 10, 2023 pm 01:13 PM
ai 开源

免费的ChatGPT用的是很爽,但这种闭源的语言模型最大的缺点就是不开源,外界根本无法了解背后的训练数据以及是否会泄露用户隐私等问题,也引发了后续工业界、学术界联合开源了LLaMA等一系列羊驼模型。

最近Nature世界观栏目刊登了一篇文章,纽约大学政治与数据科学教授Arthur Spirling呼吁大家更多地使用开源模型,实验结果可复现,也符合学术伦理

重点是,万一哪天OpenAI不爽了,关闭了语言模型接口,或是靠封闭垄断涨价的话,那用户只能无奈地说一句,「终究是学术败给了资本」

少用ChatGPT,多支持开源!纽约大学教授Nature发文:为了科学界的未来

文章作者Arthur Spirling将于今年7月加入普林斯顿大学教授政治学,主要研究方向是政治方法论和立法行为,具体为文本数据(text-as-data)、自然语言处理、贝叶斯统计、机器学习、项目反应理论和广义线性模型在政治科学中的应用。

研究人员应该避免商用模型的诱惑,共同开发透明的大型语言模型,以确保可重复性。

拥抱开源,拒绝垄断

似乎每天都有一个全新的大型语言模型(LLM)推出,其创建者和学术界相关人士每次都会对新模型如何与人类进行流畅交流的能力慷慨陈词,比如可以帮用户改代码,写推荐信,给文章写摘要等等。

作为一名正在使用并教授如何使用这些模型的政治和数据科学家,我认为学者们应该保持警惕,因为目前最受大众追捧的语言模型仍然是私有且封闭的,即由公司运营,他们不会披露基本模型的具体信息,只会独立地检查或验证模型的能力,所以研究人员和公众并不知道模型的训练使用了哪些文件。

急于将语言模型纳入自己的研究流程可能会出问题,可能会威胁到来之不易的「研究伦理」和「结果复现性」方面的相关进展。

不光不能依赖商用模型,研究人员还要通力合作开发透明且不依赖于某个具体公司利益的开源大型语言模型。

虽然商用模型非常方便,可以开箱即用,但投资开源语言模型是历史的趋势,既要想办法推进开发,也要让模型应用于未来的研究中。

我乐观地估计,语言模型工具的未来一定是开源的,类似于开源统计软件的发展历史,刚开始商用的统计软件很流行,但目前基本所有社区都在使用R或Python等开源平台。

举个例子,去年7月发布的开源语言模型BLOOM,其开发团队Hugging Face是一家总部位于纽约的人工智能公司,携手一千多名志愿者和研究人员共同打造,部分研发资金由法国政府提供;其他团队也在努力开源大型语言模型。

我认为类似这样的开源项目都是伟大的,但我们还需要更多的合作,需要汇集国际资源和专业知识。

开源大型语言模型的团队通常不像大公司那样资金充足,并且开发团队还需要持续运营以跟踪领域内的最新进展:AI领域的发展实在是太快了,甚至大部分语言模型在推出几周或几个月以后就会过时。

所以参与到开源中的学者越多,最终开源模型的效果也会更好。

使用开源 LLM 对于「可重复性的研究」至关重要,因为闭源的商用语言模型所有者可以随时更改其产品或其训练数据,都有可能会改变模型的生成结果。

比如说,一个研究小组可能会发表一篇论文,测试商用语言模型建议的措辞是否可以帮助临床医生更有效地与患者沟通;如果另一个小组试图复现这项研究,谁知道模型的基础训练数据是否和当时一样?甚至该模型是否仍然运营都是未知数。

之前研究人员常用的辅助工具GPT-3已经被GPT-4取代了,所有基于GPT-3接口的研究在未来很可能无法复现,对于公司来说,维持旧模型运行的优先级并不高。

相比之下,使用开源LLM,研究人员可以查看模型的内部架构、权重,了解模型是如何运行的,定制代码并指出错误,这些细节包括模型的可调参数和训练模型的数据,社区的参与和监督都有助于让这种模式长期保持稳健。

在科学研究中使用商用语言模型也对研究伦理产生了负面的影响,因为用于训练这些模型的文本是未知的,可能包括社交媒体平台上用户之间的直接信息或儿童撰写的内容。

尽管制作公共文本的人可能已经同意了平台的服务条款,但这可能不是研究人员希望看到的知情同意标准。

在我看来,科学家应该尽可能地在自己的工作中远离使用这些模型。我们应该转向开放的语言模型,并推广给其他人使用。

此外,我认为学者,尤其是那些拥有大量社交媒体追随者的学者,不应该推动其他人使用商用模型,如果价格飙升,或者公司倒闭,研究人员可能会后悔把技术推广给同事。

研究人员目前可以求助于私人组织制作的开放式语言模型,例如用Facebook母公司Meta开源的LLaMA,最初是基于用户申请、审核的形式发放的,但完整版模型随后在网上泄露;还可以使用Meta的开放语言模型OPT-175 B

从长远来看,不利的一面是,这些模型的发布过于依赖公司的仁慈,这是一种不稳定的局面。

除此之外,还应该有与语言模型合作的学术行为准则,以及相应的监管措施,但这些都需要时间,根据我作为政治学家的经验,我预计这些规定最初肯定是很不完善的,并且见效缓慢。

与此同时,大规模的合作项目迫切需要支持,以训练用于研究的开源语言模型,类似欧洲粒子物理研究所(CERN),国际粒子物理组织,政府应通过赠款增加资金。

该领域正在以闪电般的速度发展,现在需要开始协调国内和国际支持。

科学界需要有能力评估由此得到模型的风险,并且需要谨慎地向公众发布,但很明显,开放的环境是正确的。

以上是少用ChatGPT,多支持开源!纽约大学教授Nature发文:为了科学界的未来的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

centos关机命令行 centos关机命令行 Apr 14, 2025 pm 09:12 PM

CentOS 关机命令为 shutdown,语法为 shutdown [选项] 时间 [信息]。选项包括:-h 立即停止系统;-P 关机后关电源;-r 重新启动;-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

CentOS上GitLab的备份方法有哪些 CentOS上GitLab的备份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系统下GitLab的备份与恢复策略为了保障数据安全和可恢复性,CentOS上的GitLab提供了多种备份方法。本文将详细介绍几种常见的备份方法、配置参数以及恢复流程,帮助您建立完善的GitLab备份与恢复策略。一、手动备份利用gitlab-rakegitlab:backup:create命令即可执行手动备份。此命令会备份GitLab仓库、数据库、用户、用户组、密钥和权限等关键信息。默认备份文件存储于/var/opt/gitlab/backups目录,您可通过修改/etc/gitlab

如何检查CentOS HDFS配置 如何检查CentOS HDFS配置 Apr 14, 2025 pm 07:21 PM

检查CentOS系统中HDFS配置的完整指南本文将指导您如何有效地检查CentOS系统上HDFS的配置和运行状态。以下步骤将帮助您全面了解HDFS的设置和运行情况。验证Hadoop环境变量:首先,确认Hadoop环境变量已正确设置。在终端执行以下命令,验证Hadoop是否已正确安装并配置:hadoopversion检查HDFS配置文件:HDFS的核心配置文件位于/etc/hadoop/conf/目录下,其中core-site.xml和hdfs-site.xml至关重要。使用

CentOS上PyTorch的GPU支持情况如何 CentOS上PyTorch的GPU支持情况如何 Apr 14, 2025 pm 06:48 PM

在CentOS系统上启用PyTorchGPU加速,需要安装CUDA、cuDNN以及PyTorch的GPU版本。以下步骤将引导您完成这一过程:CUDA和cuDNN安装确定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA显卡支持的CUDA版本。例如,您的MX450显卡可能支持CUDA11.1或更高版本。下载并安装CUDAToolkit:访问NVIDIACUDAToolkit官网,根据您显卡支持的最高CUDA版本下载并安装相应的版本。安装cuDNN库:前

centos安装mysql centos安装mysql Apr 14, 2025 pm 08:09 PM

在 CentOS 上安装 MySQL 涉及以下步骤:添加合适的 MySQL yum 源。执行 yum install mysql-server 命令以安装 MySQL 服务器。使用 mysql_secure_installation 命令进行安全设置,例如设置 root 用户密码。根据需要自定义 MySQL 配置文件。调整 MySQL 参数和优化数据库以提升性能。

docker原理详解 docker原理详解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux内核特性,提供高效、隔离的应用运行环境。其工作原理如下:1. 镜像作为只读模板,包含运行应用所需的一切;2. 联合文件系统(UnionFS)层叠多个文件系统,只存储差异部分,节省空间并加快速度;3. 守护进程管理镜像和容器,客户端用于交互;4. Namespaces和cgroups实现容器隔离和资源限制;5. 多种网络模式支持容器互联。理解这些核心概念,才能更好地利用Docker。

centos8重启ssh centos8重启ssh Apr 14, 2025 pm 09:00 PM

重启 SSH 服务的命令为:systemctl restart sshd。步骤详解:1. 访问终端并连接到服务器;2. 输入命令:systemctl restart sshd;3. 验证服务状态:systemctl status sshd。

CentOS下GitLab的日志如何查看 CentOS下GitLab的日志如何查看 Apr 14, 2025 pm 06:18 PM

CentOS系统下查看GitLab日志的完整指南本文将指导您如何查看CentOS系统中GitLab的各种日志,包括主要日志、异常日志以及其他相关日志。请注意,日志文件路径可能因GitLab版本和安装方式而异,若以下路径不存在,请检查GitLab安装目录及配置文件。一、查看GitLab主要日志使用以下命令查看GitLabRails应用程序的主要日志文件:命令:sudocat/var/log/gitlab/gitlab-rails/production.log此命令会显示produc

See all articles