一次只要0.003美元,比人类便宜20倍!ChatGPT让数据标注者危矣
最近,来自苏黎世大学的研究团队发现,ChatGPT在多个NLP标注任务上胜过众包工作者,具有较高一致性,且每次标注成本仅约0.003美元,比MTurk便宜20倍。
当前,很多自然语言处理(NLP)应用需要高质量的标注数据来支撑,特别是当这些数据被用于训练分类器或评估无监督模型的性能等任务中。
例如,人工智能研究人员通常希望过滤嘈杂的社交媒体数据的相关性,将文本分配到不同的主题或概念类别,或衡量其情绪或立场。
而且,无论这些任务使用什么具体方法(监督、半监督或无监督),都需要标注好的数据来建立一个训练集或黄金标准。
然而,在大多数情况下,要完成高质量的数据标注(data annotation)工作,依然离不开数据标注平台上的众包工作者或诸如研究助理等训练有素的标注者来手动进行。
通常情况下,训练有素的标注者先创建一个相对较小的黄金标准数据集,然后雇用众包工作者来增加标注数据的数量,进行重复性工作。根据规模大小和复杂程度,数据标注任务有时会非常费时费力,不仅需要花费一定的人力成本,而且也不能保证数据标注的质量。
那么,能否让机器帮助人类完成这一基础任务呢?
在以往的认知中,机器并不擅长这类「慢工出细活」的任务,但出乎意料的是,「数据标注」这件事已经让 ChatGPT 完成了,而且比大多数人做得还更好。
在一项今天发表的新研究中,来自苏黎世大学的研究团队使用由 2382 条推文组成的样本,证明了 ChatGPT 在相关性、主题和框架检测等标多个注任务上优于众包工作者。
相关研究论文以「ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks」为题,已发表在预印本网站 arXiv 上。
具体来说,ChatGPT 在五项任务的四项中的零样本(zero-shot)准确率超过了众包工作者;在所有任务中表现出的编码者间一致性(intercoder agreement)方面,ChatGPT 不仅超过了众包工作者,也同样超过了训练有素的标注者。
ChatGPT 零样本文本数据标注表现
值得一提的是,ChatGPT 的每个标注成本只有不到 0.003 美元,而比数据标注平台便宜约 20 倍。
研究团队认为,虽然需要进一步的研究来更好地了解 ChatGPT 和其他 LLMs 在更广泛的背景下的表现,但该研究结果表明,它们有可能改变研究人员进行数据注释的方式,极大地提高文本分类的效率,并破坏数据标注平台的部分商业模式。
至少,从目前来看,这些发现表明了更深入地研究 LLMs 的文本标注特性和能力的重要性。
未来,研究团队将在 ChatGPT 在多种语言中的表现、ChatGPT 在多种类型的文本(社会媒体、新闻媒体、立法、演讲等)中的表现、使用思维链(CoT)提示和其他策略来提高零样本推理的性能等方面继续努力。
值得一提的是,研究团队在进行这项工作时,OpenAI 还没有发布 GPT-4,如果让 GPT-4 来完成数据标注任务,又会是怎样的结果呢?
参考资料:https://arxiv.org/abs/2303.15056
以上是一次只要0.003美元,比人类便宜20倍!ChatGPT让数据标注者危矣的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

DALL-E 3 于 2023 年 9 月正式推出,是比其前身大幅改进的型号。它被认为是迄今为止最好的人工智能图像生成器之一,能够创建具有复杂细节的图像。然而,在推出时,它不包括

ChatGPT和Python的完美结合:打造智能客服聊天机器人引言:在当今信息时代,智能客服系统已经成为企业与客户之间重要的沟通工具。而为了提供更好的客户服务体验,许多企业开始转向采用聊天机器人的方式来完成客户咨询、问题解答等任务。在这篇文章中,我们将介绍如何使用OpenAI的强大模型ChatGPT和Python语言结合,来打造一个智能客服聊天机器人,以提高

安装步骤:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。

在这篇文章中,我们将介绍如何使用ChatGPT和Java开发智能聊天机器人,并提供一些具体的代码示例。ChatGPT是由OpenAI开发的困境预测转换(GenerativePre-trainingTransformer)的最新版本,它是一种基于神经网络的人工智能技术,可以理解自然语言并生成人类类似的文本。使用ChatGPT,我们可以轻松地创建自适应的聊天

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。

如何利用ChatGPT和Python实现用户意图识别功能引言:在当今的数字化时代,人工智能技术逐渐成为各个领域中不可或缺的一部分。其中,自然语言处理(NaturalLanguageProcessing,NLP)技术的发展使得机器能够理解和处理人类语言。ChatGPT(Chat-GeneratingPretrainedTransformer)是一种基于

如何使用ChatGPTPHP构建智能客服机器人引言:随着人工智能技术的发展,机器人在客服领域的应用越来越广泛。使用ChatGPTPHP构建智能客服机器人,可以帮助企业提供更高效、更个性化的客户服务。本文将介绍如何使用ChatGPTPHP构建智能客服机器人,并提供具体的代码示例。一、安装ChatGPTPHP要使用ChatGPTPHP构建智能客服机器人

今天跟大家聊一聊大模型在时间序列预测中的应用。随着大模型在NLP领域的发展,越来越多的工作尝试将大模型应用到时间序列预测领域中。这篇文章介绍了大模型应用到时间序列预测的主要方法,并汇总了近期相关的一些工作,帮助大家理解大模型时代时间序列预测的研究方法。1、大模型时间序列预测方法最近三个月涌现了很多大模型做时间序列预测的工作,基本可以分为2种类型。重写后的内容:一种方法是直接使用NLP的大型模型进行时间序列预测。在这种方法中,使用GPT、Llama等NLP大型模型来进行时间序列预测,关键在于如何将
