四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用-人工智能-PHP中文网

别轻信生成式搜索引擎

实验结果

首页

科技周边

人工智能

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

王林

May 01, 2023 pm 11:28 PM

ai 搜索

ChatGPT发布后不久，微软成功上车发布「新必应」，不仅股价大涨，甚至还大有取代谷歌，开启搜索引擎新时代的架势。

不过新必应真是大型语言模型的正确玩法吗？生成的答案真的对用户有用吗？句子里标的引文可信度有多少？

最近，斯坦福的研究人员从不同的来源收集了大量的用户查询，对当下四个大火的生成性搜索引擎，新必应（Bing Chat），NeevaAI，perplexity.ai和 YouChat进行了人工评估。

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

论文链接：https://arxiv.org/pdf/2304.09848.pdf

实验结果发现，来自现有生成搜索引擎的回复流畅且信息量大，但经常包含没有证据的陈述和不准确的引用。

平均来说，只有51.5%的引用可以完全支撑生成的句子，只有74.5% 的引用可以作为相关句子的证据支持。

研究人员认为，对于那些可能成为信息搜寻用户主要工具的系统来说，这个结果实在是过低了，特别是考虑到有些句子只是貌似可信的话，生成式搜索引擎仍然需要进一步优化。

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

个人主页：https://cs.stanford.edu/~nfliu/

第一作者Nelson Liu是斯坦福大学自然语言处理组的四年级博士生，导师为Percy Liang，本科毕业于华盛顿大学，主要研究方向为构建实用的NLP系统，尤其是用于信息查找的应用程序。

别轻信生成式搜索引擎

2023年3月，微软报告说「大约三分之一的每日预览用户每天都在使用[Bing]聊天」，并且Bing聊天在其公开预览的第一个月提供了4500万次聊天，也就是说，把大型语言模型融合进搜索引擎是非常有市场的，极有可能改变互联网的搜索入口。

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

但目前来看，现有的基于大型语言模型技术的生成式搜索引擎仍然存在准确率不高的问题，但具体的准确率仍然没有得到全面评估，进而也无法了解到新型搜索引擎的局限之处。

可验证性（verifiability）是提升搜索引擎可信度的关键，即为生成答案中的每一句话都提供引文的外部链接来作为证据支撑，可以使用户更容易验证答案的准确程度。

研究人员通过收集不同类型、来源的问题，在四个商业生成式搜索引擎（Bing Chat, NeevaAI, perplexity.ai, YouChat）上进行人工评估。

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

评估指标主要包括流畅性，即生成的文本是否连贯；有用性，即搜索引擎的回复对于用户来说是否有帮助，以及答案中的信息是否能够解决问题；引用召回，即生成的关于外部网站的句子中包含引用支持的比例；引用精度，即生成的引用支持其相关句子的比例。

流畅性（fluency）

同时展示用户查询、生成的回复以及声明「该回复是流畅且语义连贯的」，标注人员以五分制Likert量表对数据进行打分。

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

有用性（perceived utility）

与流畅性类似，标注人员需要评定他们对「该回复是对用户查询来说是有用且有信息量的」这一说法的同意程度。

引用召回（citation recall）

引用召回率是指由其相关引文完全支持的、值得验证的句子的比例，所以该指标的计算需要确定回复中值得验证的句子，以及评估每个值得验证的句子能够被相关引文支持。

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

在「识别值得验证的句子」过程中，研究人员认为关于外部世界的每一个生成的句子都是值得验证的，即使是那些可能看起来很明显、微不足道的常识，因为对于某些读者来说似乎是明显的「常识」，但其实可能并不正确。

搜索引擎系统的目标应该是为所有生成的关于外部世界的句子提供参考来源，使读者能够轻松地验证生成的回复中的任何叙述，不能为了简单而牺牲可验证性。

所以实际上标注人员对所有生成的句子都进行验证，除了那些以系统为第一人称的回复，如「作为一个语言模型，我没有能力做...」，或是对用户的提问，如「你想了解更多吗？」等。

评估「一个值得验证的陈述是否得到其相关引文的充分支持」可以基于归因已识别来源（AIS, attributable to identified sources）评估框架，标注人员进行二元标注，即如果一个普通的听众认可「基于引用的网页，可以得出...」，那引文即可完全支持该回复。

引用精确率

为了衡量引用的精确率，标注人员需要判断每个引用是否对其相关的句子提供了全部、部分或无关支持。

完全支持（full support）：句子中的所有信息都得到了引文的支持。

部分支持（Partial support）：句子中的一些信息得到了引文的支持，但其他部分可能存在缺失或矛盾。

无关支持（No support）：如引用的网页完全不相关或相互矛盾。

对于有多个相关引文的句子，还会额外要求标注人员使用AIS评估框架判断所有相关引文网页作为一个整体是否为该句子提供了充分的支持（二元判断）。

实验结果

在流畅性和有用性评估中，可以看到各个搜索引擎都能够生成非常流畅且有用的回复。

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

在具体的搜索引擎评估中，可以看到看到Bing Chat的流畅性/有用性评分最低（4.40/4.34），其次是NeevaAI（4.43/4.48），perplexity.ai（4.51/4.56），以及YouChat（4.59/4.62）。

在不同类别的用户查询中，可以看到较短的提取性问题通常比长问题要更流畅，通常只回答事实性知识即可；一些有难度的问题通常需要对不同的表格或网页进行汇总，合成过程会降低整体的流畅性。

在引文评估中，可以看到现有的生成式搜索引擎往往不能全面或正确地引用网页，平均只有51.5%的生成句子得到了引文的完全支持（召回率），只有74.5%的引文完全支持其相关句子（精确度）。

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

这个数值来说对于已经拥有数百万用户的搜索引擎系统来说是不可接受的，特别是在生成回复往往信息量比较大的情况下。

并且不同的生成式搜索引擎之间的引文召回率和精确度有很大差异，其中perplexity.ai实现了最高的召回率（68.7），而NeevaAI（67.6）、Bing Chat（58.7）和YouChat（11.1）较低。

另一方面，Bing Chat实现了最高的精确度（89.5），其次是perplexity.ai（72.7）、NeevaAI（72.0）和YouChat（63.6）

在不同的用户查询中，有长答案的NaturalQuestions查询和非NaturalQuestions查询之间的引用召回率差距接近11%（分别为58.5和47.8）；

同样，有短答案的NaturalQuestions查询和无短答案的NaturalQuestions查询之间的引用召回率差距接近10%（有短答案的查询为63.4，只有长答案的查询为53.6，而无长或短答案的查询为53.4）。

在没有网页支持的问题中，引用率就会较低，例如对开放式的AllSouls论文问题进行评估时，生成式搜索引擎在引文召回率方面只有44.3

以上是四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7695

Java教程

1640

CakePHP 教程

1393

Laravel 教程

1287

PHP教程

1229

显示更多

Related knowledge

WorldCoin（WLD）价格预测2025-2031：到2031年WLD会达到4美元吗？ Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制，在加密货币市场中脱颖而出，吸引了众多投资者的目光。 WLD凭借其创新技术，特别是结合OpenAI人工智能技术，在众多山寨币中表现突出。但未来几年，数字资产的走势如何呢？让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示，WLD平均价格可能达到1.31美元，最高可能触及1.36美元。然而，在熊市情况下，价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

币圈杠杆交易所排名币圈十大杠杆交易所APP最新推荐 Apr 21, 2025 pm 11:24 PM

2025年在杠杆交易、安全性和用户体验方面表现突出的平台有：1. OKX，适合高频交易者，提供最高100倍杠杆；2. Binance，适用于全球多币种交易者，提供125倍高杠杆；3. Gate.io，适合衍生品专业玩家，提供100倍杠杆；4. Bitget，适用于新手及社交化交易者，提供最高100倍杠杆；5. Kraken，适合稳健型投资者，提供5倍杠杆；6. Bybit，适用于山寨币探索者，提供20倍杠杆；7. KuCoin，适合低成本交易者，提供10倍杠杆；8. Bitfinex，适合资深玩

跨链交易什么意思？跨链交易所有哪些？ Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有：1. Binance，2. Uniswap，3. SushiSwap，4. Curve Finance，5. Thorchain，6. 1inch Exchange，7. DLN Trade，这些平台通过各种技术支持多链资产交易。

web3交易平台排行榜_web3全球交易所前十名汇总 Apr 21, 2025 am 10:45 AM

币安是全球数字资产交易生态的霸主，其特点包括：1. 日均交易量突破$1500亿，支持500 交易对，覆盖98%主流币种；2. 创新矩阵涵盖衍生品市场、Web3布局和教育体系；3. 技术优势为毫秒级撮合引擎，峰值处理量达140万笔/秒；4. 合规进展持有15国牌照，并在欧美设立合规实体。

如何在币安拿下 KERNEL 空投奖励全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里，新机遇总是不断涌现。当下，KernelDAO (KERNEL) 空投活动正备受瞩目，吸引着众多投资者的目光。那么，这个项目究竟是什么来头？BNB Holder 又能从中获得怎样的好处？别急，下面将为你一一揭晓。

对于加密货币行业来说，'黑色星期一抛售”是艰难的一天 Apr 21, 2025 pm 02:48 PM

加密货币市场暴跌引发投资者恐慌，Dogecoin(Doge)成为重灾区之一。其价格大幅下挫，去中心化金融(DeFi)总价值锁定(TVL)也出现显着下降。 “黑色星期一”的抛售潮席卷加密货币市场，Dogecoin首当其冲。其DeFiTVL跌至2023年水平，币价在过去一个月内下跌23.78%。 Dogecoin的DeFiTVL降至272万美元的低点，主要原因是SOSO价值指数下跌26.37%。其他主要DeFi平台，如无聊的Dao和Thorchain，TVL也分别下降了24.04%和20.

虚拟币价格上涨或者下降是为什么虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括：1.市场需求增加，2.供应量减少，3.利好消息刺激，4.市场情绪乐观，5.宏观经济环境；下降因素包括：1.市场需求减少，2.供应量增加，3.利空消息打击，4.市场情绪悲观，5.宏观经济环境。

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议，已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议，已为AAVEDAO实现了一个法定人数。AAVE连锁计划（ACI）创始人马克·泽勒（MarcZeller）在X上宣布了这一点，并指出它标志着该协议的新时代。AAVE连锁倡议（ACI）创始人MarcZeller在X上宣布，Aavenomics提案包括修改AAVE协议令牌和引入令牌回购，已为AAVEDAO实现了法定人数。根据Zeller的说法，这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议，即在周三以每周100

See all articles

四款「ChatGPT搜索」全面对比！斯坦福华人博士纯手工标注：新必应流畅度最低，近一半句子都没引用

别轻信生成式搜索引擎

实验结果

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题