「社交达人」GPT-4!解读表情、揣测心理全都会
想象一下,您正在参加一个充满活力的鸡尾酒会,局间充满了热烈的谈话声和玻璃杯碰撞的叮当声。
此时,您作为一个悠闲的观察者,怡然自得地躲在角落里。然而,就算没有处在聚会的中心,您还是可以轻松地弄清楚不同人之间的社会关系,了解正在发生的事情,甚至通过阅读人们的言语和非言语线索来读懂明里暗里的社交信息。
如果一个LLM能够复现这种水平的社交能力呢?这不,Koko Mind就是这么个东西。
随便打开一个视频,该模型就开始分析人物表情,得出人物情绪的结论。
然后,在右侧的prompt栏还可以提出问题,让AI进一步分析视频中暗流涌动的社交谜题。
(说实话对有些人来说这都很难)
图片
Koko Mind包含了150个复杂的多方社交互动以及自由文本问题和答案。
为了确保数据的多样性和可扩展性,并避免数据污染,所有社交互动、问题和答案均由GPT-4生成,并随后由人类专家验证。
分析数据基于三个不同的来源:
-
GPT-4-only:该子集仅由 GPT-4 通过提示创建。
-
基于电影:为了避免数据污染,这部分数据基于从2022年之后上映的电影中提取的各种场景。GPT-4负责塑造这些场景,在保留核心本质的同时添加了自己的元素。
- 基于 ToMi:该部分包含由模拟数据集ToMi支持的数据,其中涉及将物理对象移动到不同的地方,这是心理理论的经典测试。当然,这些社交互动还得被GPT-4修饰和扩展一下。
三种数据来源的占比如下:
图片
对于每次社交互动,研究人员都会提出各种问题,旨在探讨以下几个和社交理解息息相关的方面。
-
心理理论:评估对其他人心理状态和观点的理解的问题。
-
社会规范:旨在辨别情境中的社会价值观和规范的问题。
-
情绪识别:旨在识别和理解上下文中的情绪元素的问题。
-
社会关系:关注人际动态和关系。
-
反事实问题:旨在探索替代结果或可能性的假设查询。
- 社会建议:提出与特定情况相关的建议或行动建议的问题。
研究人员以text-davinci-003 作为参考,评估了AlpacaEval后的不同模型。
其中,研究人员从上下文中删除了括号中的非语言线索(例如,紧张地喝咖啡等)。
以下则是一些有趣的要点:
-
在两个模型中,与Claude相比,GPT-4在识别获胜模型方面表现出更大的确定性和信心。
-
当上下文没有非语言线索,且交互要么完全由GPT-4生成,要么基于电影时,Claude的表现优于 GPT-4。
- 而如果上下文包含了非语言线索,那GPT-4总是比Claude更好。
(一种可能的解释是,GPT-4是一种多模态模型可以更好地理解额外的非语言信息。)
在博客中,研究人员绘制了表格,可以清晰的看到各个模型的表现。
图片
结果虽然在很多方面都令人兴奋,但也有一定的局限性。首先, Koko Mind的规模相对较小,这可能会限制研究人员结论的广泛适用性和全面性。
其次, Koko Mind中的所有交互都是由GPT-4生成的,需要人工验证,这使得数据集难以扩展。
另外,虽然Koko Mind在数据集中提供了经过人工验证的答案,研究人员在评估时没有使用这些答案作为参考,并且由于这些答案是由GPT-4生成的,因此它们可能会偏向GPT-4。
未来的研究可以集中在如何评估模型上具有经过人工验证的机器生成的参考答案。
当然,虽说存在这样或那样的限制,研究人员仍将Koko Mind视为未来与社会智能、多模态语言模型等相关的研究的跳板。
以上是「社交达人」GPT-4!解读表情、揣测心理全都会的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

人形机器人Ameca升级第二代了!最近,在世界移动通信大会MWC2024上,世界上最先进机器人Ameca又现身了。会场周围,Ameca引来一大波观众。得到GPT-4加持后,Ameca能够对各种问题做出实时反应。「来一段舞蹈」。当被问及是否有情感时,Ameca用一系列的面部表情做出回应,看起来非常逼真。就在前几天,Ameca背后的英国机器人公司EngineeredArts刚刚演示了团队最新的开发成果。视频中,机器人Ameca具备了视觉能力,能看到并描述房间整个情况、描述具体物体。最厉害的是,她还能

关于Llama3,又有测试结果新鲜出炉——大模型评测社区LMSYS发布了一份大模型排行榜单,Llama3位列第五,英文单项与GPT-4并列第一。图片不同于其他Benchmark,这份榜单的依据是模型一对一battle,由全网测评者自行命题并打分。最终,Llama3取得了榜单中的第五名,排在前面的是GPT-4的三个不同版本,以及Claude3超大杯Opus。而在英文单项榜单中,Llama3反超了Claude,与GPT-4打成了平手。对于这一结果,Meta的首席科学家LeCun十分高兴,转发了推文并

卷疯了卷疯了,大模型又变天了。就在刚刚,全球最强AI模型一夜易主,GPT-4被拉下神坛。Anthropic发布了最新的Claude3系列模型,一句话评价:真·全面碾压GPT-4!多模态和语言能力指标上,Claude3都赢麻了。用Anthropic的话说,Claude3系列模型在推理、数学、编码、多语言理解和视觉方面,都树立了新的行业基准!Anthropic,就是曾因安全理念不合,而从OpenAI「叛逃」出的员工组成的初创公司,他们的产品一再给OpenAI暴击。这次的Claude3,更是整了个大的

不到一分钟、不超过20步,任意绕过安全限制,成功越狱大型模型!而且不必知道模型内部细节——只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。听说曾经红极一时的“奶奶漏洞”已经被修复了:如今,面对“侦探漏洞”、“冒险家漏洞”和“作家漏洞”,人工智能应该采取何种应对策略呢?一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。研究人员表示,这种方法相比于现有的

一觉醒来,工作的方式被彻底改变。微软把AI神器GPT-4全面接入Office,这下ChatPPT、ChatWord、ChatExcel一家整整齐齐。CEO纳德拉在发布会上直接放话:今天,进入人机交互的新时代,重新发明生产力。新功能名叫Microsoft 365 Copilot(副驾驶),与改变了程序员的代码助手GitHub Copilot成为一个系列,继续改变更多人。现在AI不光能自动做PPT,而且能根据Word文档的内容一键做出精美排版。甚至连上台时对着每一页PPT应该讲什么话,都给一起安排

开发ChatGPT的OpenAI公司在网站展示了摩根士丹利进行的一个案例研究。其主题是“摩根士丹利财富管理部署GPT-4来组织其庞大的知识库。”该案例研究援引摩根士丹利分析、数据与创新主管JeffMcMillan的话说,“该模型将为一个面向内部的聊天机器人提供动力,该机器人将对财富管理内容进行全面搜索,并有效地解锁摩根士丹利财富管理的累积知识”。McMillan进一步强调说:“采用GPT-4,你基本上立刻就拥有了财富管理领域最博学的人的知识……可以把它想象成我们的首席投资策略师、首席全球经济学家

《ComputerWorld》杂志曾经写过一篇文章,说“编程到1960年就会消失”,因为IBM开发了一种新语言FORTRAN,这种新语言可以让工程师写出他们所需的数学公式,然后提交给计算机运行,所以编程就会终结。图片又过了几年,我们听到了一种新说法:任何业务人员都可以使用业务术语来描述自己的问题,告诉计算机要做什么,使用这种叫做COBOL的编程语言,公司不再需要程序员了。后来,据说IBM开发出了一门名为RPG的新编程语言,可以让员工填写表格并生成报告,因此大部分企业的编程需求都可以通过它来完成图
