用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质
心理测量在精神健康、自我了解、和个人发展方面都发挥着重要的作用。
传统的心理测量方法主要依赖于参与者填写自我报告问卷,通过回忆日常生活中的行为和情绪来进行测量。
这样的测量方式虽然高效便捷,但可能引发参与者的抗拒心理,降低被测意愿。
随着大语言模型(LLM)的发展,很多研究发现LLM能够展现出稳定的人格特质,模仿人类细微的情绪与认知模式,还能辅助各种各样的社会科学仿真实验,为教育心理学、社会心理学、文化心理学、临床心理学、心理咨询等诸多心理学研究领域,提供了新的研究思路。
近日,清华大学的研究团队基于大语言模型的多智能体系统,提出一种创新性的心理测量范式。
与传统自我报告问卷不同的是,该研究为每位参与者定制化生成一个可交互的叙事类型游戏,用户可自定义游戏的类型与主题。
随着游戏剧情的发展,参与者需要以第一人称视角,根据各种情节做出不同的选择,从而影响剧情的进展。通过研究参与者在游戏关键时刻的选择,可以评估他们的心理特征。
△自我报告问卷的心理学测量范式(左)与交互叙事类游戏的心理测量范式(右)对比
该研究的贡献主要体现在三个方面:
- 提出一种新的心理学测量范式,将传统问卷转化成基于游戏的交互测量;在保证心理测量信度和效度的基础上,提升参与者的沉浸感,改善被测体验。
- 为了实现游戏化的测量,该研究提出一种基于大语言模型的多智能体交互框架,名为PsychoGAT (Psychological Game AgenTs),确保了心理学测试场景的泛化性,与不同游戏设置下测量的鲁棒性。
- 通过自动化仿真评估与真人评估,在MBTI人格测试,PHQ-9抑郁测量,认知思维陷阱测试等任务上,该研究在心理测量学统计学指标和用户体验感指标上均展现出了显著的优越性。
接下来,我们一起来看看该研究的细节。
PsychoGAT长啥样?
△PsychoGAT框架示意图
智能体交互流程:
给定一个传统的心理学测试问卷,参与者自定义游戏类型和主题,然后由游戏设计师(Game Designer)智能体给出整体的游戏设计大纲。
然后,游戏管理员(Game Controller)智能体生成一个具体的游戏情节,在这个过程中评论员(Critic)智能体会对管理员生成内容进行多轮的审核与优化;优化完成后的游戏情节会被展现给参与者,参与者做出相应的选择后,管理员基于此选择推动剧情发展,按照这样的交互过程循环。
各智能体职能详述:
- 游戏设计师(Game Designer):利用CoT技术,生成第一人称叙事游戏的大纲,并保证这个故事线中所包含的情景,能够使得参与者表现出当前测量的心理特质。
与此同时,将标准的心理学自我报告问卷,根据当前游戏故事线进行改编,使两者的融合更为自然流畅。
- 游戏管理员(Game Controller):将改编后的问卷,按照游戏的故事线,依次进行实例化,变成故事的情节节点,并提供可能的选项,供参与者进行选择。
与此同时,游戏管理员将参与者的选择返回给游戏环境,并基于参与者的选择,控制游戏的剧情走向。为了实现游戏情节的连贯性,管理员智能体采用“记忆更新”机制。
- 评论员(Critic):旨在对游戏管理员的生成内容进行审核与优化。
主要针对以下三个问题:
1)优化一致性:随着游戏剧情推进,长文本问题会变得更加严重,使得“记忆更新”机制也无法完全保证情节一致性。
2)确保无偏性:参与者的选择会影响游戏情节的发展,但在参与者不做出选择之前,管理员不应该预设情节走向,即便之前的选择中参与者体现出了明显的倾向性。
3)改正漏缺项:对管理员生成的游戏情节进行细节审核,检查其是否具备基础的游戏沉浸感。
实验及结果
△三种常见心理学测量范式的对比:传统问卷,心理学家会谈,以及该研究提出的游戏化测评。
此处提到的均为基于AI的自动化测量,特别的,心理学家会谈,指目前与大语言模型结合的,由大语言模型扮演心理学家的会谈范式。
实验阶段,研究人员选择了三个常见的心理学测量任务:MBTI人格测试中的外倾性,PHQ-9抑郁检测,以及CBT疗法中前期的认知扭曲检测。
首先,研究人员和成熟的传统心理学问卷进行对比,旨在检验该研究的心理测量信度和效度。进一步,和其他三种自动化测量方法进行对比,检验不同测量方法的用户体验。
研究人员首先使用GPT-4模拟被测者,在不同的测量方法上记录测量过程与测量结果。这些测量记录被用于计算后续心理测量学信效度指标,以及用户体验感指标。
评价指标有两个:信效度指标和用户体验感指标。
- 信效度指标:心理测量学上,评价一个测量工具是否具有科学性,一般从信度(reliability)和效度(validity)两个维度进行验证。
在该研究中,信度的指标选择了两个统计学量来衡量内部一致性:Cronbach’s Alpha和Guttman’s Lambda 6;效度的指标采用皮尔森系数,分别衡量聚合效度(convergent validity)和区分效度 (discriminant validity)。
- 用户体验感指标,人工评估的指标包括:
1)一致性(Coherence, CH):内容逻辑是否连贯;
2)交互性(Interactivity, IA):是否对用户的选择有恰当且无偏的回应;
3)趣味性(Interest, INT):测量过程是否有趣;
4)沉浸感(Immersion, IM):测量过程是否让参与者沉浸代入;
5)满意度(Satisfaction, ST):整体测量过程的满意度。
下面是实验结果。
首先研究人员检验了该研究提出的PsychoGAT能够作为一个合格的心理学测量工具,结果如下表所示。
△PsychoGAT的信效度检验结果(+通过,++良好,+++优秀)
进一步,研究人员对比了不同心理测量范式的用户体验感,该研究提出的游戏化测评在交互性、趣味性和沉浸感上都显著优于其他方法:
△PsychoGAT的用户体验感结果,以及其他对比方法的相应结果
为了确保人工评估的有效性,研究人员计算了人工评估结果,在PsychoGAT各指标优于其他方法上的评估一致性:
△PsychoGAT的用户体验感指标由于对比方法在人工评估上的一致性
为了对PsychoGAT做进一步分析,研究人员首先检验了不同游戏场景下,游戏化测量的信效度具有很好鲁棒性:
△PsychoGAT在不同游戏场景下测量信效度的鲁棒性
接着,探究了每一个智能体在PsychoGAT中发挥的作用:
△PsychoGAT不同智能体的作用
最后,为了直观呈现PsychoGAT的游戏生成内容,研究人员用词云可视化了人格外倾性测试和抑郁测试:
△PsychoGAT在外倾性测量和抑郁测量的游戏场景生成可视化。
外倾性测试的内容主要集中在社交场景,而抑郁测试倾向于个人思维和情绪。
更多研究细节,可参考原论文。
论文链接:https://www.php.cn/link/4bcd537b6c034e297f0030cf08887426
以上是用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的
