人工智能能够像人类一样展现创造力吗?
创造力是人类的一种独特的能力,它使我们能够创造出新颖、有价值、有意义的作品,如艺术、文学、科学、技术等。创造力也是人类社会的一种重要的驱动力,它促进了文化、经济、教育等领域的发展和进步。创造力到底是什么?它是如何产生的?它又如何被评估和提升的?这些问题一直困扰着心理学家、认知科学家、哲学家等多个学科的研究者。随着人工智能(AI)技术的飞速发展,这些问题也引起了AI领域的关注。AI是否可以像人类一样有创造力?如果可以,那么如何定义、度量和培养AI的创造力?这些问题不仅具有理论的意义,也具有实践的价值,因为AI的创造力将影响AI在各个领域的应用和发展。
科技学术论坛arxiv.org于1月3日发表了最新的论文《Can AI Be as Creative as Humans?》,该论文由来自美国、英国、新加坡等国家的多位知名的AI研究者共同撰写,该论文是对AI创造力的一次深入的探索,提出了一种新颖的创造力评估的范式,即相对创造力(Relative Creativity),并建立了一个可量化的创造力框架,即统计创造力(Statistical Creativity)。该论文不仅推进了理论的讨论,而且提供了评估和提升AI创造潜力的实用工具和方法。该论文的主要贡献和创新点如下:
提出了相对创造力的概念,将AI系统的创造力评估从绝对的标准转变为与特定的人类创造者的比较,从而认识到创造过程中的固有主观性,并借鉴了图灵测试(Turing Test)评估智能的比较方法。这一创新方法将AI的创造力与人类的创造力进行比较,使得我们能更好地理解AI系统在创作过程中的表现和能力。通过将主观性纳入评估体系,我们能够更全面地评估AI系统的创造力,并将其与人类创造者进行对比,从而更
为了评估AI的创造力,引入了统计创造力的概念,结合理论构建和实证评估的方法。该方法关注AI是否可以模仿特定人群的创造性输出,从而量化评估AI的创造力,并提升了理论框架的实际适用性。
将统计创造力应用于自回归模型是一种被广泛使用的语言模型技术。这种技术被认为具有一定的创造能力,并且在评估模型的统计创造力方面有了实用的度量标准。特别是在下一个标记预测方面,这种度量标准能够适应当代AI模型的需求,并展现出与技术进步保持同步的潜力。
研究引入了一种名为统计创造力损失(Statistical Creativity Loss)的目标函数,用于训练具有创造力的AI模型。该研究还分析了统计创造力损失的上界,以及它与深度学习中的泛化相关的概念,如Rademacher复杂度、互信息和ε-覆盖数等。这些理论指导和实际措施为培养AI模型的创造能力提供了重要的帮助。
01 相对创造力的概念和定义
创造力是一种难以定义和度量的能力,因为它涉及到主观的、情境的、多维的和动态的因素。对于什么是创造力,什么是有创造力的作品,可能有不同的看法和标准。因此要给创造力一个绝对的定义,或者给AI系统一个绝对的创造力评估,是不现实的,也是不公平的。作者认为,创造力的评估应该是相对的,而不是绝对的,即应该根据不同的人类创造者的水平和特点,来比较AI系统的创造力。这样创造力的评估就不再是一个静态的、固定的、单一的标准,而是一个动态的、灵活的、多样的过程,能够更好地反映创造力的本质和多样性。
作者提出了相对创造力(Relative Creativity)的概念,将其定义为:一个AI系统被认为具有相对创造力,如果它能够根据给定的人类创造者的生平信息,生成与该创造者的作品无法区分的作品,那么AI系统就可以被认为与该创造者一样有创造力。相对创造力的“相对性”体现在它取决于被比较的个体的不同。例如,一个AI系统可能在与一个非专家的人类创造者比较时显得非常有创造力,但在与一个专家的设计师或艺术家比较时显得不那么有创造力。相对创造力也承认创造力的主观性,例如原创性、发散性思维和解决问题的技能,这些因素都被融入到锚定人类创造者的选择过程中。由于创造力的评估是基于人类的视角的,因此相对创造力的概念也受到了图灵测试(Turing Test)的启发,这是一种评估AI智能的比较方法,通过判断AI系统是否能够与人类进行无法区分的对话。
图片
图 1: 相对创造力和统计创造力的说明。 在图1中,我们对相对创造力(a)和统计创造力(b)进行了解释。相对创造力指的是评估人工智能在创造艺术方面的能力,与假设的人类创作者相比几乎没有区别,同时考虑到相同的传记影响。而统计创造力则是通过衡量人工智能生成的创作与现有人类创作者无法区分的能力来进行评估,这种衡量是通过分布距离度量来确定的。
相对创造力与图灵测试有一些相似之处,但也有一些区别。相似之处在于,它们都是基于人类的视角,通过比较AI系统和人类的表现,来评估AI系统的能力。区别在于,图灵测试的目标是评估AI系统的智能,而相对创造力的目标是评估AI系统的创造力。智能和创造力是两个不同的维度,它们可能有一些重叠,但也有一些差异。例如,一个AI系统可能很聪明,但不一定很有创造力,反之亦然。另一个区别在于,图灵测试的评估是基于对话的,而相对创造力的评估是基于作品的。对话是一种交互的、动态的、实时的过程,而作品是一种静态的、固定的、延迟的结果。因此,相对创造力的评估可能更加困难,因为它需要考虑更多的因素,如作品的风格、内容、质量、原创性等。作者认为,相对创造力是一种更加全面和深入的创造力评估方法,它不仅考虑了AI系统的表现,而且考虑了人类创造者的背景和特点。
02 统计创造力的概念和定义
相对创造力的概念虽然具有启发性,但是它还缺乏一个可操作的评估方法。为了弥补这一缺陷,作者引入了统计创造力(Statistical Creativity)的概念,将其定义为:一个AI系统被认为具有统计创造力,如果它能够在给定一个人类创造者群体的情况下,生成与该群体的创造性输出无法区分的输出,那么AI系统就可以被认为与该群体一样有创造力。统计创造力的“统计性”体现在它基于可观察的数据,而不是抽象的标准,来评估AI系统的创造力。
图片
作者提出了一个统计创造力的度量,即E0(q),它是一个经验的度量,用来估计一个AI模型和一个人类创造者群体的创造能力之间的不可区分性。E0(q)的值越低,表示AI模型越能够模仿该群体的创造能力。作者还给出了一个统计创造力的定理,明确了一个AI模型能够被归类为具有δ-创造力的条件,即E0(q)
03 自回归模型的统计创造力的度量和应用
自回归模型是一种常见的大型语言模型(LLMs)技术,它通过基于前文的概率分布来预测下一个标记,从而生成连贯的文本序列。自回归模型被认为具有一定程度的创造能力,因为它们能够生成新颖的文本,如诗歌、故事、代码等。然而如何评估和提升自回归模型的创造力,仍然是一个开放的问题。作者将统计创造力的概念应用于自回归模型,提出了一个针对下一个标记预测的统计创造力的度量,即E1(q),它是一个经验的度量,用来估计一个自回归模型和一个人类创造者群体的创造能力之间的不可区分性。E1(q)的值越低,表示自回归模型越能够模仿该群体的创造能力。
图片
作者还给出了一个自回归模型的统计创造力的定理,明确了一个自回归模型能够被归类为具有δ-创造力的条件,即E1(q)
下一个标记预测是自回归模型的核心技术,它决定了模型生成的文本序列的质量和多样性。下一个标记预测的难度取决于给定的上下文,以及目标的标记的可能性。如果上下文是清晰和具体的,那么下一个标记的预测就比较容易,因为有一些标记是比较合理和常见的。例如,如果上下文是“我喜欢吃”,那么下一个标记可能是“苹果”、“面包”、“饺子”等。但是,如果上下文是模糊和抽象的,那么下一个标记的预测就比较困难,因为有很多标记都是可能的,而且没有明显的优势。例如,如果上下文是“我想要”,那么下一个标记可能是“旅行”、“学习”、“睡觉”等。在这种情况下,自回归模型需要有更强的创造力,才能生成有意义和有趣的文本序列。
下一个标记预测的重要性在于它反映了自回归模型的创造力的水平,以及它与人类创造者的创造力的相似性。如果一个自回归模型能够在不同的上下文下,生成与人类创造者的作品无法区分的下一个标记,那么它就表现出了与人类创造者一样的创造力。这种创造力的评估可以通过统计创造力的度量,如E1(q),来进行。作者认为,这种评估方法是一种更加客观和科学的方法,它不依赖于人类的主观判断,而是基于数据和概率的计算。作者的研究为自回归模型的创造力提供了一个新的视角和方法,有助于提高模型的生成能力和质量。
04 基于提示的大型语言模型的统计创造力的度量和应用
基于提示的大型语言模型(prompt-conditioned large language models,LLMs)是一种前沿的模型范式,能够利用提示(prompts)来解锁模型的潜在能力。提示是一种向模型提供输入和输出格式的方法,可以用来指导模型完成不同的任务,如文本分类、文本生成、文本摘要等。提示的作用类似于人类的启发,可以激发模型的创造力和灵活性。然而,如何评估和提升基于提示的LLMs的创造力,仍然是一个开放的问题。作者将统计创造力的概念应用于基于提示的LLMs,提出了一个针对不同的上下文提示的统计创造力的度量,即E2(q),它是一个经验的度量,用来估计一个基于提示的LLM和一个人类创造者群体的创造能力之间的不可区分性。E2(q)的值越低,表示基于提示的LLM越能够模仿该群体的创造能力。作者还给出了一个基于提示的LLM的统计创造力的推论,明确了一个基于提示的LLM能够被归类为具有δ-创造力的条件,即E2(q)
05 统计创造力损失的定义和优化方法
统计创造力损失(Statistical Creativity Loss)是一个可优化的目标函数,用于训练具有创造力的AI模型。它是基于统计创造力的度量,如E0(q)、E1(q)或E2(q),来定义的。统计创造力损失的值越低,表示AI模型越能够模仿人类创造者群体的创造能力。作者提出了一个统计创造力损失的上界,公式(2),以及它与深度学习中的泛化(generalization)相关的概念,如Rademacher复杂度(Rademacher complexity)、互信息(mutual information)和ε-覆盖数(ε-covering number)等。作者分析了统计创造力损失的上界与下一个标记预测的对数似然(log-likelihood)的关系,以及达到统计创造力所需的创造者-作品数据的数量。作者的发现强调了创造者-作品对的多样性的重要性,而不仅仅是拥有大量的创造数据。这一见解使得统计创造力的概念在基于下一个标记预测的当前AI框架中特别适用。作者的研究不仅提供了理论视角,还引导了AI创造力的讨论,倡导使用相对评估来促进实证研究,建立一个评估和提升AI模型创造能力的框架。
06 相关工作
作者最后回顾了之前关于创造力的定义和应用的相关工作,主要涉及视觉和语言两个领域。作者指出,虽然有许多研究试图在生成模型中应用创造力的元素,但没有直接定义创造力或直接优化它。相反,作者的研究旨在建立一个创造力的理论基础,这个框架自然地包含了之前关于生成的多样性和质量的见解。作者期待他们的贡献能够为未来的研究奠定基础,指导模型创造力的提升。
在视觉领域,创造性的图像生成模型已经取得了显著的发展,引发了关于机器能否产生创造性艺术的问题。Hertzmann (2018) 深入探讨了这一问题,强调了计算机图形学和艺术创新之间的交叉点。Xu et al. (2012a) 提出了一种创造性的三维建模方法,能够根据用户的偏好生成多样的模型。生成对抗网络(GANs)(Goodfellow et al., 2014) 被 Elgammal et al. (2017) 用来驱动创造独特的艺术风格,通过最大化与已知风格的偏差。Sbai et al. (2018) 进一步增加了这种偏差,鼓励模型与训练集的风格不同。创造性的生成也可以被视为一种组合的过程,Ge et al. (2021) 和 Ranaweera (2016) 强调了细节元素的整合的重要性。Vinker et al. (2023) 在此基础上,将个性化的概念分解为视觉元素,用于创新的重组,丰富了创造性的输出。
在语言领域,语言模型的发展也促使研究者探索如何优化数据的使用,以提高模型在不同的领域、任务和语言中的适应性 (Gururangan et al., 2020; Devlin et al., 2019; Conneau et al., 2020)。研究者们也表现出了利用语言模型来解读人类交流中的细微差别的倾向 (Schwartz et al., 2013; Wu et al., 2022)。这种洞察力也被用来改进分类模型 (Hovy, 2015; Flek, 2020)。随着生成模型的日益普及,人们也对可控制的文本生成感兴趣,即模型的输出必须满足一些约束,如礼貌 (Saha et al., 2022; Sennrich et al., 2016)、情感 (Liu et al., 2021; Dathathri et al., 2019; He et al., 2020) 或其他风格约束。最后,文本风格转换(TST),即将输入文本的风格转换为一个设定的目标风格,也成为了一个热门的任务。风格可以指一系列不同的文本和作者特定的特征,如礼貌 (Madaan et al., 2020)、正式度 (Rao and Tetreault, 2018; Briakou et al., 2021)、简单度 (Zhu et al., 2010; van den Bercken et al., 2019; Weng et al., 2019; Cao et al., 2020)、作者 (Xu et al., 2012b; Carlson et al., 2018)、作者性别 (Prabhumoye et al., 2018) 等 (Jin et al., 2022)。虽然所有这些应用都试图在生成模型中应用创造力的元素,但没有直接定义创造力或直接优化它。相反,它们的重点是提高模型在预定义的任务上的表现,作为创造力的代理。与之相反,作者的研究以建立创造力的理论基础为目标。这个框架自然地包含了之前关于生成的多样性和质量的见解。作者期待他们的贡献能够为未来的研究奠定基础,指导模型创造力的提升。
参考资料:https://arxiv.org/abs/2401.01623
以上是人工智能能够像人类一样展现创造力吗?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

今天我想分享一个最新的研究工作,这项研究来自康涅狄格大学,提出了一种将时间序列数据与自然语言处理(NLP)大模型在隐空间上对齐的方法,以提高时间序列预测的效果。这一方法的关键在于利用隐空间提示(prompt)来增强时间序列预测的准确性。论文标题:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下载地址:https://arxiv.org/pdf/2403.05798v1.pdf1、问题背景大模型

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP
