目录
隐私
偏见、毒性、错误信息
知识产权 (IP)
结语
首页 科技周边 人工智能 游走在法律边缘的「图像生成技术」:这篇论文教你避免成「被告」

游走在法律边缘的「图像生成技术」:这篇论文教你避免成「被告」

Apr 11, 2023 pm 02:55 PM
ai 技术

近年来,AI生成内容(AIGC)备受瞩目,其内容涵盖图像、文本、音频、视频等,不过AIGC俨然已成为一把双刃剑,因其不负责任的使用而备受争议。

图像生成技术一旦用不好,就可能成「被告」

最近来自Sony AI和智源的研究人员从多个方面探讨了AIGC当下的问题,以及如何让AI生成的内容更负责。

图片

论文链接:https://arxiv.org/pdf/2303.01325.pdf

本文关注可能阻碍AIGC健康发展的三个主要问题,包括:(1)隐私;(2)偏见、毒性、错误信息;(3)知识产权(IP)的风险。

图片

通过记录已知和潜在的风险,以及任何可能的AIGC滥用场景,本文旨在引起人们对AIGC潜在风险和滥用的关注,并提供解决这些风险的方向,以促进AIGC朝着更符合道德和安全的方向发展,从而造福社会。

隐私

众所周知,大型基础模型存在一系列隐私泄露的问题。

先前的研究表明,入侵者可以从经过训练的GPT-2模型中生成序列,并从训练集中识别出那些被记忆的序列,[Kandpal et al., 2022] 将这些隐私入侵的成功归因于训练集中存在的重复数据,研究已经证明,出现多次的序列比只出现一次的序列更有可能被生成。

由于 AIGC 模型是在大规模网络抓取的数据上进行训练,因此过度拟合和隐私泄露问题变得尤为重要。

例如,Stable Diffusion 模型记忆了训练数据中的重复图像 [Rombach et al., 2022c]。[Somepalli et al., 2022] 证明了 Stable Diffusion 模型公然从其训练数据中复制图像,并生成训练数据集中前景和背景对象的简单组合。

图片

此外,该模型还会显示出重建记忆的能力,从而生成语义上与原始对象相同但像素形式不同的对象。此类图像的存在引起了对数据记忆和所有权的担忧。

同样,最近的研究显示,Google的Imagen系统也存在泄露真人照片和受版权保护图像的问题。在Matthew Butterick最近的诉讼中 [Butterick, 2023],他指出由于系统中所有的视觉信息都来自于受版权保护的训练图像,因此生成的图像无论外观如何,都必然是来自于这些训练图像的作品。

类似地,DALL·E 2也遇到了类似的问题:它有时会从其训练数据中复制图像,而不是创建新的图像。

OpenAI发现这种现象的发生是因为图像在数据集中被多次复制,类似地,ChatGPT自己也承认了其存在隐私泄露的风险。

图片

为了缓解大型模型的隐私泄露问题,许多公司和研究人员都在隐私防御方面进行了大量努力。在产业层面,Stability AI已经认识到Stable Diffusion存在的局限性。

为此,他们提供了一个网站(https://rom1504.github.io/clip-retrieval/)来识别被Stable Diffusion记忆的图像。

此外,艺术公司Spawning AI创建了一个名为「Have I Been Trained」的网站(https://haveibeentrained.com),以帮助用户确定他们的照片或作品是否被用于人工智能训练。

图片

OpenAI试图通过减少数据重复来解决隐私问题。

此外,微软和亚马逊等公司已经禁止员工与ChatGPT共享敏感数据,以防止员工泄露机密,因为这些信息可用于未来版本的ChatGPT的训练。

在学术层面,Somepalli等人研究了图像检索框架来识别内容重复,Dockhorn等人也提出了差分隐私扩散模型来保证生成模型的隐私。

偏见、毒性、错误信息

AIGC 模型的训练数据来自真实世界,然而这些数据可能无意中强化有害的刻板印象,排斥或边缘化某些群体,并包含有毒的数据源,这可能会煽动仇恨或暴力并冒犯个人 [Weidinger et al., 2021]。

在这些有问题的数据集上进行训练或微调的模型可能会继承有害的刻板印象、社会偏见和毒性,甚至产生错误信息,从而导致不公平的歧视和对某些社会群体的伤害。

例如,Stable Diffusion v1 模型主要在 LAION-2B 数据集上进行训练,该数据集仅包含带有英文描述的图像。因此,该模型偏向于白人和西方文化,其他语言的提示可能无法充分体现。

虽然 Stable Diffusion 模型的后续版本在 LAION 数据集的过滤版本上进行了微调,但偏见问题仍然存在。同样,DALLA·E, DALLA·E 2和 Imagen也表现出社会偏见和对少数群体的负面刻板印象。

此外,即使在生成非人类图像时,Imagen 也被证明存在社会和文化偏见。由于这些问题,谷歌决定不向公众提供Imagen。

为了说明 AIGC 模型固有的偏见,我们对 Stable Diffusion v2.1 进行了测试,使用「草原上奔跑的三名工程师」这个提示生成的图片全部为男性,并且都不属于被忽视的少数民族,这说明生成的图片缺乏多样性。

图片

此外,AIGC模型还可能会产生错误的信息。例如,GPT及其衍生产品生成的内容可能看似准确且权威,但可能包含完全错误的信息。

因此,它可能在一些领域(比如学校、律法、医疗、天气预报)中提供误导的信息。例如,在医疗领域,ChatGPT提供的有关医疗剂量的答案可能不准确或不完整,这可能会危及生命。在交通领域,如果司机都遵守ChatGPT给出的错误的交通规则,可能会导致事故甚至死亡。

针对存在问题的数据和模型,人们已经做出了许多防御措施。

OpenAI通过精细过滤原始训练数据集,并删除了DALLA·E 2训练数据中的任何暴力或色情内容,然而,过滤可能会在训练数据中引入偏见,然后这些偏见会传播到下游模型。

为了解决这个问题,OpenAI开发了预训练技术来减轻由过滤器引起的偏见。此外,为确保AIGC模型能够及时反映社会现状,研究人员必须定期更新模型使用的数据集,将有助于防止信息滞后而带来的负面影响。

值得注意的是,尽管源数据中的偏见和刻板印象可以减少,但它们仍然可能在AIGC模型的训练和开发过程中传播甚至加剧。因此,在模型训练和开发的整个生命周期中,评估偏见、毒性和错误信息的存在至关重要,而不仅仅停留在数据源级别。

知识产权 (IP)

随着AIGC的迅速发展和广泛应用,AIGC的版权问题变得尤为重要。

2022年11月,Matthew Butterick对微软子公司GitHub提起了一起集体诉讼,指控其产品代码生成服务Copilot侵犯了版权法。对于文本到图像模型,一些生成模型被指控侵犯了艺术家的作品原创权。

[Somepalli et al., 2022]表明,Stable Diffusion生成的图片可能是从训练数据中复制而来。虽然Stable Diffusion否认对生成图像拥有任何所有权,并允许用户在图像内容合法且无害的情况下自由使用它们,但这种自由仍然引发了有关版权的激烈争议。

像Stable Diffusion这样的生成模型是在未经知识产权持有人授权的情况下,对来自互联网的大规模图像进行训练的,因此,一些人认为这侵犯了他们的权益。

为了解决知识产权问题,许多AIGC公司已经采取了行动。

例如,Midjourney已经在其服务条款中加入了DMCA删除政策,允许艺术家在怀疑侵犯版权时请求将他们的作品从数据集中删除。

同样,Stability AI计划为艺术家提供一种选项,即将自己的作品从Stable Diffusion未来版本的训练集中排除。此外,文本水印 [He et al., 2022a; He et al., 2022b] 也可以用于识别这些 AIGC 工具是否未经许可使用其他来源的样本。

例如,Stable Diffusion 生成了带有 Getty Images 水印的图像 [Vincent, 2023]。

OpenAI 正在开发水印技术去识别由 GPT 模型生成的文本,教育工作者可以使用该工具来检测作业是否存在剽窃行为。谷歌也已经为其发布的图像应用了 Parti 水印。除了水印之外,OpenAI 最近还发布了一个分类器,用于区分人工智能生成的文本和人类编写的文本。

结语

尽管 AIGC 目前仍处于起步阶段,但其正在迅速扩张,并将在可预见的未来保持活跃。

为了让用户和公司充分了解这些风险并采取适当的措施来缓解这些威胁,我们在本文中总结了 AIGC 模型中当前和潜在的风险。

如果不能全面了解这些潜在风险并采取适当的风险防御措施和安全保障,AIGC 的发展可能面临重大挑战和监管障碍因此,我们需要更广泛的社区参与为负责任的 AIGC 做出贡献。

最后的最后,感谢SonyAI和BAAI!

以上是游走在法律边缘的「图像生成技术」:这篇论文教你避免成「被告」的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

2025年币圈十大虚拟币app交易所最新排行榜 2025年币圈十大虚拟币app交易所最新排行榜 Mar 27, 2025 pm 07:27 PM

2025年十大虚拟币交易App排行榜如下:1. OKX,2. Binance,3. Gate.io,4. Bybit,5. Kraken,6. KuCoin,7. Bitget,8. HTX,9. MEXC,10. Coinbase。该排行榜基于安全性、流动性、用户体验和功能丰富度等综合评测得出。

十大数字虚拟货币交易所app榜单汇总2025年 十大数字虚拟货币交易所app榜单汇总2025年 Mar 27, 2025 pm 07:18 PM

2025年十大数字虚拟币交易App排行榜如下:1. OKX,2. Binance,3. Gate.io,4. Bybit,5. Kraken,6. KuCoin,7. Bitget,8. HTX,9. MEXC,10. Coinbase。该排行榜基于安全性、流动性、用户体验和功能丰富度等综合评测得出。

哪些交易所发布pi消息 哪些交易所发布pi消息 Mar 28, 2025 pm 03:33 PM

Pi Network尚未在主流交易所正式上线交易。截至2024年,Pi仍处于封闭主网阶段,仅部分中小型交易所提供IOU交易,官方未授权任何交易,建议通过官方渠道挖矿并等待主网开放后在合规交易所交易。

安全好用的虚拟币交易所平台top10 安全好用的虚拟币交易所平台top10 Mar 27, 2025 pm 07:06 PM

2025年十大虚拟币交易App排行榜如下:1. OKX,2. Binance,3. Gate.io,4. Bybit,5. Kraken,6. KuCoin,7. Bitget,8. HTX,9. MEXC,10. Coinbase。该排行榜基于安全性、流动性、用户体验和功能丰富度等综合评测得出。

如何在Node.js环境中解决第三方接口返回403的问题? 如何在Node.js环境中解决第三方接口返回403的问题? Mar 31, 2025 pm 11:27 PM

在Node.js环境中解决第三方接口返回403的问题当我们在使用Node.js调用第三方接口时,有时会遇到接口返回403错误�...

哪些交易所支持heco 哪些交易所支持heco Mar 28, 2025 pm 03:36 PM

截至2024年,仍支持Heco链或Heco代币的主要交易所有:1. HTX(原火币Huobi),官方支持Heco链USDT和代币交易;2. MDEX,基于Heco的DEX,支持Heco链代币交易;3. Gate.io,支持部分Heco链代币的充提;4. KuCoin,部分Heco链代币仍可交易;5. 去中心化交易所如PancakeSwap和Uniswap,需跨链交易,注意Heco链流动性低且项目迁移情况。

在 Laravel 中,如何处理邮件发送验证码失败的情况? 在 Laravel 中,如何处理邮件发送验证码失败的情况? Mar 31, 2025 pm 11:48 PM

Laravel邮件发送验证码失败时的处理方法在使用Laravel...

如何在系统重启后自动设置unixsocket的权限? 如何在系统重启后自动设置unixsocket的权限? Mar 31, 2025 pm 11:54 PM

如何在系统重启后自动设置unixsocket的权限每次系统重启后,我们都需要执行以下命令来修改unixsocket的权限:sudo...

See all articles