OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
在生成式 AI 盛行的全新时代,大型科技公司在使用在线内容时正在奉行「照我说的做,而不是做我所做的」策略。在一定程度上,这种策略可以说是一种双标以及话语权的滥用。
同时,随着大语言模型(LLM)成为 AI 发展的主流趋势,无论是大型还是初创公司,都在不遗余力地开发自己的大模型。其中训练数据是大模型能力好坏的重要前提。
近日,根据 Insider 的报道,微软支持的 OpenAI、谷歌及其支持的 Anthropic 多年来一直在使用其他网站或公司的在线内容来训练他们的生成式 AI 模型。这些都是在没有征求具体许可的情况下完成的,并将构成一场酝酿中的法律斗争的一部分,决定了网络的未来以及版权法在这一新时代的应用方式。
这些大型科技公司可能会争辩说他们是合理使用,是否真的如此有待商榷。但是他们却不会让自己的内容被用来训练其他 AI 模型。所以不禁要问,为什么这些大型科技公司却能在训练大模型时使用其他公司的在线内容呢?
这些公司很聪明,但也非常虚伪
大型科技公司使用他人在线内容却不允许他人使用自己的,这种说法是否有确切证据,这可以从他们一些产品的服务和使用条款中看出端倪。
首先来看 Claude,它是 Anthropic 推出的类似于 ChatGPT 的 AI 助手。该系统可以完成摘要总结、搜索、协助创作、问答、编码等任务。前段时间再次升级,将上下文 token 扩展到了 100k,处理速度大大加快。
Claude 的服务条款是这样的。你不得以下列方式(这里列举出部分)访问或使用本服务,如果这些限制的任何一项与可接受使用政策不一致或不明确,则以后者依从为先:
- 开发与我们的服务竞争的任何产品或服务,包括开发或训练任何 AI 或机器学习算法或模型
- 未经条款允许,从我们的服务中抓取、爬取或以任何其他方式获取数据或信息
Claude 服务条款地址:https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms
同样地,谷歌的生成式 AI 使用条款也是如此,「你不得使用本服务来开发机器学习模型或相关技术。」
谷歌生成式 AI 使用条款地址:https://policies.google.com/terms/generative-ai
OpenAI 的使用条款又怎样呢?与谷歌类似,「你不得使用本服务的输出来开发与 OpenAI 竞争的模型。」
OpenAI 使用条款地址:https://openai.com/policies/terms-of-use
这些公司很聪明,他们知道高质量的内容对于训练新的 AI 模型至关重要,所以不允许别人用这样的方式使用他们的输出也是合情合理的。但他们却无所顾忌地利用他人数据来训练自己的模型,这又该如何解释呢?
目前,OpenAI、谷歌和 Anthropic 拒绝了 Insider 的置评请求,并且没有做出任何回应。
Reddit、推特和其他公司:受够了
实际上,其他公司意识到正在发生的事情时并不高兴。今年 4 月,多年来一直被用于 AI 模型训练的 Reddit 计划开始对其数据的访问收费。
Reddit 首席执行官 Steve Huffman 表示,「Reddit 的数据语料库非常有价值,因此我们不能把这些价值免费提供给世界上最大的公司。」
同样今年 4 月,马斯克指责 OpenAI 的主要支持者微软非法使用 Twitter 的数据来训练 AI 模型。「诉讼时间到」,他在推特上写道。
不过在回复 Insider 的置评时,微软表示「这个前提有太多的错误,我甚至不知道从何说起。」
OpenAI 首席执行官 Sam Altman 试图通过探索尊重版权的全新 AI 模型来深化这个问题。据 Axios 报道,他于近期表示,「我们正在尝试开发新的模式,如果 AI 系统使用了你的内容,或者使用了你的风格,你就会因此获得报酬。」
Sam Altman
出版商(包括 Insider)都会是既得利益获得者。此外,包括美国新闻集团在内的一些出版商已经在推动科技公司付费使用其内容训练 AI 模型。
目前 AI 模型的训练方式「打破」了网络
有前微软高管表示这一定有问题。微软老将、著名软件开发者 Steven Sinofsky 认为,目前 AI 模型的训练方式「打破」了网络。
Steven Sinofsky
他在推特上写道,「过去,爬取数据是用来换取点击率的。但现在只是用来训练一个模型,没有给创作者、版权所有者带来任何价值。」
也许,随着更多公司的觉醒,生成式 AI 时代这一不均衡的数据使用方式会很快被改变。
以上是OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

币安是全球数字资产交易生态的霸主,其特点包括:1. 日均交易量突破$1500亿,支持500 交易对,覆盖98%主流币种;2. 创新矩阵涵盖衍生品市场、Web3布局和教育体系;3. 技术优势为毫秒级撮合引擎,峰值处理量达140万笔/秒;4. 合规进展持有15国牌照,并在欧美设立合规实体。

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。 WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

支持跨链交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,这些平台通过各种技术支持多链资产交易。

2025年在杠杆交易、安全性和用户体验方面表现突出的平台有:1. OKX,适合高频交易者,提供最高100倍杠杆;2. Binance,适用于全球多币种交易者,提供125倍高杠杆;3. Gate.io,适合衍生品专业玩家,提供100倍杠杆;4. Bitget,适用于新手及社交化交易者,提供最高100倍杠杆;5. Kraken,适合稳健型投资者,提供5倍杠杆;6. Bybit,适用于山寨币探索者,提供20倍杠杆;7. KuCoin,适合低成本交易者,提供10倍杠杆;8. Bitfinex,适合资深玩

在当今的加密货币市场中,交易所扮演着至关重要的角色,它们不仅是投资者进行买卖交易的平台,更是市场流动性和价格发现的重要来源。全球最大的虚拟货币交易所排行前十,这些交易所不仅在交易量上遥遥领先,而且在用户体验、安全性和创新服务方面也各有千秋。排行榜首的交易所通常拥有庞大的用户基础和广泛的市场影响力,它们的交易量和资产种类往往是其他交易所难以企及的。

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议,已为AAVEDAO实现了一个法定人数。AAVE连锁计划(ACI)创始人马克·泽勒(MarcZeller)在X上宣布了这一点,并指出它标志着该协议的新时代。AAVE连锁倡议(ACI)创始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE协议令牌和引入令牌回购,已为AAVEDAO实现了法定人数。根据Zeller的说法,这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议,即在周三以每周100

选择加密货币交易所的建议:1. 流动性需求,优先选择币安、Gate.io或OKX,因其订单深度与抗波动能力强。2. 合规与安全,Coinbase、Kraken、Gemini具备严格监管背书。3. 创新功能,KuCoin的软质押和Bybit的衍生品设计适合进阶用户。

头部交易所包括:1. 币安(Binance),全球最大交易量,支持600 币种,现货手续费0.1%;2. OKX,均衡型平台,支持708交易对,永续合约手续费0.05%;3. Gate.io,覆盖2700 小币种,现货手续费0.1%-0.3%;4. Coinbase,美国合规标杆,现货手续费0.5%;5. Kraken,安全性顶尖,定期储备审计。
