Reddit起诉Anthropic非法抓取数据训练Claude:要求删除所有含Reddit内容的AI模型

Reddit起诉Anthropic非法抓取数据训练Claude:要求删除所有含Reddit内容的AI模型

4.8
0热度

Reddit已在旧金山高等法院对人工智能公司Anthropic提起诉讼,指控其未经许可系统性抓取Reddit帖子训练Claude语言模型,违反平台用户协议和商业使用规定。这起诉讼凸显了AI训练数据获取的法律争议,以及内容平台与AI公司之间日益紧张的关系。Reddit要求法院强制Anthropic删除所有包含Reddit内容的AI模型和数据集,并禁止其将基于Reddit数据训练的AI模型用于商业用途

Reddit已在旧金山高等法院对人工智能公司Anthropic提起诉讼,指控其未经许可系统性抓取Reddit帖子训练Claude语言模型,违反平台用户协议和商业使用规定。

这起诉讼凸显了AI训练数据获取的法律争议,以及内容平台与AI公司之间日益紧张的关系。Reddit要求法院强制Anthropic删除所有包含Reddit内容的AI模型和数据集,并禁止其将基于Reddit数据训练的AI模型用于商业用途。

技术保护措施遭绕过

根据诉讼文件,Anthropic无视Reddit的用户协议规定,绕过了robots.txt文件和基于IP的速率限制等技术保障措施。更关键的是,Anthropic从未连接Reddit的合规API——该工具会在用户删除帖子时通知被许可方,确保相关内容从训练系统中移除。

诉讼显示,Anthropic公开承认在研究中使用Reddit数据,甚至将40多个子版块(包括r/science、r/IAmA和r/relationship_advice)列为训练Claude的"高质量"数据来源。Reddit称,这些数据收集完全未获得同意,违反了平台的保护措施。

Anthropic、克劳德

公开声明与实际行为存在矛盾

最具争议的是Anthropic发言人与实际行为的矛盾。2024年7月,Anthropic发言人声称Reddit自5月起就被列入ClaudeBot黑名单。然而,Reddit内部日志显示,在该声明发布后的几个月内,Anthropic机器人对Reddit服务器的访问次数仍超过10万次。

这一发现直接质疑了Anthropic的公开承诺,成为Reddit诉讼的关键证据。

用户隐私与商业利益双重威胁

Reddit在诉讼中强调,Anthropic的行为既威胁公司商业利益,也危及用户隐私。在缺乏许可证或合规API连接的情况下,无法确认已删除或敏感帖子是否仍嵌入在Claude模型中。

"如果Anthropic等第三方在没有许可协议的情况下抓取Reddit内容,Reddit用户将无法享受公共内容政策和隐私政策的任何保护,部分原因是用户无法知道哪些第三方抓取并获取了他们的数据,"诉讼文件指出。

这一论点触及了AI训练数据使用的核心问题:用户是否有权控制其发布内容的后续使用,特别是在商业AI系统中的应用。

对比:谷歌的合规路径

Reddit特别指出其他AI公司选择了不同的合作路径。据报道,谷歌每年向Reddit支付6000万美元获得训练数据授权,这一合作在近几个月内显著提升了Reddit在谷歌搜索中的曝光度。

这种对比突出了当前AI行业在数据获取方面的分化:一些公司选择付费获得合法授权,而另一些则试图通过技术手段绕过限制。

法律诉求与行业影响

Reddit的诉讼指控Anthropic违约和不正当竞争,寻求赔偿许可收入损失。更重要的是,Reddit要求法院发布禁令,阻止Anthropic继续将Claude或任何基于Reddit数据训练的AI模型用于商业用途。

如果Reddit胜诉,这可能为其他内容平台对AI公司的类似诉讼开创先例,重新定义AI训练数据的合法获取边界。此案结果将直接影响AI行业的数据使用实践和成本结构。

当前的争议反映了AI快速发展与传统版权和隐私保护机制之间的根本性冲突,Reddit诉Anthropic案或将成为确定这一平衡点的关键判例。

首页 发现
看过 我的