​Anthropic 耗资数百万美元购置巨量图书用于训练Claude并最终“销毁”

​Anthropic 耗资数百万美元购置巨量图书用于训练Claude并最终“销毁”

4.8
0热度

近日,人工智能公司 Anthropic 因其独特的图书数字化方式引发了公众关注。据外媒 Ars Technica 报道,Anthropic 为了训练其 AI 助手 Claude,花费了数百万美元购入大量实体图书,并采用拆解和扫描的方式将其转化为数字文件。经过这一过程后,原书籍则被直接丢弃。法庭文件披露,Anthropic 在2024年2月雇佣了 Tom Turvey,他曾参与 Google Boo

近日,人工智能公司 Anthropic 因其独特的图书数字化方式引发了公众关注。据外媒 Ars Technica 报道,Anthropic 为了训练其 AI 助手 Claude,花费了数百万美元购入大量实体图书,并采用拆解和扫描的方式将其转化为数字文件。经过这一过程后,原书籍则被直接丢弃。

Claude2,Anthropic,人工智能,聊天机器人 
 克劳德

法庭文件披露,Anthropic 在2024年2月雇佣了 Tom Turvey,他曾参与 Google Books 项目的相关事务,负责 “获取全世界的图书”。这一举动显然是希望借鉴谷歌在图书数字化过程中被法院认定为合理使用的模式。

法官 William Alsup 在裁定中认为,Anthropic 的扫描方式构成合理使用,因为这些书籍是合法购买的,且在扫描后立即被销毁,数字文件仅供内部使用,未向外传播。他指出,这种转换可以被视为 “节省空间” 的数字化处理,具有合理使用中的 “转化性” 特征。不过,早期的盗版行为对其合法性造成了一定影响。

AI 训练需要大量优质文本数据,构建大语言模型需要将亿万词语输入神经网络,以建立词语与概念之间的关系。数据的质量直接影响模型输出的准确性,因此,许多 AI 公司急需获取高质量的出版内容,而通常不愿意耗费时间进行授权谈判。

美国的 “首次销售原则” 允许购买者在拥有实体书后自行处理,使得购买图书成为一种合法的 “绕道方案”。然而,Anthropic 最初也选择了绕过版权的问题,甚至有时使用盗版电子书。经过法律考虑后,该公司开始寻求更为安全的替代方案,最终决定收购二手书,以获取高质量的训练文本并简化授权过程。

为了加快数字化进程,Anthropic 采用了 “破坏式扫描” 的方式,大量购入书籍,拆封、裁剪并整批扫描成机器可读的 PDF 文件,整个过程耗资数百万美元。尽管目前非破坏性扫描技术已经成熟,比如 Internet Archive 开发的可保留原书的数字化手段,但 Anthropic 选择的方式仍然引起了广泛的讨论。

划重点:

📚 Anthropic 花费数百万美元购买实体书,并通过拆解和扫描将其转化为数字文件,用于训练 AI 助手 Claude。  

⚖️ 法官裁定其扫描方式构成合理使用,因为书籍是合法购买并在扫描后销毁。  

🔄 AI 训练需要大量优质文本数据,Anthropic 通过 “破坏式扫描” 加速图书数字化进程。

首页 发现
看过 我的