谷歌承认:即使网站选择退出，仍用搜索数据训练 AI

AIbase基地

Published 11569 Articles

科技巨头谷歌在近日的一场联邦反垄断审判中承认，即使网站出版商明确选择不让其内容用于人工智能模型训练，谷歌仍会利用其搜索引擎收集的数据进行 AI 训练，包括备受争议的 AI Overviews 功能。

这一承认由谷歌旗下人工智能实验室 DeepMind 的副总裁伊莱·柯林斯在作证时做出。司法部律师戴安娜·阿吉拉尔在质询中指出，即使出版商选择不让 DeepMind 使用其数据进行大型语言模型训练，这些相同的数据仍然会被谷歌搜索部门用于其自身的人工智能项目。

阿吉拉尔援引一份2024年的内部文件显示，谷歌已收集了高达1600亿个文本单元用于人工智能训练。尽管其中一半（800亿个）据称因出版商的选择退出而被删除，但柯林斯的证词表明，这800亿个文本单元仍在谷歌内部用于人工智能训练，只是不再用于 DeepMind。

更令人担忧的是，谷歌为网站提供的唯一阻止其人工智能抓取内容的方法，竟然是彻底从谷歌搜索引擎的索引中移除。对于任何依赖网络流量的网站而言，这几乎等同于“死刑”，根本不构成真正的选择。

谷歌方面暗示，这种做法仅仅是广泛使用的“robots.txt”文件的工作方式所致。该文件用于指示网络爬虫可以访问网站的哪些部分，而这些爬虫既服务于搜索引擎的数据收集，也服务于当前的人工智能训练。谷歌发言人在一份声明中表示，公司通过完善的网络标准 robots.txt，为出版商提供了管理其在搜索中内容的方式。

值得注意的是，去年一名联邦法官已裁定谷歌在搜索引擎市场存在非法垄断，滥用其主导地位排挤竞争对手并抬高广告价格。目前，监管机构正在考虑如何打破这一垄断，可能的措施包括迫使谷歌出售 Chrome 浏览器、禁止其与其他公司签订默认搜索引擎协议，或强制其共享部分数据。

此次审判的新进展进一步凸显了谷歌如何利用其在美国高达90% 的搜索引擎市场份额，通过其人工智能计划实现自身目标。如果网站避免其内容被谷歌人工智能抓取的唯一途径是放弃在谷歌搜索结果中的展示，从而切断与绝大部分网络用户的联系，这无疑为谷歌的垄断行为再添一项证据。教育网站 Chegg 近期也提出了类似的指控，声称谷歌利用其垄断地位迫使其免费提供内容以训练人工智能工具。