AI训练数据

上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上,新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,涵盖文本、图片、音频、视频四大模态,数据总量超过1150万条,音视频时长超过2.6万小时,成为小语种多模态领域的重要资源。“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。它不仅扩充了语种数量,

作者集会抗议Meta盗用作品训练 AI,版权问题引发热议

上周,约100名作家在 Meta 位于伦敦的总部外发起抗议,指责这家美国科技巨头未经许可 “盗用” 他们的作品用于训练人工智能模型。抗议者高喊着 “Meta,Meta,书籍小偷”,一些人还举着标语,内容包括 “我本想写个标语,但你们会偷走它” 和 “让扎克回我们的书里”,这显然是针对 Meta 首席执行官马克・扎克伯格的调侃。早前,关于扎克伯格批准公司使用一个名为 “LibGen” 的在线图书馆的