俄勒冈州作家伊丽莎白·莱昂(elizabeth lyon)已对adobe公司发起集体诉讼,指控其在训练名为 slimlm 的轻量级语言模型过程中,非法使用了含有其受版权保护作品的盗版数据集。

SlimLM 是 Adobe 推出的一套面向移动端文档处理场景(包括文本摘要、内容重写与智能问答等)优化的小型语言模型。据 Adobe 官方披露,该模型基于 SlimPajama-627B 数据集完成预训练——该语料库由AI芯片企业Cerebras于2023年6月开源发布,标榜为“去重、多源整合、公开可用”的训练资源。
但莱昂在起诉书中指出,SlimPajama 实质上是 RedPajama 数据集的直接复刻版本,而后者又源于广受争议的 Books3 数据集。Books3 汇集约19.1万册享有版权的图书,长期被质疑大量源自非法盗版平台(例如The Bibliotik)。
诉状明确指出:“由于 SlimPajama 系 RedPajama 的衍生复制品,其不可避免地承袭了 Books3 中的内容,其中即包含原告及本案集体成员依法享有著作权的文字作品。”
莱昂系多部非虚构类写作指导书籍的作者,其著作据称已被纳入上述未经授权使用的训练数据之中。她主张,Adobe在未取得许可、未标注原作者信息、亦未支付任何报酬的前提下,擅自将其原创文字用于商业化AI产品的研发,严重侵害了著作权法所赋予作者的排他性权利。
此类纠纷并非个案。Books3 与 RedPajama 已成为当前AI领域版权争议中的关键焦点:
源码地址:点击下载
以上就是Adobe 被诉用盗版书籍训练 AI 模型,SlimLM 陷版权风波的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号