生成式人工智能绘图著作权侵权第一案一审于近日宣判,引发了学界、业界对人工智能生成物可版权性问题的又一轮热烈讨论,而生成式人工智能所涉及的问题,除了尚无定论的人工智能生成物可版权性问题外,生成式人工智能数据训练阶段是否侵犯相关权利人权益亦有部分争议。对此问题,笔者将于本文作简要梳理与汇总,不足之处,还请批评指正。
●生成式人工智能数据训练涉及哪些方面的法律风险?
根据《生成式人工智能服务管理暂行办法》第七条对生成式人工智能服务提供者训练数据提出的相关具体要求:
”(一)使用具有合法来源的数据和基础模型;
(二)涉及知识产权的,不得侵害他人依法享有的知识产权;
(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;
(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;
(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。”
下文中笔者将对(一)至(三)项作具体阐述。
一、使用具有合法来源的数据。
要求源于第七条第(一)项,使用“具有合法来源的数据” 。实践中不合法多体现为不正当地爬取数据、以撞库手段获取他人数据库等等,构成不正当竞争的【1】,由《反不正当竞争法》规制,相关判例如下:
序 | 案号及案由 | 裁判要旨 | 适用法条 |
1 | l(2017)粤03 民初822号 | 被告元光公司利用网络爬虫技术大量获取并 且无偿使用原告谷米公司“酷米客”软件的实 | 原《反不正当竞争法》 |
l深圳市谷米科技有限公司与武汉元光科技有限公司等不正当竞争纠纷 | 时公交信息数据的行为,实为一种“不劳而获”、“食人而肥”的行为,具有非法占用他人 无形财产权益,破坏他人市场竞争优势,并为自己谋取竞争优势的主观故意,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争行为。 | 第二条 | |
2 | l(2018) 浙01民终7312号 l 淘宝(中国)软件有限公司与安徽美景信息科技有限公司不正当竞争纠纷案 | 美景公司在经营活动中有违诚信原则和商业道德,引诱淘宝公司生意参谋用户违约分享账户,由此不正当获取淘宝公司投入大量人力物力获取研发的大数据后分销牟利,其行为扰乱了市场竞争秩序,对淘宝公司合法权益造成了损害,构成不正当竞争。 | 《反不正当竞争法》 第二条 |
3 | l(2018)浙8601民初956号 l杭州执掌科技有限公司、杭州利导科技有限公司等与浙江中服网络科技有限公司不正当竞争纠纷 | 涉案经销商数据库具有积极的效果。浙江中服公司以撞库的不正当的手段获取涉案经销商数据后,在涉案两个网站提供服务同质化的情况下,主观上具有“搭便车”、“不劳而获” 的故意【2】。 | 《反不正当竞争法》 第二条 |
4 | l(2020) 浙01民终5889号 l深圳市腾讯计算机系统有限公司、腾讯科技(深圳)有限公司与浙江搜道网络技术有限公司、杭州聚客通科技有限公司不正当竞争纠纷 | 网络运营者所控制的数据分为原始数据与衍生数据。对于单一原始数据,数据控制主体只能依附于网络用户信息权益,依其与用户的约定享有原始数据的有限使用权;对于单一原始数据聚合而成的数据资源整体,数据 控制主体享有竞争性权益。 未经许可使用他人控制的单一原始数据,不 违反“合法、必要、征得用户同意”原则的, 一般不应被认定为不正当竞争;未经许可规 模化破坏性使用他人所控制的数据资源的, 可以认定为不正当竞争。 未经许可在他人既有数据资源基础上开展创 | 《反不正当竞争法》 第二条 |
新性竞争的,应当符合“合法、适度、征得用户同意、有效率”的原则。如果一项所谓的“创 新性竞争成果”在市场竞争效果上弊大于利的,应认定具有不正当性【3】。 |
另,笔者注意到有文章提及《著作权法》第49条、53条同样对合法的获取方式做了规定。但49条第三款明确定义“本法所称的技术措施,是指用于防止、限制未经权利人许可浏览、欣赏作品、表演、录音录像制品或者通过信息网络向公众提供作品、表演、录音录像制品的有效技术、装置或者部件。”因生成式人工智能服务提供者绝大多数情况下上并不涉及原样提供相关作品,笔者认为可能并不能适用此条。
二、涉及知识产权的情形
要求源于第七条第(二)项,“涉及知识产权的,不得侵害他人依法享有的知识产权”。生成式人工智能在数据训练阶段,通常涉及数据挖掘,将非电子数据数字化的过程可能构成对复制权的侵害。尤其是在永久复制的场景下【4】。
刘友华提及“著作权制度的严苛保护模式将会限制机器学习技术的发展”,同时,“宽松的著作权保护模式将抑制作者创作的积极性”,“当前不宜将机器学习完全排除在合理使用制度之外,也不可将其完全纳入,而应针对机器学习的具体情形做具体分析。”具体而言以商业与非商业作区分。【14】
同样有学者对司法裁量予以肯定,如从立先等认为“合理使用兜底条款属司法路径中较为可行的一种解决方式。但作为对权利的限制不应被过度‘打开’,较为可行的做法是在个案中叠加适用三步检验法与美国的四要件规则进行综合判断”。【15】
三、涉及个人信息的情形
对于第(三)项,涉及个人信息的情形,生成式人工智能服务提供者可参考的典型案例为“脉脉”非法抓取使用微博用户信息不正当竞争纠纷案,该案确立了“三重授权原则”。
序 | 案号及案由 | 裁判要旨 | 适用法条 |
1 | l(2016)京73民终588 | Open API 开发合作模式中数据提供方 | 《中华人民共 |
号 | 向第三方开放数据的前提是数据提供 | 和国消费者权 | |
l北京淘友天下技术 | 方取得用户同意,同时,第三方平台在 | 益保护法》第二 | |
有限公司等与北京 | 使用用户信息时还应当明确告知用户 | 十九条; |
微梦创科网络技术有限公司不正当竞争纠纷 | 其使用的目的、方式和范围,再次取得用户的同意。因此,在 Open API 开发合作模式中,第三方通过 Open API 获取用户信息时应坚持“用户授权”户授平台授权”台授用户授权”的三重授权原则。 | 《关于加强网络信息保护的决定》第二条; |
新浪———脉脉案入选 2016 年度北京法院知识产权司法保护十大案例,影响了后续的诸多类似案件裁判。2021 年《个人信息保护法》第二十三条在立法上回应了 三重授权原则:“个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。接收方应当在上述处理目的、处理方式和个人信息的种类等范围内处理个人信息。接收方变更原先的处理目的、处理方式的,应当依照本法规定重新取得个人同意”。
而对于三重授权原则,学界与业界同样有不同观点。持肯定意见的如薛军,认为三重授权较好地平衡了各方利益,“对于我国未来个人信息保护以及数据信息产业的健康发展具有指导意义”【16】。持反对意见的如徐娟,在博弈均衡模型下对企业决策进行分析,认为三重授权原则“不符合效益决策模型” ,“既不利于技术创新,也存在伪隐私保护的嫌疑,没有根据强市场保护的效果决策”【17】。折衷观点如徐伟认为,三重授权原则不应当普遍适用于所有数据类型,应将涉及个人信息的数据类型分为可识别的原生数据与非可识别的衍生数据,对不同情形采取不同规则【18】。
四、结 语
注 释
【18】徐伟:《企业数据获取“三重授权原则”反思及类型化构建》,载《交大法学》,2019年第4期。
原文链接详见: 人工智能数据训练阶段相关风险简析
Copyright 泰和泰律师事务所 蜀ICP备09019152号-3