生成式人工智能在著作权法下的困境及合规方案构建

2024-12-31  作者:李绕娟  来源:泰和泰北京办公室

一、引   言

2022年11月,ChatGPT惊艳登场,使1956年在达特茅斯会议上首次提出的“人工智能(Artificial Intelligence, “AI”)”一词火速进入法律领域,就如六年前,全世界都在讨论GDPR一样,今天,全世界都在讨论生成式人工智能。过去两年,法律人对 AI 安全问题在著作权法、个人信息保护法等法律分支领域的讨论极为热烈。本文聚焦生成式人工智能在著作权法下遇到的困境,先分析“合理使用”能否成为模型数据训练的合法性基础,其次讨论生成物著作权侵权认定,最后从实践角度构建AI在著作权法下的合规方案。

【注:下文所提“模型/大模型”亦指“生成式人工智能”。】


二、模型数据训练的“合理使用”之辩

2022年11月1日,GitHub的开发者起诉GitHub、微软(Microsoft Corporation)、OpenAI等公司(Doe 3 v. GitHub, Inc.),原因是被告未经开发者们同意使用了GitHub开源社区开发者们的代码训练模型Copilot,侵犯了原告方著作权等权益。2023年年初,原告方代理律师参加了一个论坛,论坛另外一个嘉宾是加州大学伯克利分校法学院教授帕米拉・萨缪尔森(Pamela Samuelson),两人就模型训练阶段对于作品的使用在著作权法下有个小小的辩论。萨缪尔森教授是美国知识产权法、尤其是著作权法领域泰斗级学者。她认为,在模型训练阶段对于作品的使用大概率构成美国版权法下的“合理使用”,因为模型训练对于作品的使用比较符合“合理使用”四要素中的“转换性使用”(transformative use)[1]。虽然当前美国有多起正在进行中的涉AI的诉讼,主要诉由均为著作权侵权,我们也在持续跟踪这些案件的进展情况,在笔者看来,这些案件兼具法律和经济双重属性,在过去两年中,这些诉讼案件原告和被告双方都在游说政府、立法者、法官、专家等各方,经济利益的博弈似乎更胜于法律原理的判定。至于各位法官会如何判,我们拭目以待。


笔者是萨缪尔森教授很多论点的坚定支持者,认同在模型训练阶段对于作品的使用在美国法下构成“合理使用”。同时,也期望中国未来的AI立法能充分考虑科技发展与大国竞争等要素,在AI领域拓宽中国著作权法下合理使用的范围,认可模型训练阶段对于作品的“使用”构成合理使用。


1. 生成式人工智能的本质

(1)模型训练与养孩子的类比

1735630687802.jpg

从无到有训练一个大模型恰似养育一个孩子,其核心三要素包括算法、算力和数据。算法犹如父母自身的知识水平、文化结构和教育方法,决定着孩子的成长方向和方式。父母为孩子配备的学区房可以类比为算力,它为孩子提供了良好的学习环境和资源基础。孩子所上的课外辅导班,如钢琴、书法、羽毛球、奥数、英语、绘画等,以及每日吃的饭菜则代表了数据。孩子依托学区内配备的软硬件设施,在父母与老师的教育、监督、指导及陪伴下,通过对大量文化知识的学习与汲取快速成长。


正如生成式人工智能一样,在强大算力的支撑下,基于工程师的监督和调教,在大规模的文本、图像、音频等数据上进行训练来学习模式和规律,进而成为一个“智能大脑”。孩子通过学校考试、钢琴考级、体育竞赛、演讲比赛、作文比赛、甚至高考成绩等反应学习成效,而模型通过生成的文本、音视频内容以及对人类的回应来体现其被训练的效果。模型从学习到输入与输出是个全新再创作的过程,不是对原始表达进行机械复制和模仿的过程。


(2)模型服务的本质

不管是面向一般用户(ToC)还是面向企业(ToB)的场景下,模型开发者通过模型对外提供的究竟是什么?是模型生成的文本、音视频内容、或是搜索引擎服务?笔者认为,模型开发者提供的是一种技术服务。我们时常会说“某AI(X)的内容质量要比另外一个同类AI(Y)的好,看来Y的技术不如X啊”。这里我们评价和对比的并非生成内容本身,而是技术的优劣,模型所追求的是为用户提供最一流的体验,而生成内容是“技术是否卓越”的结果呈现。


这一点在多数模型服务协议中亦有所体现,通常,协议将生成内容的所有权约定给模型使用者(以下称“用户”)所有。模型所需的并非生成内容的财产权或著作权所有权,其目的并非向用户授权许可生成内容。模型对生成内容的需求在于 “质量反馈” 层面,即需要生成内容来反哺并优化其技术能力,以实现为用户带来更优质体验的目标。因此,生成内容可约定为归用户所有。例如,OpenAI的用户协议中就有这样的约定:就你与 OpenAI 之间而言,在适用法律允许的范围内,你(a)保留对输入内容的所有权,并且(b)拥有输出内容的所有权。我们特此将我们在输出内容中享有的(如有)所有权利、所有权及权益转让给你。我们可能会使用相关内容来提供、维护、发展及改进我们的服务,遵守适用法律,执行我们的条款与政策,并保障我们服务的安全性。【As between you and OpenAI, and to the extent permitted by applicable law, you (a) retain your ownership rights in Input and (b) own the Output. We hereby assign to you all our right, title, and interest, if any, in and to Output. We may use Content to provide, maintain, develop, and improve our Services, comply with applicable law, enforce our terms and policies, and keep our Services safe. 】[2]


2. 模型训练对于作品的“使用”性质

著作权侵权首先需要确定侵犯的是何种权利。中国著作权法第十条规定了著作权的权利类型,涵盖了人身权,以及复制权、发行权、信息网络传播权、改编权等财产权。美国著作权法下的著作权权利类型包括人身权,以及复制权、发表权、制作衍生品权等财产权。


就模型本身而言,其对于作品是一个“学习的过程”,并非将作品复制一份到模型里进行训练。然而,在进行模型训练之前,通常需要对原始数据进行预处理,原始数据的获取可能涉及“复制行为”。著作权法下的“复制”包括以“印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份”。对于复制权侵权的认定,损害后果并非必要要件。但在司法实践中,损害后果的存在会影响侵权赔偿数额的判定。


不过,模型预训练的这种“复制行为”的目的在于转换学习,并非“以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份并进行后续可能的传播”,其实很难构成“著作权法下对于作品的复制使用”。在此,笔者希望类比商标法下商标侵权的判定要件,即商标侵权需先判定是否构成商标性使用,比如“描述性、指示性”[3]等对商标的使用行为并不构成商标性使用,也就不构成商标侵权。将其带入到模型训练对于作品的使用方式中,很难构成著作权法下所规定的对作品的使用,进而可以判定,模型训练对于作品的使用并不构成对著作权复制权的侵权。


3.人工智能法应是技术促进法

2024年夏天,前Google CEO Eric Schmidt在斯坦福大学做了一个小型分享,他本来以为是个闭门会,没想到有录制且被放到了网上,后来这段分享被紧急下掉了。Schmidt先生说:AI发展太费钱了,同时还需要优秀顶级的人才,能支撑这场AI竞争的国家并不多,美国算一个,中国也算一个。但目前来看,美国在AI的发展上领先中国大概10年,而这种领先可能还会持续,原因是中国没有好的芯片,而美国出口管制限制芯片出口到中国等国家。其次,世界各国的优秀人才都在往美国涌进。


人工智能发展三要素,算法、算力和数据,中国相比于美国而言,算法、算力均处于劣势。在数据方面,美国版权法有宽松的“合理使用”原则、加州隐私法规定公开个人信息是不受隐私法保护的个人信息(关于个人信息在模型训练中的法律问题和合规建议将放到下一期来讲)。其次,其他国家如日本2018年修改了其著作权法,规定,“只要目的不是为了享受作品中所表达的思想或情感,便允许以机器学习为目的对作品进行使用”,允许文本和数据挖掘(Text and data mining,“TDM”),包括商业用途。韩国也在如火如荼地提议AI立法,同时提案允许TDM,韩国政府提出对待AI要“先发展,后治理”。如此情况下,中国也应考虑新技术的实际情况,放宽“合理使用”的范围。另外,假如我们不做适当调整,著作权人在基于美国、日本等国家的法律投诉无门的情况下,转而利用中国法对中国模型开发者在中国发起诉讼,这将给国内 AI 发展带来诸多不确定性。


三、生成物著作权侵权判定

1. 生成物的性质

萨缪尔森教授认为,对于模型生成阶段著作权侵权的判定并没有超出当前著作权法规定,即“接触+实质近似”,对此笔者表示赞同。但是,萨缪尔森教授将模型生成物视为衍生作品,在这一点笔者并不同意。


著作权法下的衍生作品,也称为演绎作品,是指基于已有作品进行改编、翻译、注释、整理等创造性劳动而产生的新作品,衍生作品与原作品存在着依存关系。例如,一部小说被改编成电影剧本,这个电影剧本就是衍生作品。


而模型是基于对数据的学习和理解,并非对原始表达的模仿和复制,根据用户的指令(prompt)生成新的内容,一个高质量且训练有素的模型所生成的内容理应完全脱离于其学习的原始作品,是一个全新的作品,而非原始作品的演绎作品。


2.生成物侵权判定

根据上述论述,理想状态下,模型生成的内容不应出现和在先作品“实质近似”的情形。若出现近似情形,风险主要源于两个方面:其一,模型本身性能未达预期效果,经机器学习后输出了与原始学习的受著作权法保护的作品相近似的内容;其二,用户故意输入诱导性指令(prompt),比如在文生图模型场景下,故意以某一个作品的细节为指令(prompt),诱导模型生成与该作品相似的作品。无论前述哪一种情形,根据“接触+实质性近似”标准,均可能构成著作权侵权。在两种情况下,侵权事实的争论空间不大,但责任应归属于谁呢?


在第一种情况下,很显然,模型开发者应该承担侵权责任。2023年11月7日,OpenAI在其开发者大会上推出的版权盾(copyright shield),即如果客户因使用 OpenAI 的 AI 生成内容而造成 “版权侵权”,被起诉并要求赔偿,OpenAI 将介入并为客户辩护,并全额赔偿客户因此遭受的一切损失,但前提是客户本身没有侵权意图(如没有输入引诱模型生成侵权内容的指令)。微软、亚马逊等公司均有类似举措。


第二种情况下,负责任的AI应遵循科技向善原则,开发者应秉承科技向善研发AI,而使用者亦应如此。如果用户故意输入诱导性指令(prompt),利用AI的高效和便捷性,为自己创作出和其他在先著作权作品近似的作品并加以使用,这与用户自己人工“抄袭/剽窃”在先作品并没有实质性差异。笔者认为,实际使用AI的用户应承担主要侵权责任,而AI开发者很可能构成帮助侵权,避风港原则[4]在这种情况下恐难适用。


四、合规方案构建

当然,支持合理使用并非意味着摒弃法益平衡的考量,亦绝非彻底舍弃作品权利人的权益。笔者建议从以下几个方面切实保护作品权利人的利益,加强对侵权行为的监管与惩处力度。同时,建立健全权利救济机制,确保作品权利人在权益受损时能够获得及时有效的救济。


1. 用户协议的重要性

《生成式人工智能服务管理暂行办法》第九条规定:提供者应当与注册其服务的生成式人工智能服务使用者签订服务协议,明确双方权利义务。对于那些非以AI为核心服务,仅接入了部分AI功能的平台而言,起初把这项要求视为负担。但其实,一份好的服务协议意义重大,它不仅可以满足上述《办法》的要求,还可以:1)充分向用户介绍AI的基本工作原理、其技术局限性和可能带来的危害,起到教育的作用,使用户对 AI 有更清晰的认知;2)满足算法/模型透明度要求,让用户了解服务背后的技术运作机制;3)一定程度上也能起到震慑的作用,减少用户恶意使用 AI 而引发的包括著作权侵权在内的各种问题。


对于那些不以AI为主要功能或服务,但又接入了AI为用户提供特定服务的产品来说,可以根据该AI特定服务的实际情况,尤其是风险等级来准备用户协议,可以考虑:

(1) 若 AI 类服务可能引发的风险等级较低,可以在平台用户协议中增加一段关于 AI 特定服务的介绍,以及双方就使用 AI 的权利义务约定;或者

(2) 对于可能引发风险等级稍高的 AI 类服务,则可单独制定一份《AI 功能与服务使用协议》,在用户首次启用该特定服务时以弹窗形式让用户确认接受。这样可以更加明确地告知用户相关风险和责任,确保双方在使用 AI 功能与服务过程中的权益得到保障。


2. 有效标识和暗水印的重要性

在 AI 生成内容与人类创作内容混杂的环境下,有效标识可以清晰地表明作品的真正来源。首先,AI标识可对用户起到有效警示作用,预防潜在的诈骗风险。其次,在出现著作权纠纷时,有效标识可以大大提高侵权识别的效率。版权管理机构和执法部门可以通过专门的识别软件,快速扫描大量的数字内容,查找带有特定标识的生成内容,能够迅速采取行动,制止侵权行为并追究责任。


暗水印通常是嵌入在作品中的一种隐蔽标记,具有一定的不可移除性。即使侵权者试图对生成内容进行修改、裁剪或转换格式,暗水印仍然能够在一定程度上保留下来。因此,在生成内容中添加暗水印使得侵权行为更容易被追溯。


有效标识和暗水印在AI 领域对于防止和治理著作权侵权具有重要的作用。它们不仅能够明确作品来源、提高侵权识别效率,还能通过不可移除性和警示作用增加侵权难度,从而为保护著作权人的合法权益提供有力的支持。


3. 便捷高效的投诉举报机制

在 AI 领域,由于内容的生成和传播速度极快,著作权侵权行为可能在短时间内广泛扩散。接入AI服务的平台建立便捷高效的投诉举报机制可以使著作权人及相关利益方迅速发现侵权行为,通过简单的渠道,如在线投诉平台、专门的举报邮箱或热线电话等,及时向平台进行举报。这样能够在侵权行为刚开始或尚未造成严重后果时就将其遏制,避免侵权范围的进一步扩大。


便捷高效的投诉举报机制能够大大提高治理著作权侵权的效率。对于网络平台和服务提供商而言,接到投诉举报后可以迅速进行核实和处理,如删除侵权内容、封禁违规账号等,从而降低自身的法律风险,同时也维护了良好的网络生态环境。


建立便捷高效的投诉举报机制可以鼓励公众积极参与到 AI 领域著作权侵权的治理中来。公众作为网络内容的广泛使用者和传播者,往往能够在第一时间发现侵权行为。当他们知道有便捷的投诉举报渠道时,更有可能主动站出来维护著作权人的权益,共同营造一个尊重知识产权的社会氛围。


注   释

[1] 合理使用:美国版权法下是否构成合理使用(fair use)要综合考虑四个要素:

a) 使用的目的和性质

i. 转换性使用(transformative use):这是判定合理使用的关键因素。如果使用作品是为了创造新的表达、含义或信息,那么更有可能被认定为合理使用。

ii. 商业用途和非商业用途:非商业用途通常比商业用途更有利于合理使用的认定,但这不是绝对标准。

b) 版权作品的性质

i. 作品独创性:对于独创性高的作品(如小说、绘画、音乐作品等),其版权保护程度相对较高,合理使用的范围可能相对较窄。

ii. 已发表作品与未发表作品:一般来说,已发表作品的合理使用范围相对较宽。

c) 所使用部分的数量和质量与版权作品整体的关系

i. 使用的数量:使用的部分占原作品的比例是一个重要考量因素。少量引用通常比大量引用更有可能被认定为合理使用。

ii. 使用部分的质量:即使使用的数量较少,但如果使用的是原作品的核心、精华、独创性高的部分,也可能影响合理使用的判定。

d) 使用对版权作品潜在市场或价值的影响

i. 市场替代:如果使用行为会替代原作品的市场,那么很可能不构成合理使用。

ii. 合理使用与许可市场:如果存在一个合理的许可市场,而使用者没有尝试通过许可的方式获取使用作品的权利,这可能对合理使用的认定产生不利影响。

[2] OpenAI terms of service:Terms of use | OpenAI  

[3] 商标描述性:商标描述性使用是指在使用商标时,并非将其作为指示商品或服务来源的标识,而是单纯地用其来描述商品或服务本身的某些特性、成分、质量、功能、用途、产地等内容。商标指示性使用:指经营者在商业活动中,善意的使用他人注册商标以客观说明商品和服务的来源,比如某A品牌汽车用了B品牌零部件,在说明该零部件的用书手册中使用了B品牌。

[4]避风港原则:“通知+移除”(notice-take down procedure)。具体来说,当网络服务提供者在收到侵权通知后,有义务删除或屏蔽相关内容,否则将被视为侵权。这一原则最早出现在美国1998年《数字千年版权法案》中。


原文链接详见:泰和泰研析 | 生成式人工智能在著作权法下的困境及合规方案构建

返回