全景透视生成式人工智能的法律挑战(一):知识产权挑战与合规
全景透视生成式人工智能的法律挑战(一):知识产权挑战与合规
生成式人工智能(Generative AI,以下简称“AIGC”)的本质即基于海量的训练数据和生成算法模型,实现创造性的产出。区别于既定指令的机械执行,“像人类一样思考”的AIGC实现了从“复制”到“创造”的跨越,对现有创作模式产生了颠覆性的变化,如何在知识产权制度语境下回应AIGC的发展和应用成为了监管和行业关注的重要议题。
一、识别:AIGC知识产权挑战的三重分析维度
结合AIGC的模型构建以及应用场景的一般逻辑,围绕AIGC技术开发及应用,基于阶段、行为、主体的三重维度,我们理解AIGC所涉及的知识产权焦点问题主要包括:
点击可查看大图
首先,在算法模型训练阶段,AIGC技术提供者通过对大量受著作权保护的作品在内的海量数据进行数据挖掘和信息理解,从而实现算法模型的训练和调试,AIGC实际上是对现有数据或作品加工整理后的综合式输出结果。通过机器学习进行模型训练是否构成对作品的合理使用;如果不属于合理使用,是否需要以及如何获得版权方的授权成为此阶段备受关注的焦点问题。
其次,在内容输入阶段,可以分为B端场景和C端场景进行讨论。
-
在B端业务场景下,由AIGC技术提供者为B端用户提供AIGC技术支持或接口,B端用户基于其特定的业务需求,要求AIGC技术提供者对模型进行定制化的入参调试,由B端用户利用AIGC技术向最终用户提供交互式的内容生成服务,此时,B端用户为AIGC服务提供者。例如ChatGPT开放B端接口,为相关公司在其业务经营中使用AIGC提供技术支持;
-
在C端业务场景下,由AIGC技术提供者面向用户直接提供服务,此时AIGC技术提供者也同时是AIGC服务提供者。例如ChatGPT与最终用户的聊天互动,Midjourney, Stable Diffusion等提供的文生图服务等。
第三,通过对输入内容进行强化学习从而实现算法模型的修正和优化也成为AIGC发展的重要过程。但ChatGPT落地商业运用过程中,关于用户输入内容的衍生处理也导致了多起商业秘密泄露事件发生,如何确保AIGC使用过程中的知识产权安全,也需相关主体的共同参与。
最后,在内容生成阶段,自AI具备创作能力开始,关于生成内容的可版权性和权利归属的讨论经久不衰,大规模商业应用背景下产业发展也进一步推动制度层面予以回应。基于AIGC技术底层逻辑,其内容生成天然携带训练所使用的现有作品的记忆,进而导致存在对现有作品著作权的侵权风险。
二、挑战:AIGC对现有知识产权制度的冲击
(一)算法模型训练阶段
1. 使用现有作品进行算法模型训练是否构成合理使用?
从人工智能产业发展来看,基于AIGC的创造性,一些学者倾向于将其认定为是对现有作品的转换性使用,作为一种内容创作方式和工具从而产出更多的新内容,符合合理使用的情形;如果以获得作品前置性授权许可并为此支付费用为前提,将会增加成本投入从而影响产业的长远发展。从版权行业视角来看,模型训练过程中会发生现有作品复制等行为,如果将其认定为合理使用,人类作者既无法基于现有作品获得激励,也将会客观面临AIGC对于人类作者创作空间的挤压,从而最终影响到著作权制度的实施。目前已有多个作者、版权方针对AIGC算法模型训练过程中未经授权的作品使用行为提起诉讼,例如:
-
2022年11月,程序员兼律师Matthew Butterick联合律师,对技术开发工具及其背后公司提起诉讼。这是美国第一起关于生成式人工智能的集体诉讼;
-
2023年,美国艺术家对Stability AI在内的三家AIGC商业应用公司提起版权侵权的集体诉讼;另一家图像公司也随之在美国针对Stability AI复制其图片用于训练Stable Diffusion的行为提起诉讼。
1)中国《著作权法》框架下较难被认定为合理使用
《著作权法》第二十四条规定了合理使用的内容[2],AIGC直接适用“合理使用”的情形存在一定难度。首先,AIGC的本质是机器学习,且所开发的AIGC技术一般具有商业目标,较难被认定“为个人学习、研究或者欣赏”;其次,AIGC作为一种创造性内容创作,并非基于“为介绍、评论或说明”现有作品的前提,且创作过程中并不会量化“适当引用”的具体标准;再次,即使AIGC研发一定程度上可以被视为“为科学研究”,但“少量”和“供教学或者科研使用”的目的限制也一定程度上导致适用困境。
除明确列举情形外,《著作权法》也规定了“其他情形”的兜底条款为合理使用的判断留有一定的解释空间。基于合理使用“三步检验判断标准”[3],如果符合“特定情形下”“与作品的正常利用不相冲突”“没有不合理的损害权利人合法权益”的标准,那么也不排除AIGC使用现有作品构成合理使用的可能性。然而,考虑到“合理使用”的认定将会对版权保护产生重要的影响,目前实践中普遍认为前述标准中的相关限定均应作有限解释。[4]《生成式人工智能服务管理办法(征求意见稿)》仅较为原则性地规定训练数据应“不含有侵犯知识产权”的内容。[5]AIGC对作品合理使用的认定需要更为审慎地考虑。在中国目前的合理使用制度框架下,有关权利平衡的考量可能还需要加入“技术发展以及更广泛的创新”作为衡量因素,才有可能将AIGC对训练作品的使用纳入合理使用的范畴。
2)欧盟明确文本与数据挖掘可存在一定的版权例外或限制
2019年欧盟通过《单一数字市场版权指令》(Directive (EU) 2019/790 on copyright in the Digital Single Market,以下简称《指令》),在欧盟成员国范围内确定了文本与数据挖掘的版权例外或限制的适用。
《指令》第三条[6]要求各成员国应当规定以下有关科学研究为目的文本与数据挖掘的版权例外,此项为法定例外,不可以通过协议约定排除。
点击可查看大图
针对适用于更为广泛的文本与数据挖掘情况,《指令》第四条[7]规定的文本与数据挖掘例外不限于科研目的,但可能因权利人声明保留而被推翻。
点击可查看大图
为推进人工智能的发展,英国知识产权局在2022年公布了文本与数据挖掘版权例外改革提案,允许任何目的的文本与数据挖掘(包括商业目的),权利人将不能再对英国文本与数据挖掘许可收费,也不能签订合同或选择退出,但权利人仍将拥有保护其内容的保障措施(包括合法访问要求)[8]。该提案遭到权利人组织的强烈反对,目前仍在审核之中。
3)美国较为开放的合理使用的“四要素”判断标准
美国《版权法》(Copyright Law,Title 17)通过“合理使用(fair use)”的“四要素”判断标准而对于变化中的作品使用形式留有一定的解释空间,包括:
1)使用的目的和性质,包括相关使用行为是出于商业目的还是非营利的教育目的;
2)受版权保护的作品的性质;
3)与受版权保护作品相比所使用部分的数量和质量;
4)相关使用行为对版权作品潜在市场或价值的影响。
因此,基于美国《版权法》,在有利于公共知识的目的下,对于不影响原作品的“转换性使用”很可能会被认定为合理使用。随着受版权保护作品的种类、数量不断增多,美国《版权法》“合理使用”原则的适用范围从单纯的对原作品的评论、批评、恶搞,早已扩大到了搜索引擎、数字图书馆等新兴领域。[9]对于新兴的AIGC使用作品是否可以适用“合理使用”,可以预见在较长一段时间内将仍是行业争论的焦点。正如近期美国国会关于OpenAI系列听证会关于作品使用行为对于版权业影响所呈现出的激烈的交锋,制度层面如何回应机器学习引发作品使用方式和目的的走向也将会对AIGC的发展产生巨大的影响。
(二)内容输入阶段
2. 用户输入内容是否可以用于算法模型优化?
最终用户输入内容是AIGC优化和更新的重要资源,目前AIGC技术提供者一般通过用户协议等方式向用户进行说明并获得相关的授权许可。例如OpenAI根据最终用户输入内容的类型而采取了不同的处理方式:[10]
-
最终用户对其输入内容享有全部权利并承担相应责任;
-
对于通过API方式交互,适用“选择-进入(opt-in)”的模式,只有在用户明确同意的情况下,OpenAI才会利用API交互内容进行相关服务的优化和升级;
-
对于通过非API方式交互,适用“选择-退出(opt-out)”的模式。
实践中,最终用户输入内容在法律层面上可能会具有多种属性,包括但不限于个人信息、商业数据、作品等。在C端业务场景下,如需对最终用户输入内容作后续的衍生使用,一方面可以通过协议中的知识产权许可条款予以约定;或者也可以在数据处理授权的层面合理设置相关协议条款。
(三)内容生成阶段
3. AIGC生成内容是否具有可版权性?
根据《著作权法》规定[11],针对AIGC生成内容可版权性的讨论集中于其是否“独立创作”以及是否为“智力成果”。AIGC生成内容的基本逻辑是基于用户输入内容进行解读的输出,因此人在其中的参与因素成为了判断可版权性的重要标准。
点击可查看大图
2023年2月,美国版权局拒绝了含有AIGC生成图片的漫画《黎明的查莉娅》(Zarya of the Dawn)的版权登记申请,认为尽管文本提示影响了人工智能生成内容的方向,但该生成过程缺乏可预测性,不受申请人控制,因而人工智能并非单纯的编辑工具,故申请人可基于文本的作者身份及其对文字、视觉元素的选择、协调和编排,就文本与图像构成的整体登记版权,但该版权保护不适用于人工智能生成的每个单个图像。2023年3月,美国版权局发布《版权登记指南:包含人工智能生成材料的作品》(Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence),重点强调了只有当作品包含人类创作因素时,该作品才能够受到版权保护(Human Authorship Requirement),拒绝登记仅由机器或纯粹的机械过程而没有人类作者任何创造性投入或干预的情况下随机或自动运行产生的作品。[14]
可见,无论在中国还是美国,对于AIGC生成内容的可版权性认定思路基本一致:人类参与了智力活动,且AIGC生成内容具备独创性,是生成内容成为版权法意义上受保护的客体的基本前提。
4. AIGC生成内容权属属于谁?
对于最终用户使用AIGC技术的生成内容的权属,法律上并未就此进行明确规定。目前AIGC相关方也一般通过协议等方式对AIGC生成内容的归属作出明确规定,主要的路径即约定权益归属于最终用户,AIGC技术提供方获得相应的使用授权。例如:
-
Open AI将输出内容的所有权利及权益转让给最终用户。Open AI可能会基于提供和维持服务而进行使用。由于机器学习的特性,基于类似问题可能会产生相同的回复。由其他用户请求和生成的响应不被视为唯一最终用户的内容。[15]
-
Midjourney可以获得用户及其授权者的授权并授予一项永久的、全球性的、非排他性的、可再许可的、免费的、免版税的、不可撤销的版权许可。基于上述许可,在现行法律允许的范围内,用户拥有使用服务创建的所有“资产”。[16]
5. AIGC的知识产权侵权风险
由于AIGC需要利用现有作品进行模型训练,并通过依赖训练作品形成的算法模式产生AIGC生成内容,因此,AIGC生成内容天然地、不可避免地携带了训练作品的记忆或痕迹。AIGC生成内容可能会呈现出训练作品的某些元素、特征、风格等。一般认为,如果AIGC生成内容如果与训练作品在表达上构成“实质性相似”,则落入“复制权”的规制范围;若不构成“实质性相似”,而是在保留作品基础表达的前提下形成了新的表达,则可能构成对训练作品“改编权”的侵害。[17]
除此之外,由于AIGC生成内容与训练作品的基因脉络一致性,AIGC生成内容还可能存在风格模仿的问题,如Erin Hanson风格的图画创作、AI孙燕姿的歌曲,也引发了各界对于风格模仿行为的讨论。鉴于版权保护“思想-表达”二分法的基本原则,风格本身并非一种表达形式,无法被认定为作品予以保护。但是司法实践中,对于作品哪些部分构成“思想”,哪些部分构成“表达”往往是原被告双方争议的焦点。在《率土之滨》诉《三国志·战略版》著作权一案[18]中,一审法院认为“电子游戏规则在一定条件下可以构成著作权法意义上的表达”。这突破了传统认知中有关规则属于“思想”的观点。而且,使用相同的作品“元素”依然可能存在著作权侵权的风险。如金庸诉江南案[19]中,二审法院认为,金庸小说的“人物群像”可以认定为已经充分描述、足够具体,进而得出该“人物群像”属于著作法保护的“表达”的结论。因此,对于风格模仿、作品元素使用本身所涉及的训练数据以及后续传播使用也需关注其中的知识产权风险。
CNN的Rachel Metz使用人工智能平台Stable Diffusion通过提示词“Erin Hanson的风格”创建的图画。[20]
Erin Hanson 在2021年创作的油画《水晶枫树》(crystal maples)。
6. AIGC技术提供者需要对AIGC生成内容的侵权行为承担责任吗?
《民法典》规定了网络服务提供者责任承担的一般原则,即网络服务提供者无需为用户利用网络服务的侵权行为承担责任,但对于其知道或应当知道的网络用户侵权行为应及时采取必要措施以避免损害扩大。[21]在作品信息网络传播中,网络服务提供者承担侵权责任的前提也是其“知道或应当知道”侵权行为的存在,《信息网络传播权保护条例》对此作出了明确规定[22]。除收到权利人有效通知外,根据《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》[23],是否对作品进行选择、编辑、修改等是“应知”的重要判断因素。但在AIGC的C端业务场景下,生成内容是基于对最终用户输入内容的理解,通过算法生成的方式完成。尽管AIGC技术提供者事实上在算法模型训练和优化过程中,会通过数据选择、调参入模等而对AIGC生成内容产生影响,但对于最终AIGC生成内容“选择、编辑、修改”的“输入-输出”这一过程,是由最终用户与算法共同完成,AIGC技术提供者本身对此控制较为有限,是否可以据此推定AIGC技术提供者对生成内容侵权“明知”仍有待厘清。
B端业务场景同时涉及AIGC技术提供者和AIGC服务提供者的情况下,如何确定责任主体以及责任分配仍有待进一步明确。[24]《生成式人工智能服务管理办法(征求意见稿)》也未对此进行明确区分,而是较为笼统的规定利用AIGC提供生成内容的服务提供者,以及通过提供可编程接口等方式支持内容生成需承担生成内容生产者的责任。考虑到在B端业务场景下AIGC技术提供者和AIGC服务提供者往往共同参与并完成了最终AIGC模型的训练和优化,从目前的《民法典》对于共同侵权及帮助侵权的相关规定来看,在发生AIGC生成内容的侵权行为时,不排除AIGC技术提供者和AIGC服务提供者可能需要承担连带责任的风险。
美国《通信正派法案》(Communications Decency Act of 1996)第230条针对网络服务提供者规定了责任限制,即单纯提供服务的网络服务提供者不应当被视为所传播信息的出版者或者发布者,因此无需为他人所发布的侵权内容承担责任。[25]相关规定明确了网络服务提供者在信息传播过程中的“中介角色”,合理降低平台对于第三方内容的管理和责任承担,以促进了互联网产业的快速发展。然而在《通信正派法案》上述规定颁布后,版权权利人因担心上述法规会导致自身权益在数字环境下的丧失,在经过各方博弈后,《数字千年版权法案》(Digital Millennium Copyright Act of 1998)最终对于网络服务提供者在版权侵权的责任承担限制在“避风港原则”的四种情形范围内。[26]但AIGC生成内容动摇了前述规则适用的前提,将AIGC参与的内容生成完全剥离为“其他信息内容的提供”或“非内容的网络服务”存在现实困难。例如相较于传统搜索引擎,加载了AIGC的新搜索引擎对于搜索内容整合所呈现的答案显然已经超出了“信息中介”的范围。在234 F.R.D. 674 (2006) 一案中,争议焦点即在于内容平台算法推荐服务是否适用《通信正派法案》的责任限制规则,目前美国最高法院已经将案件发回重审,而该案件的最终走向必然也将对该规则的适用产生较大影响。2023年5月16日,OpenAI首席执行官在听证会上也明确表明应当建立针对AIGC新的恰当的监管框架,要求AIGC技术提供者对生成内容承担责任。
三、进路:创作激励背景下的价值平衡
AIGC对于内容创作模式的更新本质上即是技术革新对于知识产权既有利益平衡制度的挑战。基于三重维度视角,对于AIGC知识产权议题的讨论也期尝试探索在AIGC的生命周期中如何实现权益的动态平衡。尽管制度层面尚未有定论,但一些方案设想和行业实践或许也可以提供有益的借鉴。
-
创设AIGC训练作品的前置管理工具
可参考著作权集体管理制度,由监管机构设立统一的登记机构或成立管理组织,允许作者自行决定是否将其作品用于AIGC训练,保证作者对于其版权的控制,但一定程度上会增加AIGC获取训练数据的难度;或者参考开源共享模式,例如,使用知识产权共享协议(Creative Commons license,以下简称“CC协议”)建立相关社区以提供训练数据的共享平台。CC协议以简单、标准化的方式赋予创作作品版权许可,使得该作品的复制、分发、修改、融合和再创作成为一种版权授权模式。[27]作者可以自主选择对其作品权利保留的范围并进行公开,除保留内容外,在符合协议约定条件下,其他主体即可以自由地复制、传播等使用相关作品,而无需另行告知作者或获得授权同意。如果AIGC的训练数据利用适用CC协议发布的作品实施,可以有效平衡AIGC作品使用过程中效率与价值的平衡。
-
标注+退出机制
考虑到前置授权许可的成本问题,也可以在AIGC生成内容中对作品的使用情况作出标注和说明,同时允许作者可以选择退出,以增加作者对于其作品使用的感知和控制。但AIGC训练数据较为庞杂,且生成内容并非“直接引用”而具有一定的创造性,实现标注面临现实障碍。但对于作者已经提出明确拒绝的作品退出AIGC训练已经成为行业实践的一般做法。
四、结语
ChatGPT一经问世,即以最快速度突破亿级用户增长,AIGC的快速发展使得科幻小说中的种种想象即将成为触手可及的现实,“辅助工具”还是“人机协作”还是“取代竞争”,关于人工智能与人类的关系引发了关于技术创新的又一轮讨论。正如同阿尔文·托夫勒在《第三次浪潮》中所言,面对科学技术发展所带来的剧变和不安,我们需要讨论的是一个模式和这份希望。在2023年6月公布的《国务院2023年度立法工作计划》中,人工智能法草案已经预备提请全国人大常委会审议,AIGC监管规则的构建和调整已经蓄势待发,这也恰恰是对于又一次浪潮的回应和正视。
[注]