跨越AIGC合规上市之路(四):知识产权合规篇
跨越AIGC合规上市之路(四):知识产权合规篇
《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)为AIGC服务的知识产权保护提供了明确指导。根据其第4和第7条,AIGC服务的提供与使用需尊重知识产权、遵守商业道德,保守商业秘密,不得利用算法、数据、平台等优势实施垄断和不正当竞争行为;同时,AIGC服务提供者在进行预训练、优化训练等训练数据处理活动时,如果涉及知识产权,则不能侵犯他人的知识产权。
当前,AIGC服务从输入数据的获取及预处理,算法模型的构建与训练,到生成内容的输出与优化等各环节,均可能涉及专利、著作权、商业秘密等多种知识产权客体,属于侵权纠纷高发区。例如,用于算法模型训练的输入数据可能包含众多受版权保护的作品、个人隐私数据或商业秘密;采用的算法模型可能实施了他人的专利技术;AIGC产品生成的文本和图片可能与某些知名文学作品或绘画构成实质性相似。此外,由于AIGC产品通常依赖开源生态,开源合规在AIGC产品开发过程中亦十分关键。本文将从知识产权保护的角度,为AIGC技术开发者建立知识产权保护和开源合规体系提供建议。
一、知识产权保护框架
AIGC产品在知识产权保护方面展现出其特殊和复杂的特征。一方面,由于其需要大规模的数据输入、多元化的输出结果以及算法黑盒问题,其在现行的知识产权保护框架下存在许多待解决的问题。另一方面,由开发者构建的程序代码、用户反复塑造的指令以及AIGC产品本身的训练成熟度共同决定了AIGC产品产出的特定生成物,故而在确定侵权主体时可能存在一定的困难。因此在现有环境下,不同的角色存在不同的知识产权合规保护视角。如技术开发方会重视数据来源、技术许可、专利合规以及开源合规等问题,而技术使用方则会更加强调版权风险、隐私风险和竞争风险等问题。考虑到篇幅问题,本文主要从技术开发方的视角,结合我们的相关实践经验,为有关企业提供知识产权的合规框架建议:
1. 算法专利保护
对于生成式人工智能涉及的算法的可专利性,业界存在争论。根据《专利法》第二十五条,规则和方法的智力活动不能获得专利。因此,算法作为一种数学运算模型,可能被视为抽象运算思维而不具备可专利性。在申请专利的过程中,AIGC服务提供者应将算法与实际解决的技术问题相结合,体现算法步骤的执行能够采用具有自然规律的技术手段,解决具体技术领域的具体技术问题,并形成具体的技术效果,进而在算法设计中将各个特征与参数与解决该具体技术问题的特征和参数紧密关联,使之成为可专利的新发明。具体要求,企业可参考国家知识产权局发布的第343号公告。另外,在AIGC产品的研发过程中,应避免使用他人已专利的工具进行开发,以防止专利侵权纠纷。
此外,如上所述,算法专利的侵权诉讼中常常面临侵权举证难、侵权主体认定难等困境。从降低权利人侵权举证责任的角度考虑,算法专利在撰写时应尽量保证技术特征的可视化。例如,当算法改进在于模型时,优先考虑布局模型应用权项;当算法改进仅在于数据清洗、特征提取、数据采集、特殊场景转用等,而不涉及模型本身的结构或参数,可以将模型视作黑盒处理。此外,也可以考虑将专利与开源软件相结合,即将算法对应的代码对外开源形成开源代码,针对算法对应的方法申请专利,在开源代码与对应的算法专利之间建立对应关系,从而将专利侵权举证转化为开源软件使用行为举证,降低举证难度。
从降低侵权主体认定难度的角度考虑,算法专利在撰写时建议布局方法、设备、存储介质和系统等多种保护主题,以全面保护;另外,方法权利要求尽可能限定由单一主体实施,在同一权利要求中不要将训练阶段和执行阶段混为一谈,因为这两个过程通常是由不同主体实施的。
2. AIGC产品的著作权保护
首先,开发者应当重视计算机软件的著作权保护问题。AIGC产品的权重和参数等通过编码生成,受计算机软件著作权保护。当前,AIGC产品的开发过程中往往会对已经相对成熟的AIGC产品进行不同程度的借鉴,可能涉及到模型结构、算法优化、训练方式等多个层面。故此,AIGC企业在开发过程中需要对潜在的著作权侵权风险保持足够的警惕。在具体操作过程中,如果开发团队在研发过程中对他人的专有软件进行借鉴,则必须尽量避免采用逆向工程、反编译等往往易触发软件著作权侵权风险的源码溯源措施。同时,开发团队还需要严格遵守相关产品的许可使用限制。以OpenAI的ChatGPT产品为例,其使用条款中明确禁止任何人利用其产品生成的内容开发竞品,或者通过任何自动化或编程方式爬取其数据。对于利用开源软件的开发团队,虽然开源社区的开放性为AIGC产品的快速研发提供了便利,但团队也需要对开源软件的许可协议有所了解,以确保合规使用。对开源许可协议的理解和尊重,将在下文中进行深入讨论。总的来说,AIGC产品的研发过程涉及多个环节和层面,对于著作权保护的理解和遵守,不仅需要在技术层面有所保障,还需要在内控措施层面有所制度化,形成全方位的保护机制。
其次,要充分考虑现有法律对作品使用的限制。AIGC在训练中需要大量使用各种数据物料,进行充分的文本与数据挖掘(Text Data Mining,下称“TDM”),其中不乏享有著作权保护的作品。目前,世界主要国家对TDM都规定了不同的版权例外规则。从鼓励产业发展的角度以及从现有境外立法而言,以“合理使用”的角度去豁免TDM无疑是当下的趋势。但从我国现有立法和法律实践上看,以“合理使用”来对TDM进行合理合法性论证存在诸多问题,无法自圆其说。故TDM的突破仍有赖于立法者对现有法律的进一步解释或对法律的更新。对于AIGC从业者而言,在产品发布前,AIGC服务提供者应细化有关的知识产权保护策略,至少从风险防范和诉讼的角度去规划自身的知识产权合规体系。例如,AIGC产品通常通过生成图片、文字、视频或音频等为用户提供服务。为避免生成内容侵犯他人著作权,我们建议提供者建立知识产权评估体系,对采集+训练+生成+服务的产业闭环进行知识产权合规性评价。另外,我们建议企业可从侵权诉讼角度进行合规分析,即在控制侵权风险的情况下对生成结果进行一定程度的干预,确保生成物去风格化、去特定情节以及去特定艺术特质等。我们看到,一些成熟企业已设定了使用限制,例如禁止用户将AIGC生成的内容展示为人工制作作品,或在公开发布生成作品时,必须声明AIGC产品的作用。这样可以防止生成内容被误认为人的“智力成果”,一定程度上避免侵权纠纷。
3. AIGC产品的商业秘密保护
《反不正当竞争法》将商业秘密定义为未公开、有商业价值并经保密措施保护的技术或经营信息。在生成式人工智能领域,优秀的AIGC产品的核心技术、数据集、模型结构等“know-how”至关重要。对于这些商业秘密的保护,权利人必须证明已采取了严格有效的保密措施。我们建议所有AIGC企业,特别是新设立的技术公司,制定并执行严格有效的保密措施,包括设立保密制度、内控流程、技术限制以及对核心员工的竞业限制等,规范企业的商业秘密保护措施。
另外,AIGC技术和服务场景的交互性也为企业商业秘密保护带来了新的课题,即AIGC服务提供者必须在提供服务时应谨慎对待用户的输入内容,不能一概而论地将用户数据进行收集并用于算法训练,而导致用户商业秘密泄露。个别公司禁用ChatGPT事件中,正是由于其员工在使用ChatGPT过程中输入了公司产品的机密信息,而导致商业秘密外泄。因此,若未来AIGC产品追求商业化的普及,则必须更好的回应用户对其商业秘密和技术秘密保护的需求。
二、开源合规应对措施
开源生态已成为当前人工智能领域的主流技术开发趋势。2023年7月18日,Meta公司宣布其最新版本的LLAMA2模型将采用开源模式发布以鼓励使用。ChatGPT-2及其之前的版本,也采用了开源模式。目前,我国的司法实践对开源软件的保护模式已有初步的判断和认识。根据(2019)粤73知民初207号案例对GPL3.0开源协议的判例,开源软件与商业软件的主要区别在于:开源软件作者将全部著作财产权利让渡给了使用者,开源软件采用的是放弃著作权特定权利的形式进行的软件开发模式。尽管开源软件作者将著作财产权利让渡给了软件使用者,但并不等同于没有使用限制。
根据(2019)粤73知民初207号的判决,开源协议具有合同特性,权利人向不特定用户授予一定权利,用户对此作出承诺,形成法律关系。其授权逻辑是通过预先设定的格式化条款,确保开源代码按照权利人预期的方式传播和使用。因此,一旦授权人违反开源协议,一方面可能产生违约责任,另一方面因违反开源许可而导致授权被终止,产生侵权责任。在这种违约与侵权并存的情况下,权利人可以选择救济途径。因此,我们建议AIGC服务提供者在利用生成式人工智能的开源生态进行研发时,重点注意以下合规事项:
1. 审慎甄别开源许可类型
开源许可类型大体上可以分为强开源的“著佐权”(copyleft,是一个由自由软件运动所发展的概念,是一种利用现有著作权体制来保护所有用户和二次开发者的自由的授权方式。)类,例如GPL、AGPL、LGPL,以及宽许可类(permissive)开源许可,例如MIT、Appache2.0、BSD等。在“著佐权”权类许可场景下,如AIGC产品研发过程中对其进行结合、部分结合或衍生创作,将会引发传染效应,即整个产品都必须按照同一许可证进行开源发布。否则,该产品将被取消相关授权,产生违约或侵权风险。相比之下,宽许可类许可证对下游使用者的限制非常少,通常包括免责声明、保护和尊重原作者的著作权、对衍生创作部分进行显著标识等要求,但并不限制下游使用者进行闭源商用。因此,我们建议在AIGC产品研发过程中,开发者应优先考虑使用宽许可类许可证下的模型或代码,避免使用“著佐权”类开源许可证下的模型或代码。若非要使用“著佐权”类开源许可证下的模型或代码,应通过技术与法律手段,结合特定开源许可证的特性(例如LGPL可以考虑采取动态库链接的方式)来合理规避开源“传染”风险。对常见开源许可证的具体要求,为方便企业能够跟直观的理解,我们初步总结如下:
点击可查看大图
2. 注意区分应对开源合规风险
由于生成式人工智能产品的组成部分具有一定的独立性,实践中常常出现AIGC不同版本,或者单个AIGC产品的权重、参数等,分别对应不同许可模式,或者不同开源许可证的情形。结合Github上的公开信息举例说明,ChatGPT2.0为开源模式,其许可证为使用限制极少的MIT宽许可证[1],但ChatGPT3.0与4.0则为商用专有软件,受其复杂的商用许可条件限制;ChatGLM-6B虽然总体处于开源许可证下,且其许可证为限制较少的Appache2.0宽许可证,但其模型参数却受到额外的“MODEL_LICENSE”许可条件限制[2]。另外,Meta声称其最新版本的LLAMA2为开源模式,但其并未使用任何通行开源许可证进行发布,而是自行制作了适用于该模型的“社区版使用许可”。在该许可中,Meta要求在LLAMA2发布时,所有活跃用户超过700万人的企业禁止按照“社区版使用许可”的条件使用LLAMA2,以达到限制竞争的目的。因此,我们建议AIGC开发者在开源生态中借鉴其他产品进行开发时,要深入了解与适应不同的开源许可证要求,注意区分不同产品、同一产品不同版本与不同部分所使用的具体许可类型及其开源许可范围。基于此,企业才能提前构建完善的开源合规体系,有效防范潜在的知识产权风险。在构建内部开源合规管理体系时,企业可以参考以下步骤和方向:
(1) 步骤一:源代码识别。企业需要系统地识别和记录所有使用开源代码的来源和许可证类型。
(2) 步骤二:确定使用策略。在了解清楚每份代码的许可证类型后,企业需要明确每种许可证下的代码或软件的使用方式,以及这些许可证对商业化模式的影响。同时,企业还需要研究许可证之间的兼容性,以防止许可证冲突。
(3) 步骤三:风险应对策略。企业需要特别关注开源侵权和违约风险较高的商用模式,例如使用了GPL/AGPL许可证的软件。对于这些模式,企业需要预先准备应对可能的侵权指控,并积极寻找和开发替代方案。
至于非标准加密类(non-standard cryptography)开源软件的出口管制限制,鉴于目前尚未见到此类软件在AIGC领域的具体应用,故暂不赘述。
三、结语
在AIGC蓬勃发展并带来新的机遇与挑战时,在全世界都在构建开源开放的AI创新生态和向善可信的科技治理体系时,我们愿以此AIGC合规系列文章做为契机,抛砖引玉,为行业提供一些初步的合规思考和实践参考。我们相信,无论是算法治理、隐私与数据、安全评估、科技伦理,还是开源体系、知识产权,甚至资质证照等,均是AIGC领域未来发展道路上所必须谨慎对待的合规课题。有鉴于此,对于那些志在AIGC赛道上努力奔跑且有长期目标的企业而言,我们建议在积极拥抱监管的同时,亦尽早部署并落实具有对应性和前瞻性的法律合规体系,以期为实现健康、可持续的业务发展创造稳固的法律“避风港”。
[注]