当狂飙的“ChatGPT”遇上法律缰绳——速览ChatGPT六大法律问题
当狂飙的“ChatGPT”遇上法律缰绳——速览ChatGPT六大法律问题
前言
2022年11月底,美国人工智能公司OpenAI推出人工智能聊天机器人ChatGPT。此后,ChatGPT在全球掀起一股热潮,国内外互联网巨头纷纷入局。微软先后推出由ChatGPT支持的搜索引擎Bing和浏览器Edge,并在Office办公软件中植入人工智能助手Microsoft 365 Copilot;谷歌发布了其AI聊天机器人“巴德”(“Bard”),并宣布将生成式AI的功能导入Workspace;百度于2023年3月16日发布首个“中国造ChatGPT”产品“文心一言”;4月7日,阿里版的ChatGPT产品“通义千问”开放内测;4月9日,360宣布其人工智能产品“360智脑”落地搜索场景,将面向企业用户开放内测;京东宣布将在今年发布产业版ChatGPT “ChatJD”;网易宣布其为教育场景研发的类ChatGPT产品“子曰”将于近期开放内测;腾讯、华为等企业的类ChatGPT产品也呼之欲出。
那么,ChatGPT[1]的应用会面临哪些法律问题,其背后存在哪些法律风险?本文将从内容管理、电信资质、数据安全和隐私保护、知识产权、不正当竞争等维度对ChatGPT应用中带来的法律问题进行分析。
一、如何对ChatGPT生成的内容进行管理?
ChatGPT提供的回答是以大规模的训练数据为基础的。ChatGPT从人们为它投喂的大量数据中学习并生成内容,而训练数据本身的错误、偏见、立场、意识形态和价值观都可能反映在ChatGPT生成的内容中。除了不当的训练数据,算法设计者主观认知偏见、算法设计过程中的技术漏洞,例如算法缺乏信息甄别和过滤机制,都可能影响ChatGPT生成内容的可靠性、正当性。因此,ChatGPT有可能输出不准确的信息,甚至可能输出违法违规或不当信息。一方面,法律、医疗等专业领域的错误答复可能使用户做出错误的判断和决策,从而危害人身和财产安全。另一方面,违法违规或不当信息的传播则可能对公共秩序带来严重后果。因此,如何对人工智能生成的内容进行管理,防止违法违规或不当信息的传播,是ChatGPT在应用中必须首先关注的问题。
根据《网络信息内容生态治理规定》,网络信息内容生产者不得制作、复制、发布含有反对宪法确定的基本原则、危害国家安全等内容的违法信息,且应当采取措施,防范和抵制制作、复制、发布含有低俗、庸俗、媚俗、煽动人群歧视、地域歧视等内容的不良信息;同时,网络信息内容服务平台应当履行信息内容管理主体责任,建立网络信息内容生态治理机制,健全用户注册、账号管理、信息发布审核、跟帖评论审核、版面页面生态管理、实时巡查、应急处置和网络谣言、黑色产业链信息处置等制度。对于ChatGPT而言,其兼具内容生产者和内容服务平台的双重角色,因此,在内容管理措施上也需要同时考虑内容生产和平台管理两方面。
《互联网信息服务深度合成管理规定》就ChatGPT类深度合成服务的提供者如何加强内容管理提出了具体要求,包括:(1)“采取技术或者人工方式对深度合成服务使用者的输入数据和合成结果进行审核”;(2)“建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序,记录并留存相关网络日志”;(3)“发现违法和不良信息的,应当依法采取处置措施,保存有关记录,及时向网信部门和有关主管部门报告;对相关深度合成服务使用者依法依约采取警示、限制功能、暂停服务、关闭账号等处置措施”;(4)“建立健全辟谣机制,发现利用深度合成服务制作、复制、发布、传播虚假信息的,应当及时采取辟谣措施,保存有关记录,并向网信部门和有关主管部门报告”。
此外,如ChatGPT类产品涉及互联网新闻、网络出版、网络直播、网络视听节目、网络文化活动等服务的,还需遵守《互联网新闻信息服务管理规定》、《网络出版服务管理规定》、《互联网直播服务管理规定》、《互联网视听节目服务管理规定》、《互联网文化管理暂行规定》等互联网内容服务相关监管规定。
二、提供ChatGPT服务是否需要电信资质?
根据《中华人民共和国电信条例》,经营电信业务,需依法取得电信业务经营许可证。电信业务分类的具体划分由《电信业务分类目录》列出。此外,根据《互联网信息服务管理办法》,互联网信息服务分为经营性和非经营性两类。其中,“经营性互联网信息服务,是指通过互联网向上网用户有偿提供信息或者网页制作等服务活动”;而“非经营性互联网信息服务,是指通过互联网向上网用户无偿提供具有公开性、共享性信息的服务活动”。另外,“国家对经营性互联网信息服务实行许可制度;对非经营性互联网信息服务实行备案制度。”
ChatGPT通过互联网向用户提供信息,属于互联网信息服务。而对于“经营性”和“非经营性”的判断,不宜简单以服务是否收费来判断有偿或是无偿。实践中,ChatGPT类产品不论是否收费,都具备经营属性,与科研、公益等非经营性活动有明显区分。因此,监管实践中,判断是否属于“经营性互联网信息服务”从而需要电信许可,往往会以服务是否符合《电信业务分类目录》所列业务类别进行判定。
根据《电信业务分类目录(2015年版)》,“B25信息服务业务”是指通过信息采集、开发、处理和信息平台的建设,通过公用通信网或互联网向用户提供信息服务的业务,主要包括信息发布平台和递送服务、信息搜索查询服务、信息社区平台服务、信息即时交互服务、信息保护和处理服务等。其中,“信息发布平台和递送服务”是指建立信息平台,为其他单位或个人用户发布文本、图片、音视频、应用软件等信息提供平台的服务。平台提供者可根据单位或个人用户需要向用户指定的终端、电子邮箱等递送、分发文本、图片、音视频、应用软件等信息。“信息搜索查询服务”是指通过公用通信网或互联网,采取信息收集与检索、数据组织与存储、分类索引、整理排序等方式,为用户提供网页信息、文本、图片、音视频等信息检索查询服务。
ChatGPT通过对训练数据和用户输入对话的采集和处理以及平台(ChatGPT与用户的交互界面)的建设,通过互联网向用户提供信息内容,符合“信息服务业务”的范畴。从具体的业务类别看,ChatGPT更接近“信息发布平台和递送服务”,而非“信息搜索查询服务”。ChatGPT提供的内容不是经检索与排序的原始信息,而是基于对用户对话的理解和训练数据的分析、编辑后生成的文本。可以理解为,ChatGPT根据用户的要求通过平台向用户提供信息,且ChatGPT本身也参与了信息的生产过程。因此,ChatGPT可能落入增值电信业务中“信息服务业务”的范围,从而该服务提供方需取得B25类“互联网信息服务”的增值电信业务经营许可。
三、如何处理ChatGPT带来的数据安全和隐私保护问题?
ChatGPT作为史上用户数增长最快的消费者应用,在短短两个月内即突破了1亿用户。ChatGPT的提供方OpenAI在其官网公布的隐私政策中提到,其产品会收集用户账户信息、对话内容、社交媒体信息、以及Cookies、日志信息、使用情况、设备信息等个人信息[2],而用户在与ChatGPT进行对话时,可能会进一步透露自己的财产信息、健康信息等敏感个人信息,甚至商业秘密、机密数据。因此,手握大量敏感数据的ChatGPT一旦出现数据泄露、损毁、丢失等安全问题,则可能产生严重的后果。
除了ChatGPT系统漏洞,ChatGPT自身的工作原理也增加了数据泄露的风险。由于用户输入的信息可能被用于进一步训练ChatGPT,而ChatGPT向其他用户输出内容时就可能包含该用户提供的个人信息、机密数据或重要数据,从而引起数据泄露。2023年3月30日,据媒体报道[3],近日某公司内部发生数起涉及ChatGPT的数据泄露事件。而数据泄露的根源,均是员工将企业机密信息以提问的方式输入到ChatGPT中,导致相关内容进入ChatGPT的学习数据库,从而可能对外泄露。
如果ChatGPT落地中国,还将存在数据出境的问题。根据OpenAI公布的隐私政策[4],在用户使用ChatGPT服务时,其个人信息都将传输至OpenAI位于美国的设施和服务器上。因此,用户在使用ChatGPT服务中,其与ChatGPT交互时可能提供的个人信息、商业秘密甚至可能关系国家安全、经济运行、社会稳定、公共健康和安全的重要数据都将发生数据的跨境流动。根据目前的数据跨境监管框架,ChatGPT提供服务中如涉及向境外传输重要数据,或ChatGPT处理或者向境外提供的个人信息达到《数据出境安全评估办法》所规定的门槛,则服务提供者需向网信部门申报数据出境安全评估。
四、ChatGPT采集第三方数据用于训练是否构成“合理使用”?
ChatGPT能够生成各类文本或文案,但这些都来源于对已有作为训练数据的文本或文案的复制、修改、改编、翻译、汇编等处理。如果前述文本或文案是他人拥有著作权的作品,那么ChatGPT使用作品的行为是否构成对他人著作权的侵犯?近日,据媒体报道,拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向OpenAI、M公司和G公司等公司提起诉讼,要求赔偿其内容在ChatGPT、Bard等AI工具中被用来使用的费用。
根据《中华人民共和国著作权法》(以下简称“《著作权法》”),使用他人作品应经著作权人许可,并支付报酬,除非符合法律规定的合理使用的情形。《著作权法》第二十四条对于合理使用情形的规定采用了封闭式的列举,而ChatGPT对于训练数据中作品的使用难以符合该法所规定的“个人使用”(为个人学习、研究或者欣赏,使用他人已经发表的作品)、“适当引用”(为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品)、“科学研究”(为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行)等合理使用情形。因此,我们理解,ChatGPT使用作品在我国依然需要相应知识产权授权。对于ChatGPT的用户而言,如果直接使用了ChatGPT生成的侵犯他人著作权的内容,也可能面临著作权侵权风险。
目前,已经有国家和地区开始探索将人工智能使用作品的情形作为著作权侵权的例外。例如,日本在其著作权法中将计算机在必要的限度内使用作品纳入合理使用的范畴;欧盟则通过《单一数字市场版权指令》,设置“文本与数据挖掘”的版权例外规则。但我国《著作权法》目前未对人工智能使用作品是否构成合理使用的问题进行回应。
五、ChatGPT生成内容是否构成作品?谁享有该作品的著作权?
1. 人工智能生成内容的可版权性
根据我国《著作权法》第三条,受著作权法保护的作品,“是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”。因此,要成为著作权法所保护的作品,不仅需要具有独创性,还需是智力成果。虽然《著作权法》没有明确作品必须为人的智力成果,但通常认为,受著作权法保护的作品必需由人类创造。因此,我国司法实践中往往不承认人工智能生成内容的可版权性。在2019年全国首例人工智能生成内容著作权纠纷案(以下简称“F案”)中[5],法院认为,自然人创作完成应是著作权法上作品的必要条件。人工智能软件利用输入的关键词与算法、规则和模板结合形成的文字内容,某种意义上讲可认定是人工智能软件“创作”了该内容。但即使人工智能软件“创作”的文字内容具有独创性,也不属于著作权法意义上的作品,不能认定人工智能软件是其作者并享有著作权法规定的相关权利。
不过,关于人工智能生成内容是否构成作品,我国司法实践也在进行探索。在上述F案中,虽然法院认为计算机软件智能生成的文字内容不构成作品,但并不意味其进入公有领域,可以被公众自由使用。计算机软件智能生成的文字内容既凝结了软件研发者的投入,也凝结了软件使用者的投入,具备传播价值。[6]而在2020年T公司与X公司侵害著作权纠纷、不正当竞争纠纷一案(以下简称“D案”)中,法院对人工智能生成内容的可版权性进行了探索。在该案中,法院认为,软件自动生成文章的过程虽然没有人的参与,但该软件自动运行的方式体现了原告主创团队人员的选择,也由该软件的特性所决定。因此,从文章生成过程来分析,该文章的表现形式是由主创团队个性化的安排与选择所决定的,体现了人的智力活动,其表现形式并非唯一,具有一定的独创性,构成作品。[7]
2. 人工智能生成内容的版权归属
由此引发的问题是,如果人工智能生成内容构成作品,那么著作权归属谁?人工智能生成作品的著作权归属主要涉及人工智能软件的开发环节与使用环节。如果人工智能软件的开发者与使用者竞合,那么权利归属不存在异议,但当人工智能生成软件的开发者和使用者不同一时,人工智能生成内容的著作权归属便存在一定争议。
在F案判决中,法院认为,软件开发者(所有者)没有根据其需求输入关键词进行检索,该分析报告并未传递软件研发者(所有者)的思想、感情的独创性表达;同理,软件用户仅提交了关键词进行搜索,应用“可视化”功能自动生成的分析报告亦非传递软件用户思想、感情的独创性表达,因此,软件研发者(所有者)和使用者均不应成为该分析报告的作者。[8]
而在D案中,法院认为,涉案文章是原告获授权使用D软件后,在原告的主持下,由包含编辑团队、产品团队、技术开发团队在内的主创团队运用D软件完成,因此,认定涉案文章是原告主持创作的法人作品,即著作权归软件使用者所有。
对比两个案例可以看出,人工智能生成作品的著作权归属,很大程度上取决于开发者或使用者的智力活动对于人工智能生成内容的独创性的贡献。就ChatGPT生成的内容而言,用户作为使用者大多是以简单的语言文字进行提问,对于人工智能生成内容的独创性作用较为有限。而ChatGPT生成内容更多依赖于其开发者OpenAI的设计、训练和引导。因此,从对内容独创性的贡献上说,开发者OpenAI似乎更符合ChatGPT内容的著作权人。
不过,根据OpenAI的《服务条款》[9],在法律允许的范围内,OpenAI将所提供的工具(包括ChatGPT)所产生内容的所有权利转移给用户。用户有责任确保生成的内容不违反法律或OpenAI的服务条款。此外,《服务条款》还明确指出,生成的内容不一定具有唯一性,多个用户可能获得相同或非常相似的内容。因此,尽管OpenAI可能被认为是ChatGPT生成内容的著作权人,鉴于OpenAI主动将其权益转让给用户,故该等情形下,ChatGPT生成内容的著作权应当归属于用户。
六、ChatGPT抓取第三方数据用于训练是否构成不正当竞争?
ChatGPT训练使用的数据大多来自于互联网上公开的网站、信息资源库、数字图书馆、专业数据库、社交媒体平台等。数据收集过程可能涉及利用爬虫协议等底层技术对数据进行搜索、抓取、分析,再用于训练ChatGPT。如果抓取的数据属于数据主体采用技术措施加密或未公开的内容,ChatGPT的提供方通过绕开数据主体设置的访问限制(比如网站用户对隐私内容设置为“他人不可见”)或绕开部分网站设置的真人审核(例如验证码方式)获取该等数据,那么不仅爬取行为本身可能存在非法获取计算机信息系统数据、侵犯个人信息或商业秘密的风险,ChatGPT使用该等训练数据向用户输出内容还存在不正当竞争的风险。
根据我国反不正当竞争相关司法实践,关于爬虫技术的使用是否构成不正当竞争,法院往往会根据《反不正当竞争法》第二条的原则性条款,即“经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为”,综合考虑数据抓取方和被抓取方间是否具有竞争关系、被抓取方是否对抓取的数据享有权益、抓取方的行为是否具有正当性、抓取方对抓取数据的使用是否具有正当性、是否给被抓取方造成相应的危害结果等因素后,判断是否构成不正当竞争。对于竞争关系的认定,在互联网经济领域,法院往往采用广义的理解,认为竞争方式主要表现为通过争夺消费者注意力获取竞争优势,实现经营利益,即使经营者之间不存在直接的竞争关系,经营者也因破坏其他经营者的竞争优势与其产生了竞争关系。[10]
因此,ChatGPT完全有可能被认定为与被抓取数据的数据库、社交媒体存在竞争关系。而如果ChatGPT抓取的数据对于被抓取方而言存在商业利益和竞争优势,ChatGPT的抓取行为存在违反Robots协议或法律声明、违反用户协议、行业自律公约等不正当的情形,从而对被抓取方的预期利益、合法市场份额、消费者信任度等造成损害,那么ChatGPT抓取训练数据的行为就可能构成不正当竞争。
另一方面,ChatGPT的爆红也引发了另一个不正当竞争问题。ChatGPT虽然未向大陆用户开放,但国内以“ChatGPT”“OpenAI”等字眼作为名称的小程序、公众号数量激增。这些产品的图标与ChatGPT类似,有些程序号称是ChatGPT的“国内版”,连通ChatGPT的API接口并提供转接服务,实际对话时答非所问,对话质量和ChatGPT相去甚远,显然属于“山寨货”。这些公众号小程序使用与ChatGPT相同或相似的名称及标志,宣传中刻意突出使用“ChatGPT”、误导用户认为与美国人工智能研究实验室 OpenAI 的 ChatGPT 有特定性关联,使消费者产生混淆误认,可能构成《反不正当竞争法》第六条规定的商业混淆不正当竞争行为。
结语
虽然ChatGPT目前并不完美,但它的出现对人工智能产业将产生深远影响,ChatGPT与图片生成、音视频生成、虚拟数字人等工具以及其他AI、云计算等技术集成,都让人们充满期待。人工智能是“人工”的,ChatGPT的研发、训练、使用都离不开人类的设计、控制和规范,与其说人类与ChatGPT等人工智能是人机关系,不如说实质上依然是人与人的关系、是个体与群体的关系(是单个个体与人工智能背后古今中外的群体智慧的关系)。如何构建人工智能伦理规范,引导人工智能积极发展,控制人工智能带来的风险,设定技术发展的边界,是人工智能发展的永恒议题,也是人工智能法律规范健全道路上绕不开的重心。
[注]