摘要:生成式人工智能在学习输入数据并进行输出的过程中可能侵犯复制权、信息网络传播权等多项著作权权利。生成式人工智能的所涉侵权主体与一般著作权侵权主体不同,呈现出复杂性的特点,其侵权责任也较难归属,存在侵权责任认定规则不明等问题。对此,本文对生成式人工智能所涉侵权认定、侵权主体及责任归属进行分析,并从开发者、服务提供者、使用者角度提出对生成式人工智能所涉侵权防范、规制的建议。
关键词:生成式人工智能;著作权;侵权责任;防范救济
当前,人工智能技术蓬勃发展,已经成为产业变革、促进新质生产力发展的重要力量。其中生成式人工智能能依据用户指令自动生成内容,并基于自然语言处理技术,实现与人类深度且流畅的交流,促进了人类智力劳动的解放,开拓了全新的市场。与传统人工智能不同,生成式人工智能具备对输入数据进行处理的能力,且能学习并模拟事物内在规律,生成一定程度上预期的生成物,这也给生产、生活带来了极大的便捷。
同时,人工智能的发展也带来了一系列著作权侵权问题。目前我国虽然已经出台某些法律法规,但仍然无法对人工智能侵权行为进行全面规制,对生成式人工智能的侵权标准、侵权主体等问题仍然存在众多争议,有待进一步探讨并完善。
一、生成式人工智能所涉侵权边界标准
涉及生成式人工智能侵权的主要有三个环节:一是数据收集与训练阶段。此阶段主要涉及数据来源是否侵权,如未经授权使用他人享有著作权保护的内容,就有可能面临侵权。二是算法设计与开发阶段。有的算法本身就可能涉及专利侵权或软件著作权侵权。三是内容生成与输出阶段。如生成式人工智能输出的文本或图像等,与原有作品高度相似,就有可能侵犯原作品的复制权、改编权等著作权权利。这一阶段输出的内容,也面临能否成为《中华人民共和国著作权法》保护的作品及如何成为《中华人民共和国著作权法》意义上的作品,其权利主体的认定问题。
讨论生成式人工智能的侵权问题,首先需要判断在什么情况下其将构成侵权行为,即确定侵权行为的标准。当前学界普遍主张应当重点关注生成式人工智能中数据训练中的复制行为与输出作品的行为,并进行评价是否构成侵权。
针对数据输入训练行为,可以分为非法复制行为与合法取得训练数据行为。非法复制行为即针对数据的输入而言的。生成式人工智能在信息获取阶段,往往通过爬虫技术等数据收集手段大批量地从互联网中爬取数据,用于模型的训练,当这种行为未经著作权人许可时,则将构成对著作权人复制权、汇编权或信息网络传播权的侵犯。但是,由于人工智能获取数据信息的行为通常不会公开,被侵权人收集侵权证据的难度较大。当被侵权人难以获得自己作品受到非法复制的证据时,法律实践中往往通过“接触”规则来推定是否存在侵权行为,如果作品权利人又有证据表明被告在此前具备了掌握该作品的条件,且与被侵权人作品构成实质性相似则可推定侵权行为的存在;对合法获取训练数据的情形,则不应认定构成侵权。如人工智能使用者或服务提供者已经合法取得图文等作品的使用权或者用自己的作品作为训练数据。此种情形下,人工智能作品增添了新的表达方式、意义或内容,就不构成侵权。
对输出的生成物内容是否侵权,则应当考虑人工智能的使用者,即被控侵权人是否事先“接触”被侵权作品,及引导输出的生成物与现有作品(被侵权作品)是否相同或实质性相似。
由此可见,不论是数据输入阶段,抑或是生成物输出阶段,对人工智能作品侵权的判断,还是遵循“接触”加“相似”原则,尤其是对“实质性相似”的界定是判断生成式人工智能是否侵权的重要考量因素。《中华人民共和国著作权法》第三条规定:“本法所称的作品,是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果。”界定是否构成“实质性相似”本质上是对原作者作品独创性的保护。“实质性相似”指的是被诉侵权的人工智能生成内容取用了原作品的受保护表达,达到了足以引起受众相同或类似感受的程度。实践中,判断“实质性相似”有多种方法,如普通观众测试法、抽象测试法、内外部测试法等,按照比例原则、整体性原则、独创性保护原则等进行评判。
二、生成式人工智能侵权主体与责任归属
在生成式人工智能的侵权问题上,其主体表现出不同以往的复杂性特征,涉及人工智能技术研发、数据训练、生成物使用等不同的主体。
生成式人工智能侵权主体,首先应当具备作为法律主体来承担侵权责任的能力,《中华人民共和国民法典》第一百七十六条规定:“民事主体依照法律规定或者按照当事人约定,履行民事义务,承担民事责任。”因此,民事责任承担的主体是限于符合要求的自然人、法人、非法人组织。人工智能作为一种开发者研发的算法,并没有民事责任能力,故其本身不能作为著作权侵权行为的主体。然而,这并不等同于人工智能生成内容都不受著作权保护,因为其虽由算法生成,但形式却受人类干预,体现了人类意志。若人工智能通过合法的渠道获得模型训练数据且生成内容确实体现出独创性,则在一定条件下可以承认该内容的可版权性。如2023年3月美国版权局明确基于AI技术自动生成物的内容不享有著作权保护,而人类使用软件创造的图像则受保护。
如上文所述,生成式人工智能并不能作为侵权主体,也无著作权主体资格,因此其生成内容产生的侵权责任主要归属于以下三个主体,即人工智能开发者(设计者)、人工智能产品服务提供者(服务平台)和使用者(用户)。人工智能服务提供者有时会与开发者相重合。
对此,应明确各主体间的责任承担、归属。有学者认为,人工智能开发者是对人工智能算法起决定性作用的主体,生成式人工智能的设计、开发等环节均围绕开发者展开,开发者应负主要责任;另有学者认为,“相较于产品设计者,服务平台作为直接面向市场的服务提供者,应承担更多侵权责任。这是因为设计者并不直接介入服务的提供过程,而服务平台,作为商业运营的主体,对AI技术及算法的设计、优化及市场投放拥有更高的控制权与决策权”。 这两种观点其实都并不完备,开发者与服务提供者的责任分配需要置于具体情形中考虑,综合适用过错责任原则和过错推定原则。一般情况下,做出具体侵权行为的主体承担侵权责任;但当开发者、人工智能服务提供者有过错时,如未经著作权人允许使用其作品训练模型,人工智能服务提供者未及时采取必要措施避免损害行为的扩大,则也应推定其有过错,承担相应的侵权责任。
而对于人工智能使用者的侵权责任则应采取过错原则,尽管人工智能使用者对生成内容的创造发出直接指令,但是作为人工智能产品的消费者,其如果做到合理使用,则应当不承担责任。反之,如人工智能使用者在明知先前作品存在的情况下,故意利用人工智能产品重复生成与原作品具有“实质性相似”的内容,或故意使用一些诱导性的提示词来诱使人工智能生成侵权生成物,则其行为应被认定为积极的侵权行为,须承担相应的侵权法律责任。
三、生成式人工智能纠纷的司法实践及比较研究
当前,我国并没有一部关于人工智能的专门立法,在司法实践中,往往依照现有的法律如知识产权法、数据安全法等相关条文来作为判决依据。如2024年,广州互联网法院作出了全球首例生成式AI服务侵权判决,即“新创华诉某科技公司案”,该案判决中法院将审理重心放在生成式人工智能服务提供者的注意义务问题上,在判决中以“实质性相似”加“接触”为要件,认定被告调用他人模型服务输出生成物的行为构成著作权侵权 。又如2025年,江苏省常熟市人民法院审理了全国第二例AIGC著作权侵权纠纷案,原告林某通过AI工具生成一作品,被告未经许可复制并用于商业宣传,法院最终认定原告对AI生成物享有著作权,并判决被告承担侵权责任。
在人工智能管理方面,加强对人工智能生成管理越来越被重视。当今,部分国家已经准备将人工智能训练数据版权信息披露纳入强制性规定,2023年6月,欧洲议会提议在《人工智能法(草案)》引入的第二个版权条款即提到了版权透明义务:“智能企业应记录并公开一份足够详细的使用受版权保护的训练数据的概要。”除此之外,2023年美国众议院议员提出立法草案《生成式人工智能版权披露法案》要求,人工智能企业在智能产品新版本或更新版本发布上市至少30天前,向美国版权局提交一份足够详细的关于人工智能数据训练所用版权作品的概要;若训练数据是网络上的公开数据,则应提交其网址链接。而对输出阶段所涉作品的可版权性,目前都是按一般作品认定,其作品的著作权一般也认定为“自然人”所有,而非人工智能所有。如美国2023年《版权登记指南》中明确,完全AI生成物无版权保护,人类与AI合作作品,需披露AI使用并证明人类对内容的选择编排具有“足够创造性”。
2025年4月,我国发布了《网络安全技术 生成式人工智能服务安全基本要求》,对数据来源安全、数据内容管理、数据标注安全等作出规定,通过制定安全基线,防范生成式人工智能在训练、模型、应用过程中可能引发的违法信息传播等风险,也指导规制了生成式人工智能在输入、学习、输出等阶段的包括著作权在内的权利保护问题。
四、对生成式人工智能侵权防范的思考
规范生成式人工智能,并对其侵权行为进行防范、救济有利于承认并尊重原作者表达权利,实现其权利的保护。目前人工智能生成内容侵权的核心问题在于训练数据侵权。在我国缺乏相关强制性法律规范的情况下,通过加强立法确立对训练数据版权信息的公示制度,从而确保训练数据来源符合著作权规定,并明确开发者、服务提供者、使用者各自的权利义务,是一条促进生成式人工智能科学发展的有效路径。
(一)建立生成式人工智能训练数据版权信息披露制度
如前所述,各国已经开始制定规则,要求大规模预训练需要披露使用的人类知识产权数据。其目的就是预防人工智能创造对人类成果的作者和权利人造成冲击,造成侵权行为的不断发生。从当前情况看,人工智能算法模型训练中大量运用其他人的作品作为训练数据,却缺乏提示说明、公开披露,这种情况普遍存在。据此,有必要建立训练数据版权信息披露制度。训练数据版权信息披露制度类似企业信息披露制度,其披露对象的范围为训练数据中能集中识别、筛选出版权信息的数据。建立开发者训练数据版权信息披露制度,有助于开发者合理、合法使用训练数据,有利于权利人著作权的保护。同时,信息披露也不能忽视对他人个人信息、商业秘密、国家秘密的保护。目前生成式人工智能在数据收集后的使用环节尚存非法泄露个人数据的风险,《中华人民共和国个人信息保护法》第六条明确规定,处理个人信息应当具有明确、合理的目的,并应当与处理目的直接相关,采取对个人权益影响最小的方式。收集个人信息,应当限于实现处理目的的最小范围,不得过度收集个人信息。
(二)构建生成式人工智能风险防控管理体系
生成式人工智能在投入市场运行之后,人工智能服务提供者仍然对生成式人工智能负有管理、控制责任,并不具有“一劳永逸”的特点。这就有必要促使生成式人工智能服务提供者在将人工智能技术推向市场之前,必须构建健全的风险管理体系,一定程度上预见潜在的损害并主动采取预防措施。如《中华人民共和国数据安全法》第二十二条明确要求建立“统一集中、高效权威的数据安全风险评估,信息共享、监测预警机制”,此法条对规范人工智能服务提供者行为具有借鉴价值。同时,服务提供者也需要遵守《网络数据安全管理条例》第十九条规定,提供生成式人工智能服务的网络数据处理者应当加强对训练数据和训练数据处理活动的安全管理,采取有效措施防范和处置网络数据安全风险。
(三)增加合理使用生成式人工智能不侵权的认定
随着人工智能的发展,人工智能产品及人工智能所生成的产品必然会越来越多,在此情况下,网络用户使用人工智能包括使用人工智能生成物的情况也将越来越多,这时应构建人工智能合理使用不作为侵权认定的制度,即网络用户只要基于对生成式人工智能服务的信任,主观上并不存在侵权的故意,也无积极的侵权行为,而合理使用人工智能,创造生成式人工智能作品,则应考虑免除其侵权责任。这与《中华人民共和国著作权法》中的合理使用制度并不完全相同,但可以与该制度相结合,延伸该制度的适用,在一定的条件下允许网络用户可不经著作权人许可、不向著作权人支付报酬而创造或使用作品。如美国旧金山一位联邦法官日前裁定,由亚马逊支持的AI初创公司Anthropic利用图书训练其大模型Claude未侵犯作者版权,法官称之为“合理使用”“具有高度转化性”。生成式人工智能使用者的合理使用制度的建立,是对一般使用者公共利益的平衡,也是对生成式人工智能开发的一种规制,有利于促进人工智能的科学发展。