设为首页 | 加入收藏 | 联系我们

河北法学

精文推荐

当前位置: 期刊首页 >> 精文推荐 >> 正文



【数字法治研究|牛彬彬】生成式AI数据训练中的著作权合理使用规则研究
日期: 2026-04-09      信息来源:      点击数:

作者简介牛彬彬,男,山东德州人,湖州师范学院沈家本法学院副教授,法学博士,研究方向:数字法治。


摘要使用版权作品训练的生成式大模型不仅面临版权侵权风险,还可能扰乱表达性市场的秩序。大模型的技术特征是基于概率预测的表达模式推导和数据类型区分的模型训练。根据这一技术特征,将版权作品应用于测试集或验证集时,出现上述风险的概率较低。综合大模型训练特点、我国产业发展现状以及各国经验,大模型训练中版权作品的使用性质与许可模式应采取合理使用为宜。为降低侵权风险、减少对版权市场的冲击,需为其划定相应的范围,即当版权作品用于测试集与验证集时,才属于合理使用的范畴。同时合理确定义务人的版权过滤义务,并设计大模型服务中的避风港规则,以实现激励技术创新与版权人利益保护之间的有效平衡。

关键词生成式AI文本与数据挖掘例外;训练数据;合理使用;作品性使用


引言

生成式AI作为一项互联网信息技术的重大变革,其逻辑推理能力以及对人类的理解能力较之于以往的AI技术获得了极大的提升,推动人类社会迈入知识生产的新时代。训练数据是大模型训练的必要储备,各种形式的作品被生成式大模型作为先验知识加以整合,成为生成式大模型的基本营养素。然而,AI训练数据的收集和处理往往涉及大量文字、图片、音频和视频等内容,其中也包括大量的版权作品,随着生成式AI技术的发展与应用场景的拓展,大模型训练中的版权问题也日益突出。2024320日,法国竞争管理局因谷歌在未通知且未向出版商、新闻机构支付报酬而使用其版权内容,对其处以2.5亿欧元罚款;与此同时,Meta、微软等科技巨头也因为使用包含大量盗版书的数据集训练AI模型,而遭到集体诉讼。各地法院就相关案件也相继作出判决。Thomson Reuters Enterprise Centre GmbH v. Ross Intelligence Inc.一案中,法院明确指出未经版权人许可的AI训练构成直接侵权,且不属于合理使用;但是,在Kadrey v. Meta Platforms一案中,法院却作出了相反的判决,并认为使用版权作品训练Llama大语言模型构成合理使用。事实相似的两起案件,其判决结果却截然不同,这也使得版权作品材料应用于大模型训练的行为性质问题变得更加扑朔迷离。我国司法实务中同样存在此类问题。早在20237月,多位博主起诉小红书,认为小红书平台在未经原作作者许可的前提下,擅自使用他人作品训练大模型侵犯原作作者的著作权,但我国司法实践却至今未作出回应。生成式AI技术的跨越式发展既重塑了人类知识生产范式,也因训练数据的版权争议暴露了法律适用的模糊地带。在域外对合理使用标准存在根本分歧、我国司法尚未形成明确规则的背景下,如何平衡技术创新激励与著作权人权益保护已成为AI治理的核心议题。本文聚焦于讨论大模型训练中版权作品的使用问题,在厘清其行为性质的基础上,为进一步规范大模型训练中的版权作品使用行为提出相应的制度建议。


一、生成式AI数据训练的技术机理及其风险概述

(一)技术机理:基于概率的表达模式预测

大模型训练过程可以总结为以下两个特点:基于概率预测的表达模式推导和基于数据类型区分的模型训练。

第一, 基于概率预测的表达模式推导。在预处理阶段,生成式AI系统接收大量的原始数据作为训练集,其包括文本、图像、音频等多种格式,并对原始数据加以清洗和标准化处理等,以便于模型有效学习和理解;在模型学习和预训练阶段,生成式AI利用其内部算法分析训练数据,尝试理解数据之间的潜在关系和模式,也因此,AI的创作经常被描述为一个概率式的过程,其根据用户的提示或输入的上下文,通过推断训练样本中输入值和输出值之间的重复关系来提取复杂的概率分布,尝试生成符合统计规律的表达序列。随着训练迭代的进行,模型的参数持续优化直至性能趋于稳定。当模型的显著性不再提升时,与特定输入相关的概率映射关系也被固定于特定输出之上,由此大模型也就形成相对稳定的内容生产模式。

第二, 基于数据类型区分的模型训练。在生成式AI的训练过程中,训练数据集一般会被分为训练集(training set验证集(validation set测试集(testing set。在训练集上,模型初步尝试学习数据的内在模式和关系,验证集则用于在训练过程中调整模型的超参数,并检查模型是否过拟合或欠拟合,以使模型获得良好的泛化能力;测试集与验证集则是模型在训练过程中从未使用过的数据,其主要目的是在模型开发完毕后,评估模型的最终性能。在训练集上,大模型可能会对特定作品刻意、反复训练,或者将某些具有强烈风格的作品识别为特定艺术流派,进而被大模型强化记忆。有研究表明,如果不采取相应措施,生成式AI的记忆风险可能会随着该大模型规模和能力的增加而增加;同时,人工提示工程也可以很好地辅助实现原版权内容的复制或者生成风格近似的作品。这些都潜在地加大了生成式AI的版权侵权风险。而当版权数据用于测试集和验证集时,其主要用于评估模型的性能和质量,以提高特定模型的泛化能力。

(二)潜在风险:版权侵权与表达性市场扰乱

版权市场的秩序稳定有赖于版权价值实现与知识溢出的平衡。版权价值的实现过程,一方面借助于著作人格权(如署名权),使作者实现身份认同和获得社会声誉,从而得到精神满足与成就感;另一方面通过著作财产权,使作者得以从创作中获得经济回报。知识溢出是指作品中的非表达性元素进入公共领域,供社会自由使用。版权价值实现与知识溢出是著作权法中一组相互协同的价值,版权价值的充分实现能够增强作者的创作意愿、激励创作行为;同时,合理的知识溢出在增加公共知识积累的同时,进一步保障作者持续创作的动力。著作权法旨在通过给予创作者对其作品的独家控制权来激励创作和创新,其以保护独创性表达为核心任务和宗旨,赋予创作者对其独创性表达以各种权益,并在此基础上因应表达性市场的层次化需求,通过各种保护机制有序释放版权作品的知识价值。然而,大模型训练中版权作品的使用却面临诸多风险,其中主要体现在如下两个方面:

第一, 过拟合风险可能导致过度知识溢出,从而引发版权侵权风险。思想表达二分法强调版权应被严格限制于表现形式领域,作品中不属于表达领域或范围的所有元素都允许其溢出到公共领域,供所有人使用。生成式大模型作为一种表达性内容的生成与输出机制,在借助版权作品进行模型训练的过程中,可能不当学习并复现版权作品中受保护的表达性元素,从而存在知识过度溢出的风险,并引发该行为是否构成作品复制的争议。第二,竞争性表达生成能力可能会扰乱市场秩序。著作权的各项权能安排是基于版权使用者对版权作品需求的不同目的而设计,由此也形成了由原创作品与各类演绎作品构成的层次化市场格局。生成式AI作为创作辅助工具,正在不断试探着知识溢出的边界。生成式AI使创作者更容易制作版权材料,它使得用户可能以极低的成本、更加均质化的方式批量生成竞争性表达:用户可以借助生成式AI工具以及人类提示工程一键生成包括原作或演绎作品在内的各种作品类型,满足欣赏、复制、改编等多项市场需求。这些竞争性表达可能会挤占原作者作品的市场空间,扰乱表达性市场的稳定秩序。


二、大模型训练中的版权作品使用行为是否属于侵权?

目前关于大模型训练中版权作品的使用是否属于侵权主要存在三种观点:不侵权说、侵权说、侵权但豁免说。本文持第三种观点。原因在于以下几点:

(一)不侵权说的观点悖谬

持有不侵权说观点的学者认为大模型数据训练行为应属于非作品性使用,不落入著作权法保护范畴。但这一观点有待商榷。

一般认为,只有当使用行为属于某一专有权的受控范围时,才会考量著作权法的规范可能。也即,只有当对版权作品的使用构成作品性使用时,使用行为才会落入著作权法的规制范围。关于大模型训练中版权作品的使用性质是否为作品性使用,目前学界也存在一定争议。经笔者梳理,大致有如下三种观点:(1作品性使用说,在Doe v. GithubInc.一案中原告声称:生成式AI所输出的每一个字,都是作为训练数据使用的版权作品的衍生作品,被告未经其许可便使用其受版权保护的作品数据,系作品复制行为,并属于作品性使用。(2非作品性使用说,使用版权作品进行数据训练的行为具有过程性和工具性,其并非针对特定作品或作品集合表达价值的直接利用,具有较强的非特定性,因此,不属于传统意义上的作品性使用的范畴。(3)两阶段说,这一观点认为,在模型的内部训练阶段,版权作品使用的目的在于大模型的生成,当属非作品性使用;但若自输出阶段视之,生成式大模型会根据前期喂养的作品数据,以及用户的指令或提示输出各种形式表达性内容,应属于作品性使用

非作品性使用的观点具有一定的合理之处,这也是持有不侵权说者的主要理由。AI的学习或者训练行为在本质上是分析文本、元素之间的分布规律,是一种基于概率预测的表达模式推导,以发现文字或单词在一般表达中的顺序规律,而不是为了学习特定表达,这种规律属于思想而非表达。具体而言,ChatGPT并非通过阅读整本作品来训练,程序在阅读完一段内容后,会跳转到不同文本的另一部分,试图预测某个单词后面会出现什么文本。这个过程在数据集中重复进行。由此观之,在大多数情形下,训练数据和生成式AI输出内容之间的联系被一个分解、抽象和重新混合的过程所减弱,经过复杂的多层神经网络训练,其生成内容也具有高度不确定性和随机性。而某些生成式人工智能的内容生成物虽然让人联想到原始数据集的符号结构,但其内容生成过程是涌现性的,而非通过完全复制获得的。这也是非作品性使用之观点的合理之处。

然而,非作品性使用的观点混淆了大模型训练中的训练测试两个阶段。在训练阶段,模型在给定的文本语料库中学习表达规律,并同步完成参数优化。若模型的泛化能力不足,或训练所依赖的语料库具有特定的表达风格,模型便可能从训练材料中深度挖掘其表达规律与模式,乃至学习其中的思想与表达性元素。这在本质上仍然是作品性使用use of work),因为此时模型已具备输出受版权保护表达的能力。微软公司开发的下一个伦勃朗人工智能产品便是最好的例证。在该项目中,人工智能通过深度学习伦勃朗的346幅画,创作出了具有伦勃朗作品的风格但又具有独创性的绘画生成物。由此可见,大模型可以使用并输出版权作品中的表达性特征,潜在的模型过拟合可能直接引发版权侵权风险。但是当版权作品用于测试或验证的数据集时,其使用目的在于模型验证与校准、泛化能力的提升、防止出现过拟合,这一阶段的作品使用相对而言更具转换性,与训练阶段的表达性使用存在显著差异。

客观地讲,使用版权作品进行模型训练的行为在法律性质上当属于作品性使用,因为其存在以概率形式固定特定表达的作品复制风险;除非其完全将版权作品作为验证集测试集数据加以使用。以版权数据训练不属于作品性使用而将此种行为完全排除在著作权法规制范围之外的观点,并不合理。

(二)侵权说的观点弊端

侵权说的观点主要强调在大模型训练中可能存在对原作品的复制,侵犯原作品的复制权改编权。然而侵权说近期却逐渐式微。其原因在于以下两点:

第一,从行为结果看,不宜认定为侵权行为。其原因在于,生成式大模型直接输出原作品内容的概率极低,且训练样本的数量越多、内容越多样,其生成与原作相同或近似表达的概率越低。虽然存在某些为生成某些特定风格作品而进行的、主观恶意较为明显的数据训练行为,但由于风格并非著作权法保护客体,因而也难以将其归入著作权侵权行为之列。

第二,从产业发展角度看,也不宜将大模型版权作品使用认定为侵权,其有碍我国大模型产业的发展,应当为大模型训练中的版权作品使用开辟一定的许可机制。人工智能服务提供者能否合法地、低成本地、高效地获取训练数据资源,直接决定着一国人工智能产业发展速度与竞争能力。为了促进本国大模型产业的发展,各国纷纷尝试为大模型训练中的版权作品使用开辟制度空间。因而模型训练中版权作品使用许可机制的建立十分必要。

(三)侵权但豁免说的主要观点

基于大模型训练的基本技术机理以及当前大模型产业发展的政策考量,应当承认大模型训练行为的侵权性质,并为其提供例外豁免机制。目前学界主要有三种主张:第一,采用著作权法定许可制度;第二,属于临时复制,从而阻却侵权。第三,在合理使用框架下开辟版权作品数据挖掘的制度空间,包括设置文本与数据挖掘的例外规则。下文笔者将主要介绍这三种观点的可行性以及应然选择。


三、使用版权作品训练大模型的行为应界定为合理使用

(一)不具备推行法定许可的条件

部分学者认为,针对大模型训练中版权作品的使用,应采著作权法定许可制度,以实现为AI服务提供者减负、促进AI技术和产业发展的目的;目前已经有平台机构借助于自身力量进行版权作品训练的许可机制设计,例如英伟达公司推出了自己的服务毕加索,该服务使用人工智能从文本描述中生成图像、视频和3D应用程序。英伟达在Getty ImagesShutterstock Inc.许可的图像上训练相应生成式AI模型,并承诺将相关收入用于支付创作者特许权使用费。

但是目前来看,法定许可并不合适,此方案存在报酬确定与征收机制的双重困惑。欧盟一份关于ChatGPT的评估报告指出,一个科研项目如若需要挖掘187个期刊的3000篇文章,其许可成本在3399英镑到18 630英镑之间,一个大型的科研机构仅许可成本便可能会花费50万英镑。有学者指出,法定许可大概率会过度剥夺机器学习者投资开发生成式人工智能的激励。况且,创建大模型所使用的作品数以千万计,任何一件作品对于大模型的运作贡献都是微不足道的,从成本收益的角度分析,法定许可的谈判成本与收益严重失衡;另外,即便采用法定许可制度,由谁来征收许可费也是一个有待确定的问题。类似的观点也同样存在问题,如有观点认为,可以建立生成式AI服务商的征税机制,用于设立相应的基金、补贴人类作者,以平衡作者与生成式AI作者之间的紧张关系。但是,在我国著作权集体管理机制并不完善的背景下,建立此类机制不仅需要耗费相当规模的制度成本,而且其是否能够真正助力大模型产业的发展仍然存疑。因此,至少从现阶段看,向训练数据作品版权人提供报酬的做法既不合适也不可行。

(二)不属于临时复制

有些学者认为,将版权作品用于数据训练的行为属于临时使用,但这一观点显然并不合适。临时复制是版权侵权豁免的特殊事由,强调在作品使用结束后,使用者使用的作品并不需要被留存为永久副本。各国或地区普遍将临时复制行为作为版权侵权的例外规定。但生成式AI的文本挖掘目的在于建立一个稳定的原材料语料库”——“一个不仅具有临时或短暂性质的语料库,以实现模型的训练、测试以及更新迭代。这一观点已经得到司法实践的支持。2024927日,德国汉堡地区法院作出的310 O 227/23号判决也认定,被告作为生成式AI 开发者,在创建训练数据集时下载并储存原告的版权作品进行模型训练的行为,并非临时复制行为,而是有意识的采购过程。由此可见,也不宜以临时复制为由豁免侵权认定。在严格意义上,使用版权作品进行模型训练的行为应认定为侵犯作品复制权。

(三)合理使用是当前较为合适的制度选择

法定许可临时复制相比,合理使用作为大模型训练中版权作品使用的许可方案或许更为合适。

1.符合大模型训练的技术特征与本质

大模型训练的技术特征表现为借助于已有作品的概率式表达模式推导,其最终的功能呈现是表达性的。大模型训练中的版权作品使用属于作品性使用,其训练行为应当受到著作权法的规制。我们姑且不论其生成侵权表达的概率,单就其训练目的来看,确实具有一定程度的转换性:大模型训练者从训练数据集中提取普遍的表达规律和模式,并在测试集与验证集上优化和提升模型的生成能力。虽然存在生成竞争性表达的可能,但至少从训练目的上看,模型训练者并非为储存固定表达模式的目的进行训练,因而应当被视为一种转换性使用。至少将版权作品用于测试集与验证集时,其应当属于转换性使用

2.制度成本低,可操作性强

相比于法定许可制度,合理使用制度不需要建立复杂的许可机制或征收机制,以《著作权法》第24条第1款第13项的兜底条款为接口,以《著作权法实施条例》的修改为契机,并在此基础上明确大模型训练中版权作品的使用规则。通过对版权作品合理使用行为进行限制,进一步降低版权侵权风险,减少版权作品使用的负外部性。因此,合理使用制度在当前我国大模型产业发展的现状下成为一种更为适宜的制度选择。

3.比较法经验

纵观各国(地区)在大模型训练中版权作品使用的许可机制选择,似乎大部分更加倾向于采取合理使用

1)美国:转换性使用+市场无害为标准的裁量模式

美国的合理使用制度更多地体现了美国司法实用主义的特点,要求法官在个案中通过对合理使用四要素灵活裁量,平衡版权垄断与公共利益。在判断是否属于合理使用时,不仅需要评价使用行为本身是否具有转换性,而且要从结果端考察是否对原作构成市场性替代。新近判决反映了美国对待大模型训练中版权作品使用的基本态度。在Thomson Reuters一案中,被告败诉的一个主要原因在于,其直接复制法律数据库的核心内容开发竞品,并且被告开发内容与原告产品存在市场竞争关系。Meta用影子图书馆下载的受版权保护的书籍训练大模型一案中,法院作出了支持大模型开发者一方的判决。美国法院认为,被告使用原告的版权材料进行模型训练的行为具有高度转换性,同时也强调,本案原告最终败诉的原因是原告未能充分举证证明被告的行为对原告造成市场损害。美国对于大模型训练中版权作品使用的态度,更多地交由法官在司法实践中进行个案判断。总体上看,美国的合理使用制度对生成式AI训练的适用呈现目的转换性+结果无害性的双轨逻辑,具有较强的灵活性与实用性。

2)欧盟:以非营利+可撤回同意为特征的TDM例外

作为版权保护的例外,欧盟《数字化单一市场版权指令》第3条确立文本与数据挖掘的例外规则。欧盟《关于版权的数据单一市场指令(CDSM)》(以下简称《指令》)中,明确文本和数据挖掘属于版权作品使用保护的例外情形。同时,欧盟《指令》又为文本与数据挖掘目的设置了两项例外:第一,为文本与数据挖掘目的的版权作品使用强调为非营利目的;第二,允许作品版权人随时撤回版权作品作为训练数据的同意。前者的立法目的在于在欧盟版权法中引入一个强制性的例外条款,以豁免研究组织或文化机构为科学研究目的进行文本与数据挖掘的行为。

受德国古典哲学的影响,欧盟的著作权法特别注重对著作人格权的保护,其文本与数据挖掘例外条款中允许版权人撤回同意,这一保护立场体现了对版权人的绝对尊重。然而,这一方案也招致诸多质疑,《指令》中允许版权人撤回同意的规定可能会导致训练样本覆盖不全面,甚至可能会生成存在偏见的AI模型。除此之外,《指令》中非营利目的的界定也较为模糊。

3)日本:非享受目的为核心的开放性合理使用制度

与其他国家(地区)相比,日本对于大模型训练中版权作品的使用持有更加开放的态度,以推动本国大模型产业的发展。日本版权法允许在基于非享受(nonenjoyment)目的前提下使用作品,包括但不限于:1)用于技术开发实验;2)用于文本与数据挖掘;3)在计算机数据处理过程中,不涉及通过人类感官感知作品表达的情况。由此观之,日本对大模型训练中的版权作品使用基本采取不设防的态度。

4)新加坡:以TDM例外与合理使用并行的混合模式

与上述国家(地区)相比,新加坡对大模型训练中的版权作品使用采取文本与数据挖掘例外+合理使用的混合模式。具体而言,新加坡通过专项立法,在设置类似欧盟的文本与数据挖掘例外条款的基础上,增设开放式条款,当版权作品的使用行为超出了专项例外条款的范围时,则引入合理使用四要素平衡测试(目的性质、作品性质、使用比例、市场影响),试图在维持法律确定性的同时,又为新技术预留灵活性。

总体上看,各国(地区)在大模型训练中版权作品保护限制方案选择的问题上,呈现出一方面考量本国(地区)著作权法体系,另一方面也结合本国(地区)大模型产业发展的态度。若效仿欧盟设置单独的文本与数据挖掘例外条款,则意味着我们需要在《著作权法》中另行增加相应条款,同时也要支出更多的立法成本。而《著作权法》的第三次修订于2020年年末结束,短期内通过修法的方式增加独立的文本与数据挖掘条款显然并不现实。日本丝毫不加限制地将大模型开发中的所有版权作品使用行为全部认定为合理使用也并不合适,其没有划定版权作品使用的范围和尺度,导致合理使用条款弹性过大,可能会引发表达性市场秩序失衡。新加坡的混合模式,一方面需要耗费一定的立法成本,另一方面可能造成制度层面的叠床架屋,也并非最优方案。美国作为判例法国家,借助于较为开放的合理使用的四要素,更加强调法官在个案中对四要素的灵活适用,也赋予法官更多的自由裁量空间,似乎较为合适。但我国的合理使用条款采用的是封闭列举框架,其明显不欲给予法官在这一问题上较大的自由裁量空间。为了实现大模型预训练中的版权利益保护,未来应当进一步细化模型训练中的版权作品使用规范,为版权作品使用划定相对明确的范围。

(四)需要划定合理使用的范围

早有学者对设置大模型训练中的版权作品合理使用制度持有批判态度,并认为合理使用制度对适用范围明确性的要求极高,随时处在变化中的技术会损及公平。诚然,若径行将模型训练作为作品合理使用的一种类型,可能会忽视生成式AI场景下的主体交互逻辑和利益关系,如不加以任何限制,由此产生的负面效果反而会消弭合理使用制度在生成式AI应用中的正当性。学界也日益强调对大模型生成中版权数据合理使用进行限制。划定合理使用范围的目的主要在于以下几个方面:

首先,防止大模型生成竞争性表达,鼓励并提倡生成式AI的一般性表达生成能力,以此防止生成式AI的竞争性表达生成能力造成版权人的市场损失。防止版权人的市场损失是合理使用制度的重要规范意旨。美国《版权法》第107条所列诸项合理使用原则,皆是从不同角度强调合理使用以不使权利人遭受市场损失为前提。但允许免费使用版权作品开发大模型,势必会造成原版权作品的实质性市场损失。版权法中对于独创性标准的要求之低,以致风格近似作品难以被认定为侵权,但此类风格近似作品却与原作之间存在事实上的市场竞争关系,也有学者将此种表达称为竞争性表达competitive expression)。我们姑且不论风格模仿是否属于版权侵权,但大量短期生成的、具备特定风格的生成物内容,可能对现有的、稳定的表达性市场秩序造成相当程度的破坏,尤其可能会减少特定风格作品在市场上的稀缺性;其既无法增益表达性市场的创新,更可能有损于创作者的积极性,加剧表达性市场不正当竞争。例如漫画家金俊基及粉丝极力抵制人工智能按照其风格生成美术作品。好莱坞演员也出于对生成式AI的超强生成能力的恐慌而开展罢工活动。这些事件都折射出大模型时代创作者对作品市场价值被稀释的深层焦虑。

其次,确保生成式AI生成内容与既有版权作品之间存在差异化表达空间。促进公共领域文化多样性的发展是版权制度的一项重要目的。人类文学艺术作品具有社会价值,其不仅是创作者个人感受的个性化表达,也是当前社会现状的反映,甚至可以成为社会和政治变革的重要推动力,社会公众对文学艺术作品中审美表达的积极认同、挪用和创造性地重组,具有重要的内在价值;而生成式AI将这一过程降级为机器的自动化过程,显然削弱了这一过程中的社会意义。当生成式AI被规模化地用于文艺作品创作时,表达性市场中将会充斥大量的、由AI创作的同质化作品,随之而来的,是创作者对AI工具的依赖性增加、作品同质化现象日益严重以及创意来源的萎缩与枯竭。可见,允许甚至鼓励大模型机械式的、欠缺创新能力与社会意义的风格模仿能力,不仅于文化产业的意义甚微,而且放任生成式AI生成风格近似或内容近似的竞争性表达产品流向市场,意味着用户借生成式AI可以在极短的时间、以极低的成本和极高的效率获得目标作品,这一方面可能极大损害原创作者的创作积极性、侵犯他人在先权利,另一方面,作品的审美价值和社会意义都将大打折扣,由此反而抑制真正的创新精神和原创能力的培养。正如某些学者所言,知识产权制度为生成式AI的竞争性表达生成能力开辟制度空间,是一种极度浪费的行为。因而我们应当强调生成式AI的内容生成物与既有版权作品之间存在一定的差异化。

再次,社会自我调解机制很难完全应对生成式AI的负外部性。生成式AI的负外部性系其潜在的竞争性表达生成能力所致。有学者认为使用版权数据进行模型训练所带来的负外部效应可以由社会自我调节机制自行消化,例如其可以促进创作效率并提升市场收益,促使人工创作作品产生稀缺价值并衍生更多工作形态变迁,因循这一观点逻辑,自然也无需为版权作品合理使用划定边界。也有学者强调训练数据版权规制的终端转向,即由AI使用者承担相应的责任。诚然,生成式AI的确提高了创作效率,但由于制度层面目前对于生成物性质仍无规定、理论层面也存在争议,完全由人工智能生成的作品在短时间内恐怕无法真正充斥于表达性市场。生成式AI在强大的学习能力和生成能力的加持下,其创作的作品几乎能够达到以假乱真的效果,加之目前生成式AI多以辅助人类创作的方式呈现,因而我们目前也很难能够真正厘清哪些作品由人工智能创作、哪些由人工创作。即便未来AI生成作品大量充斥市场,究竟人工作品还是人工智能创作作品的市场接受度更高,或许仍然需要进一步观望。

最后,为使用行为划定程度与范围是我国著作权法合理使用制度的特征。合理使用判断的四要素中,第一个要素即使用的目的和特征,在戈德史密斯案中也明确提出了这一要素系程度问题,即使用作品的范围和方式。我国《著作权法》第24条中规定的几类合理使用也强调作品使用的范围和程度;例如本条第1款第2项强调适当引用,又或者在第6项中的少量复制要求,都是对版权材料的合理使用划定的程度要求。由此观之,限制版权作品的使用范围与程度是我国合理使用制度的应有之义。

划定大模型训练中的版权作品使用范围与程度的主要目的,在于防止大模型生成竞争性表达,强调从微观内容到宏观结构的实质性转化,或者说,生成式AI学习的是一种大众表达,而非模仿特定表达,从而确保生成式AI的内容生成物与既有版权作品之间存在差异化表达空间,在发挥其知识整合、辅助创作方面的积极作用的同时,也抑制其竞争性表达的输出能力。


四、大模型训练中版权作品的合理使用制度设计

大模型训练中应学习人类表达的一般规律和模式,而非回忆或者模仿既有表达,版权作品在大模型训练中的使用也应当受一定限制。这一观点也逐渐被学界关注。对于版权作品使用的限制,目前学界也贡献了诸多方案。

(一)大模型训练中版权作品合理使用方案争议

纵观各种理论学说和各国(地区)的制度模式选择大模型训练中版权作品的使用限制大致可以分为如下几类:以日本为代表的无使用限制方案、以欧盟为代表的使用目的区分方案和美国司法实践所倾向的使用阶段区分方案

第一,无使用限制方案。此种方案系针对某些主张将合理使用作为大模型训练版权作品使用许可机制并不做任何限制的观点。此种方案下,所有作品类型都可以被用于大模型训练。然而,大模型可能产生的侵权风险与用户的维权成本,都可能会进一步提高。对模型运营者而言,为了防止大模型生成侵权表达,可能会因此付出更多的技术成本;与此同时,合规成本也会进一步增加。当然,由于使用大规模版权作品进行训练,大模型的市场竞争力也会相应增强。对于大模型使用者而言,虽然在不区分作品类型的基础上进行模型训练,会使大模型的使用体验感进一步提高,但其潜在的竞争性表达生成能力可能会削弱大模型的市场竞争力。

第二,使用目的区分方案。在这一方案又有两种具体路径。其一,强调非营利使用,如欧盟《数字化单一市场版权指令》中的文本与数据挖掘例外规则,正是基于使用目的区分的典型体现。这一方案的弊端由于上文已经提及,在此不再赘述。其二,学者Rosanna DucatoAlain Strowel提出将版权作品的使用区分为作为作品的使用和作为数据的使用两种目的,当作品作为数据使用时,作品只是作为获取其他相关信息的工具,且作品的表现特征并未被使用,也没有公众来欣赏作品,不能将其认定为侵权。这一方案的局限之处在于,未能在作品性使用的前提下讨论大模型训练中版权作品使用的程度问题。因为生成式大模型训练的目的在于培育其内容生成功能,性质上当属于作品性使用。仅仅强调训练阶段的使用目的控制,但在输出端缺乏行为约束机制,仍然无法防范大模型生成内容的版权侵权风险。总体上看,使用目的区分过于强调使用者的主观意愿,而忽视了客观侵害风险,该方案的有效性存疑。

第三,使用阶段区分方案。也有学者从使用阶段的视角提出相应的解决方案。学者Daniel Rodriguez Maffioli认为,大模型训练过程分为预训练微调两个阶段。在预训练阶段,由于其使用目的在于生成大模型,而非输出特定表达内容,因而该阶段使用版权作品的行为属于合理使用。但是在微调阶段,则需要更加注意对版权作品的使用情况,因为经过微调的模型可能更易生成竞争性表达内容,因而在微调阶段使用版权作品的行为不属于合理使用。这一方案主张区分内部开发阶段和投入使用阶段,内部开发阶段对版权作品的使用属于合理使用,但是大模型生产者在大模型的内容输出端应履行内容过滤义务。

美国司法实践所采取的便是此种方案。从Thomson Reuters Enterprise Centre GmbH v. Ross Intelligence Inc.Kadrey v. Meta Platforms, Inc.两起未经许可使用版权作品进行模型训练的案件判决结论看,在大模型的训练阶段使用版权作品,法院倾向于认定为非侵权,而结果输出阶段的客观状态是造成两起判决结果不同的原因。在Thomson Reuters Enterprise Centre GmbH v. Ross Intelligence Inc.案中,由于被告在商业竞争场景下对原告的版权材料进行非转化性使用,因而被认定为侵权。而后者则因为原告并未提供生成内容对其造成市场影响的证据,进而被法院认定为合理使用。由此观之,美国在司法实践中所采用的是使用阶段区分方案。总体上看,此类处理方式虽然能够最大程度地提高大模型本身的效能和竞争力,但同时也可能因版权过滤的技术成本过高给大模型开发者带来较重的技术负担。

(二)区分训练集和测试集的合理使用方案

与上述方案不同,本文主张区分训练集和测试集(包括验证集)前提下的合理使用方案。在这一方案下,处于公共领域的作品和经过许可的作品可以用于大模型的训练集,而仍然处于保护期且未得到作者许可的版权作品则不能直接用于训练集;如若将其作为测试集或者验证集使用,则所有版权作品都可以视为合理使用。在这一方案下,开发者只需要进行数据区分工作的处理即可,即选择合适的版权作品作为训练集或者测试集,合规成本和技术成本都比较低,且模型生成能力也不会受到太大的影响。由此一来,既能发挥合理使用的制度优势,又保留了适用法定许可或者其他授权机制的制度空间,也可以在一定程度上平衡域内、域外对大模型训练中作品使用的规则冲突。

通过对训练数据进行分类,我们可以确定不同类型数据在大模型训练中的定位。索贝尔将数据分为四类:(1)非版权训练数据(uncopyritable training data),即不涉及版权问题的训练数据,如事实性的统计数据或公开数据等;(2)经过许可的训练数据(licensed training data),此类数据主要系指经过权利人许可并被授权使用的数据;(3)市场侵蚀性使用的版权训练数据(marketencroaching uses of copyrighted training data),此类数据的使用可能会威胁版权作品的市场,例如,利用受版权保护的音乐进行AI生成的音乐创作;(4)非市场侵蚀性使用的版权训练数据(nonmarketencroaching uses of copyrighted training data),这类数据的使用不会威胁到版权作品的市场,例如人脸识别技术训练数据虽然可能包含受版权保护的照片,但使用这些数据的目的与版权的表达性质无关,其主要涉及的是照片中人的面部特征等非创作性信息的提取。索贝尔认为,在这四类训练数据中,只有可能涉及市场侵蚀性使用的版权训练数据应当受到著作权法的监管。

索贝尔的数据分类具有一定的启发性与合理性,但仍然需要进行更加精致的类型化区分与使用规则设计。笔者认为,版权作品在训练阶段作为何种类型的数据被训练是我们需要关注的重点。训练阶段很大程度上影响了模型的基本表达概率。因此,将版权作品作为训练集加以使用时应当尤其值得注意,并需要尊重版权人的意见。但是如若将版权作品作为测试集验证集加以使用,则无需征询版权人意见。因为测试集验证集在数据训练过程中更多地起到结果校准的作用,对生成式大模型的表达模式概率的影响较小。当版权作品用于模型纠偏时,可以将其认定为合理使用。至于征询版权人同意的模式选择,笔者建议模仿欧盟《数字化单一市场版权指令》中默示同意的模式,即默认版权人同意将其作品作为训练数据,但同时允许用户随时退出大模型训练,但也仅限于退出训练集,仍然保留将其作品用于测试集验证集的可能。具体而言,不同的数据类型可按照下列数据类型加以区分:

第一,处于公共领域的版权作品——不受限制。处于公共领域的作品主要系指已经超过版权保护期限的作品或者未受到版权保护的作品,根据我国著作权法的规定,此类作品主要是指自然人死亡50年后,法人作品发表50年后,以及政府文件、法律和单纯事实消息。此类作品可以直接用于生成式大模型的训练,而无需版权人的同意。其原因在于两个方面:其一,处于公共领域的作品,其著作财产权已经不再为法律所保护,即便大模型可能会生成竞争性表达,但其对于原作的市场价值的影响依然可控;其二,处于公共领域的版权作品具有非竞争性,其使用符合技术发展的公共福祉需求,特别是在人工智能基础模型训练这一技术基础设施领域。例如维基百科与Google都参与了大模型与训练数据集合的建构。2025523日,德国科隆高等法院在紧急程序中驳回消费者协会针对Meta的禁令申请,允许其自527日起使用公开用户资料数据进行人工智能训练。

第二,未经许可的版权作品——当应用于测试集或验证集时属于合理使用。正如上文所述,版权作品在训练阶段作为何种类型的数据被训练才是我们需要关注的重点。训练阶段很大程度上影响了模型表达的基本概率。因此,将版权作品作为训练集加以使用时应当尤其值得注意,并需要尊重版权人的意见。未获得权利人同意的版权作品不得直接用于大模型的训练。但是如若将版权作品作为测试集验证集加以使用,则无需征询版权人意见。因为测试集验证集在数据训练过程中更多地起到结果校准的作用,对生成式大模型的表达模式概率影响较小。也即,当版权作品用于模型纠偏时,可以将其认定为合理使用。但若生成式大模型用于科研或公益目的时,可以建议不再区分其究竟用于测试集还是训练集,以保障科学研究的顺利开展。

第三,经过许可的版权作品——不受限制。经过版权人的许可后,可以将版权作品作为训练集加以使用。当然也允许权利人随时退出大模型训练,但也仅限于版权人将其作品撤出训练集,仍然保留将其作品用于测试集验证集的可能。

第四,非作品性使用的版权作品——不受限制。若拟训练的大模型并非用于表达性市场,例如开发该大模型的目的在于剽窃检测、情感分析、命名实体识别等,由于模型的功能并非在于生成表达性内容,此时对于版权作品的使用才属于非作品性使用。

总体上看,基于训练集与测试集区分的方案,能够在最大程度上实现版权所有者、大模型产业和用户的利益之间的协调,基本内容大致如表1所示:

综上所述,在基于训练数据类型区分的方案下,各方总体的社会成本(包括侵权成本、制度成本)得以最小化,并且可以实现最佳的社会效果,也更能使合理使用发挥其制度优势。

(三)合理使用许可模式下大模型服务提供者的义务厘定

1.基于训练数据类型的版权过滤义务

著作权法的制度目的在于保障版权利益的充分实现与知识溢出之间的平衡。生成式AI既是一种知识生产方式,又是一种知识溢出机制。若放任大模型使用版权作品进行内容生成,同样可能会造成版权价值实现与知识溢出的失衡。因此,还需控制生成式AI的内容输出,以预防侵权表达的生成,这就需要合理确定义务人的版权过滤义务。

版权过滤义务以生成式AI生成表达性内容对表达性市场存在潜在影响为存在前提。另外,版权过滤义务需要主动履行还是依申请履行,需要根据训练数据类型加以确定,如若训练数据属于经过许可的版权数据,则服务提供者应当主动履行相应的检测义务,毕竟这些版权作品数据是作为训练数据集直接用于模型训练的,其存在输出竞争性表达的风险;但如若其属于未经许可的版权数据,数据只可用于验证或测试,其输出竞争性表达的风险也相应较小,服务提供者可依权利人申请履行检测或过滤义务。具体内容如表2所示:

2.大模型服务中的通知处置义务

关于生成式AI避风港规则的设计,王利明教授参考电商平台的通知删除义务,认为生成式AI的服务提供商应当承担通知处置义务。在生成式AI服务侵权中有必要引入避风港规则,其原因在于模型内容生成的随机性导致服务提供者难以事前穷尽所有可能的表达,要求服务提供商尽到绝对的事前审查义务几乎难以实现,因此需要为大模型服务提供者设计类避风港规则,旨在阻却尽到注意义务的模型服务提供商的侵权认定。

生成式AI的文本生成作为一种信息网络服务,天然地具有适用避风港规则的可能性。大模型项目方应当在尽到合理的注意义务前提下,对版权人提出事前风险排查以及事后必要措施申请,需要及时加以回应。其大致包括以下内容:第一,在遵循上述合理使用规则设计的前提下,版权人可以向生成式AI的服务提供商,要求其进行生成内容侵权检测,对于涉嫌表达性使用的大模型,服务提供商应当及时采取相应措施。第二,在输出版权侵权内容的情形下,项目方可以根据用户或版权人的警示或申请,采取相应的版权过滤措施,例如生成内容过滤或者模型再训练等。


结语

生成式AI带来的核心争议并非机器能否成为作者,而是在其被大规模应用、可近乎无限生成表达性内容的全新语境下,既有的版权激励体系是否仍具有制度价值。合理使用虽然可以作为大模型训练中版权作品使用的许可机制,但也需要谨慎划定版权作品数据合理使用的范围。至于用于训练集的版权作品,虽然将其排除在合理使用的范畴之外,但是未来可以考量法定许可、面向公共利益的补偿金等制度适用的可能性。

人类作者经过构思框架、收集资料、整理资料等复杂过程,夜以继日完成的作品,人工智能可能仅需几秒钟就能高效输出表达意图相似的内容。然而,当下的生成式人工智能进化为具备人类级别智慧的通用人工智能还需一个漫长的过程。在大模型产业发展的初期阶段,我们既不应也不能期望大模型拥有与人类相当的创新性表达能力。它们能够中规中矩地输出准确且易于理解的内容,在人类创作过程中扮演好辅助性角色,便已经满足我们当前对大模型的需求。将大模型训练中版权作品合理使用的范围限定在测试集与验证集内,既能够缓解大模型对表达性市场带来的冲击、防范侵权风险,又符合对当前大模型之功能的理性定位。面对生成式人工智能技术的迅猛发展,未来我们需秉持开放而审慎的态度,既要充分利用其带来的高效与便捷,又需深刻认识其带来的制度挑战,为人机和谐共生的未来奠定坚实的法律基础。


因篇幅限制,已省略注释及参考文献。

引注:牛彬彬:《生成式AI数据训练中的著作权合理使用规则研究》,载《河北法学》2026年第4期,第87-109页。



地址:河北省石家庄市友谊北大街569号

Copyright© 2004-2005 All Rights Reserved 冀ICP备11009298号