作者简介:徐聪颖,男,内蒙古赤峰人,江西财经大学法学院教授,法学博士,研究方向:知识产权法。
摘要:生成式人工智能企业为创建训练数据集而对他人作品的抓取、存储在性质上属于著作权法意义上的作品复制行为,应当受到著作权法的规制。在既有的著作权权利限制规则中,合理使用与法定许可使用规则均无法有效协调人工智能企业与作品权利人之间的利益关系,应当借鉴欧盟的“选择退出”规则构造以“事后保留”为内核的“三阶”规制模式。就目的而言,“三阶”规制在承认生成式人工智能企业具有数据训练自由的同时,也为被使用作品的著作权人提供了主张获酬的选择权。就制度构造而言,“三阶”规制模式应当以著作权集体管理组织为中介,通过合理设定生成式人工智能企业与集体管理组织各自的权利义务,使其共同分担在“事后保留”机制运行过程中所产生的注意义务成本。此举有利于引导人工智能企业有意识地建立与作品权利人的互动交流关系,进而可以有效破解著作权法规制生成式人工智能数据训练行为所必须面对的制度运行成本难题。
关键词:生成式人工智能;著作权;数据训练;选择退出;三阶规制
引言
自人工智能概念在20世纪50年代被首次提出以来,对人工智能的研究始终处于进展缓慢的状态。直到进入21世纪以后,互联网的普及应用带来了可用数据的井喷式增长,这极大地助推了以数据驱动方法为基本特征的人工智能研究的发展。通俗地讲,数据驱动方法采取的是把现实生活中的问题变成可计算问题的研究策略。其特点在于,通过构建数学模型建立数据之间的相关性,然后运用统计的方法让计算机从大量的数据中自行学习得到相应的参数,进而使原有的数学模型不断获得优化。这一过程又被形象地称为“机器学习”,其学习效果与训练使用的数据规模和数据质量具有密切关系。也因此,数据驱动方法的核心就是变智能问题为数据问题。
人工智能技术不仅在语音识别、图像识别、智能医疗等领域取得了商业性成功,而且出现了可以根据使用者的需求自动生成文本、图片、声音、视频、代码的生成式人工智能。生成式人工智能技术的飞速发展虽已成为智能革命时代一股势不可挡的洪流,但因其在数据训练中需要大量使用他人的作品进行“数据投喂”,由此产生的著作权问题也引发了学界的广泛关注。
2023年7月10日,国家互联网信息办公室等七部门联合下发了《生成式人工智能服务管理暂行办法》,在其中的第7条规定,生成式人工智能服务提供者在数据训练活动中,涉及知识产权的,不得侵害他人依法享有的知识产权。由于我国现行《著作权法》尚未对涉及作品的生成式人工智能“数据投喂”行为有专门规定,这使得上述问题在立法层面未有定论。从学界的研究情况看,不同学者对生成式人工智能利用作品进行数据训练的立场、观点迥异,分歧远大于共识。综观这些理论主张,当前对生成式人工智能数据训练所涉著作权问题的讨论主要集中于以下三个方面:(1)应否对其进行著作权法规制?(2)能否对其适用著作权合理使用抗辩?(3)可否借助著作权法定许可使用机制解决生成式人工智能研发者与作品著作权人之间的利益冲突?本文将对上述三方面问题的理论争议依次进行分析,并在此基础上尝试提出我国著作权法规制生成式人工智能数据训练行为的应然路径和制度构想,以求教于学界同仁。
一、生成式人工智能数据训练中作品使用行为的法律属性辨析
生成式人工智能数据训练活动的开展以创建训练数据集为首要前提,为此,生成式人工智能研发者需要对受版权保护的作品实施大规模的网络抓取、存储、过滤、清洗、汇集等行为。在这一系列的行动中,研发者首先要面对的是其为创建训练数据集而抓取、存储作品的行为是否应受著作权人复制权规制的问题。有代表性观点认为,生成式人工智能的数据输入和训练行为属于非表达性机器学习,即便使用了尚处于著作权保护期限内的作品训练生成式人工智能,因构成对作品的非表达性使用,也不应落入著作权专有控制范围,故不存在侵犯著作权的问题。
根据美国学者马修·萨格教授的定义,“非表达性使用”是指不意在向公众传播原作品表达或者不意在对作品表达进行欣赏性使用的复制行为。以这一概念作为理论支点,有关学者将利用作品创建生成式人工智能训练数据集的行为定性为对作品的“技术性使用”。在此种使用场景下,由于外部公众既不会接触到作品的表达性内容,也无法感受作品的艺术魅力,因而又被学者称为“在作品之上的使用”(uses on works),以此与著作权应当着力控制的“作品的使用”(uses of works)相区别。具言之,生成式人工智能研发者对作品所进行的大规模数字化处理行为只是将作品的内容转化为“去知识化”(deintellectualized)的数据,在这一过程中,作品所体现的思想表达主要不是被用于向公众传递作者的“言说”,而是构成可被机器操作(machineworkable)的算法的基础。换言之,此时的作品并不是被作为作品来使用,而是作为数据的容器(containers of data)被加以利用。此种“在作品之上的使用”与“作品的使用”并行不悖,不会损及作品著作权人对其作品专有的传播控制利益,故而应被排除在著作权法的排他保护范围之外。
然而在本文看来,上述对作品的“非表达性使用”指称其实是一个似是而非的概念,不能简单地以其不具有满足人类欣赏消费的目的为由而断言该种行为无涉著作权人的利益。从逻辑上讲,“非表达性使用”主张首先面对的诘问即是其使用对象究竟有无涉及作品的表达?对此,理论上存在两种观点作为回应。第一种观点完全否认“非表达性使用”是对作品表达的利用,认为此种行为利用的仅仅是作品的思想。根据著作权保护的“思想表达二分法”原则,“非表达性使用”自然不应属于著作权的规制对象。与之相比,第二种观点虽然承认“非表达性使用”涉及作品的表达,但同时强调此种对作品表达的使用具有“非特定性”,即需要将作品的表达拆解或碎片化为“语料”后加以利用,并据此否认了作品的特定表达在“非表达性使用”中具有独立的价值。值得注意的是,以上两种观点均存在不同程度的将目的与手段混为一谈的问题。事实上,无论强调“非表达性使用”的对象为“作品的思想”抑或“碎片化的表达”,论者都无法否认对作品表达的获取和占有是确保“非表达性使用”得以顺利实施的先决条件。就“思想的使用”而言,如果没有对作品表达的占有,则对作品思想的提炼分析只能是无源之水、无本之木。就“碎片化的表达的使用”而言,尽管最终用于数据训练或机器学习的对象与作品原本呈现的特定表达确有不同,但这并不意味着实施数据训练者可据此堂而皇之地对训练所需的“原材料”进行自由无偿的抓取和占有。更何况,所谓的“碎片化的表达”与作品的原有表达之间也并非无任何关联。因为,生成式人工智能数据训练的目的主要围绕分析不同作品表达元素之间的逻辑关系展开,以便于更好地提升生成式人工智能认知人类创作规律的能力。如果否认不同作品的个性化表达之于数据训练的意义,将难以解释为何在生成式人工智能的算法优化问题上需要对训练数据的质量予以特别强调。
为了澄清“非表达性使用”与“表达性使用”之间的区别,萨格教授曾举例说明,假设有学生复制了一部小说,以便于利用软件扫描文本进而分析小说中的语言模式、不寻常的关系,或者只是为了统计特定词语出现的频率,由于此举是为了挖掘作品中的元信息(metalevel information),并没有利用作品的表达获益,因此这种使用就属于“非表达性使用”。然而这里存在的问题是,尽管扫描者进行文本与数据挖掘的目的不是阅读、欣赏作品,但仅凭此点并不能当然证成其对小说的复制获取与小说著作权人毫不相干。从学理上讲,对作品的复制行为加以控制是作品商品化利益得以实现的重要途径,这决定了作品自由复制空间的大小会在客观上对作品的商业利益产生影响,也意味着对自由复制行为的评价理当置于著作权法框架内与著作权人的利益诉求一并加以权衡。例如,在学者引述较多的涉及谷歌公司“非表达性使用”他人作品的两起典型案例中,虽然谷歌公司复制作品的目的要么是为其图片搜索服务提供缩略图形式的指示性工具,要么是为其“谷歌图书搜索项目”的实施生成可驱动搜索引擎的元数据,然而从案件审理情况看,法官均无一例外地接受了原告方提出的谷歌公司的行为构成初步侵权的指控,只不过通过适用合理使用规则最终选择支持了谷歌公司的侵权抗辩主张。
综合上述分析,本文认为,基于生成式人工智能数据训练目的而创建作品训练数据集的过程仍将不可避免的涉及对作品的复制,且不能以此种复制是机器学习所必需为由使其当然游离于复制权的规制范围之外。换言之,生成式人工智能数据训练行为对于推动人工智能技术和产业的发展确实具有极强的变革意义,但不能凭此目的“洗白”数据训练者在源头对作品著作权人所实施的盗版侵权行为。在2025年6月美国加州北区联邦法院审理的一起有关Anthropic公司使用盗版作品对其大语言模型Claude实施数据训练的案件中,法官William Alsup在判决书中指出,Anthropic公司为进行数据训练而对其花费数百万美元购置的实体书进行扫描的行为属于合理使用,但Anthropic公司同时还从Books3、LibGen、PiLiMi等知名盗版网站下载了超过七百万本盗版书籍,此举显然构成侵权使用。
有学者指出,在训练人工智能时对作品的利用在技术上也可能表现为临时复制的形式,即数据训练并不建立海量作品数据库或数据集并保存在硬盘或服务器之上,而是仅仅让人工智能实时地将他人作品调入计算机系统的内存或临时缓存区,以供算法分析、归纳。鉴于大多数国家并未将临时复制行为纳入著作权人复制权的控制范围,此种对作品的利用自然不在著作权法的规制范围。然而在实践中,一些大型生成式人工智能的数据训练往往具有多轮次、持续时间长的特点,出于节省成本和提高数据训练效率的考虑,先行抓取、下载作品并进行本地化处理显然是一种更加常规且合理的作品使用选择。此际,一味地强调著作权人对作品享有绝对的复制控制权固然不利于促进生成式人工智能产业的发展,但若因此而完全无视数据训练中的作品使用行为对于著作权人利益的消极影响,则不免有从一个极端走向另一个极端的问题。从这一角度看,将生成式人工智能数据训练行为纳入著作权法的规制范围会更有利于协调双方的利益关系,实为正本清源之举。
二、生成式人工智能数据训练行为适用著作权合理使用制度辨析
在生成式人工智能数据训练行为应当如何受著作权法规制的问题上,主流观点认为,出于促进生成式人工智能技术和产业发展的考虑,应当将生成式人工智能数据训练中的作品使用行为纳入著作权合理使用范畴,此举将在客观上为生成式人工智能研发主体在数据训练中不受著作权人干涉提供制度依据。
从理论上讲,著作权法创设合理使用规则的目的在于构建一种既不过分偏袒著作权人也不过分偏袒作品使用者的利益平衡机制,这决定了对著作权合理使用行为的认定需要注意避免机械、教条,强调应结合具体案情具体分析。根据认定合理使用所应遵循的“三步检验法”规则,对合理使用的判断不能“天马行空”,必须限定在法定的范围内。不仅如此,即便相关行为落在法定的判断范围内,也并不当然构成合理使用,此时还必须进一步权衡该行为对作品权利人的现实利益和潜在市场利益可能造成的不利影响。在2024年3月16日举办的“AI善治论坛人工智能法律治理前瞻”专题研讨会上,与会学者共同发布了《中华人民共和国人工智能法(学者建议稿)》,其中的第24条也对人工智能开发者利用他人作品进行模型训练是否构成合理使用作出了“三步检验法”式的规定。要求“该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于数据合理使用”。
然而在本文看来,生成式人工智能数据训练行为适用合理使用制度存在以下三方面的阻碍事由。
首先,那种主张生成式人工智能数据训练行为当然构成合理使用的论断与合理使用认定需遵循的利益平衡逻辑存在明显偏差。在人工智能领域,数据、数学模型(算法)和硬件基础(算力)被认为是推动其产业发展的三大生产要素,也是衡量人工智能研发企业竞争优势的核心资产指标。人工智能研发企业的训练数据集规模越大,为机器学习所投喂的作品数量越多、质量越高,其商业优势便越发显著。从这一角度讲,作品在人工智能领域的基础产业要素地位不言而喻。鉴于这一特定的生产性资料系由众多作者通过智力劳动创造、积累而成,并非像阳光、空气那样取之不尽、用之不竭,具有商业属性的人工智能研发企业对作品的获取和利用便不宜采取简单的“拿来主义”,而应当对作品权利人的经济利益诉求给予应有的尊重。版权制度的历史发展表明,“版权制度的诞生是商业‘战争’的产物”。著作财产权的创设和历史变迁与技术的发展和随之衍生的作品商业模式创新息息相关,是作品商品化过程中各方参与主体对相关市场利益进行角力争夺的结果。从这一角度观察,那种仅仅以促进科技创新和技术发展为由否定作品在其中的商品属性和商业价值的主张并不能够令人完全信服。在技术和商业资本力量的合力助推下,一个又一个的作品商品化的市场空间被打开,为包括著作权人在内的利益相关方提供了更多利益博弈的可能,如果此时的利益天平只能一边倒地向主导技术发展的产业一方倾斜,对著作权人未免不公。
其次,生成式人工智能在数据训练中对作品的使用虽有学者所说的低密度性特征,即单个作品对人工智能的价值往往较小甚至微不足道,只有大批量、规模化的利用才具有意义,但这并不足以说明生成式人工智能在数据训练阶段对作品的使用仅对作品著作权人的利益构成非实质性的影响。事实上,著作权人在作品市场上的行权并不总是以分散个体或者原子的形式呈现。在商业资本力量的推动下,市场也可能基于自由选择原则对不同个体的作品进行汇集整合,进而使数量众多的著作权归于某个单一商业主体,以更好地发挥著作权运营的整体规模优势。此外,个体权利人也可能基于团结或“抱团取暖”的考虑,自愿将其著作权交由特定的著作权集体管理组织进行集中统一管理,以促进整体事业的共同发展与进步。在上述两种情形下,以单个作品对人工智能数据训练的价值微不足道为理由证明合理使用的成立,显然无法令人完全信服。也正基于此,有学者在主张人工智能数据训练使用他人作品构成合理使用的同时,又特别强调,此举并不意味着人工智能研发者可以自由获得大数据进行训练。原因在于,平台或数据企业会利用各种经营模式吸引著作权人将权利交由企业来行使,并通过设置技术保护措施来防止其他企业未经许可随意获取数据,这意味着人工智能企业仍需事先与平台或数据企业达成许可使用协议才可获取训练数据。然而在本文看来,此种对适用合理使用有所保留的观点将会给规制生成式人工智能研发企业的数据训练行为带来极大的不确定性,其并不能使人工智能企业的后顾之忧获得根本性解决。在平台经济模式强势崛起以及数据价值不断凸显的当下,作品著作权的集中控制程度也会随之加大,如此结果势必会极大地消解前述学者所主张的生成式人工智能在数据训练过程中适用合理使用的可能性,从而使生成式人工智能的数据训练活动进退失据。
最后,从国际层面观察,虽然一些国家和地区在其著作权法中规定的文本和数据挖掘(TDM)例外条款与规制生成式人工智能数据训练中的作品使用问题具有高度契合性,但相关规则的适用条件较为严格,难以在生成式人工智能领域获得普遍适用。例如,欧洲议会和欧盟理事会于2024年6月出台了《人工智能法》(2024/1689条例),在其前言部分的第105条指出,生成式人工智能的开发和训练需要访问大量的文本、图像、视频和其他数据。这些内容可以受版权和相关权利的保护。除非适用相关版权例外和限制,否则任何对受版权保护内容的使用都需要获得相关权利人的授权。而根据欧洲议会和欧盟理事会2019年4月发布的《关于数字单一市场的版权和相关权指令》(2019/790,以下简称《指令》)第3条的规定,针对版权作品所实施的文本与数据挖掘例外需同时满足“研究机构或文化遗产组织为科学研究目的”以及“合法获取作品”两方面条件方可成立。此外,《指令》第4条虽进一步将文本与数据挖掘例外规则扩展适用于任何行为人的任何目的(any actor for any purpose),但却同时要求行为人必须合法获取作品并且尊重作品著作权人的选择退出自由(optouts)。对此,欧盟《人工智能法》在第53条之1(c)规定,人工智能模型提供者有义务制定尊重欧盟版权法的政策,特别是通过当前技术手段,确定和尊重著作权人根据2019/790 号《指令》第4条所享有的选择退出自由。从欧洲一些主要国家的立法情况看,德国、英国、法国的著作权法中虽有关于文本和数据挖掘的例外规定,但均无一例外地将相关行为限定于科学研究目的或非商业性目的。上述情况表明,基于商业营利目的的生成式人工智能数据训练行为在欧洲尚无法当然适用文本与数据挖掘例外规则。在亚洲,《日本著作权法》第30-4条针对“不以欣赏作品所表达的思想或情感为目的的作品利用行为”确有合理使用的规定,这其中就涉及对大量作品中的内容进行提取、比较、分类或统计分析的行为。但另一方面,该条也同时强调,如果根据作品的性质或目的,或者根据利用作品的情况,相关行为会不合理地损害版权所有人的利益,则本规定将不予适用。此外,《新加坡版权法》在第244条也规定有为计算机数据分析目的的作品复制或传播例外规则,但此项规则的适用同样以行为人必须合法获取复制材料(the first copy)为先决条件。对此,立法特别强调,如果行为人对复制材料的获取是以规避“付费墙”(paywalls)的方式或者违反数据库访问条款的方式实现的,则此种行为就不属于合法获取。不仅如此,《新加坡版权法》还进一步限定,上述例外规则的适用必须同时满足如下条件之一:(1)复制材料不得是通过侵权复制产生的;(2)复制材料虽然是侵权复制的结果,但行为人对此并不知情,或者如果复制材料是从公然侵权的在线网址获得的,则行为人既不知道也不可能合理的知道;(3)复制材料虽然是侵权复制的结果,但对该侵权复制材料的使用是为计算机数据分析目的所必须,且行为人并未作其他目的使用。 在韩国,韩国文化、体育和观光部及韩国著作权委员会在2023年发布的《有关生成式人工智能和版权的指南》也指出,“学界正在就合理使用规则的适用性进行辩论”,在“与此相关的法院判例获得积累”之前,“合理使用抗辩的适用性仍不确定”,这就留下了“未经版权所有者许可将作品用于人工智能训练”将构成侵权的可能。
基于上述分析,本文认为,我国不宜将生成式人工智能数据训练中的作品使用行为不加区分地一概纳入合理使用规则的适用范围。尤其是对具有商业营利目的的生成式人工智能研发企业而言,如果将其在创建训练数据集中的作品复制行为当然适用于合理使用抗辩规则,可能会导致生成式人工智能企业与作品著作权人之间利益明显失衡的问题。美国学者莱姆利和凯西从现实的角度指出,鉴于创建人工智能训练数据集需要使用大量的作品,要求人工智能企业获得数量如此众多的权利人许可显然不切实际。因此,允许主张版权等于是在说,不是版权所有人将从中得到报酬,而是没有人能够从这种作品使用中受益。然而在本文看来,上述主张只能说明传统的以事先授权许可为前提的作品使用规则在生成式人工智能数据训练领域具有不适应性,但将其作为生成式人工智能企业可自由使用他人作品的免责事由未免太过牵强。
三、著作权法规制生成式人工智能数据训练行为的应然路径
对我国而言,如何在合理使用规则之外对生成式人工智能企业的数据训练行为寻求有效的法律规制,事关人工智能产业与作品版权产业之间的利益平衡。所谓的有效规制并不是一个站在著作权人的角度对其利益给予单向度的承认和保护的问题,而是需要同时兼顾人工智能企业在履行义务过程中的制度运行成本和外部效应问题。在既有的研究中,一些学者主张应当适用著作权法定许可制度解决生成式人工智能数据训练行为的规制问题,但也有反对者对此心存疑虑。
与合理使用相比,著作权法定许可使用无疑是一种更加兼顾作品权利人利益诉求与作品使用者使用自由的制度选项。其在简化作品授权许可手续、保障作品使用效率的同时,也为作品使用者设定了付费义务,以确保著作权人能够从中获得相应的收益。不仅如此,著作权法定许可使用机制也有利于避免一些大型的生成式人工智能研发企业凭借自身强大的经济实力垄断独占优质作品资源,进而不当阻止中小型生成式人工智能研发企业与之开展竞争。然而,理想与现实之间并不只有一步之遥,从制度有效运行的角度观察,著作权法定许可使用规则仍难言是规制生成式人工智能企业数据训练行为的最优解。
从学理上讲,著作权法定许可机制的运行以保障著作权人的知情权和获酬权为核心任务。这要求法定许可使用人必须担负起准确甄别、披露作品权属信息的义务,以确保相关作品著作权人的获酬权益得以真正实现。然而现实的困难是,在生成式人工智能企业利用作品所进行的数据训练中,海量的数据投喂规模往往使得履行上述义务的难度呈几何级数上升,而甄别、披露成本也将随之急剧增长。如此一来,著作权法定许可机制很可能会因巨大的制度运行成本问题而陷入“理论上虽然可行但却只能空转”的尴尬境地。有观点认为,在生成式人工智能企业适用法定许可使用规则时,有关法定许可使用费的费率议定以及费用收转工作应当交由著作权集体管理组织负责执行。姑且不论我国现有的著作权集体管理立法是否为集体管理组织履行上述职能提供了必要的制度依据,仅就现实可行性而言,将此种义务转嫁于集体管理组织所面临的疑问是,在集体管理组织的会员规模相对有限且管理能力和水平仍有待进一步提升的当下,面对生成式人工智能训练数据集中大量存在的公有领域作品、作者身份信息不明的“孤儿作品”以及权属关系不清的非会员作品,寄希望于集体管理组织能够高效地完成甄别作品信息的任务其实并不现实,而报酬转付工作也将因此易于沦为被各方诟病的“烂尾工程”。如果令著作权集体管理组织勉为其难,反倒可能会使其集体管理工作遭受更为严厉的能力质疑并使其面临更加严峻的信任危机。正是基于这一现实考虑,另有观点认为,对人工智能企业因机器学习所缴付的费用不必指向个别作者进行分配,而应当由著作权集体管理组织以公益基金的形式用于资助文学艺术和教育等公益事业,以此推动作者群体的整体进步。此种“简化集体管理操作”的做法固然有利于节约集体管理成本,但突破了立法对著作权集体管理组织的传统功能定位,其完全忽略了著作权人个体利益的制度设计思路在法理上也有待进一步证成,这可能会导致其实施的复杂性和困难程度将与法定许可使用机制不相上下。
当前,人工智能技术和产业正处于快速创新和成长阶段,包括我国在内的世界各国理应为之营造包容宽松的政策法治环境,以此抢抓新一轮科技革命和产业变革的机遇。但另一方面,立法也应注意保持审慎冷静,避免人工智能产业的无序发展和野蛮生长问题。在2025年2月11日闭幕的巴黎人工智能行动峰会上,包括中国、法国等在内的60个国家和地区共同签署了《关于发展包容、可持续的人工智能造福人类与地球的声明》。作为此次峰会的重要议题,人工智能的治理问题与人工智能未来的发展方向息息相关。根据我国2023年10月发布的《全球人工智能治理倡议》,发展人工智能应坚持“以人为本”理念,以增进人类共同福祉为目标,以保障社会安全、尊重人类权益为前提,确保人工智能始终朝着有利于人类文明进步的方向发展。在本文看来,对著作权人的利益给予必要的尊重,促进人类文学、艺术创作的持续繁荣,避免竭泽而渔,自然是“以人为本”理念的题中应有之义。就生成式人工智能数据训练而言,立法宜秉承可持续发展理念,引导人工智能企业在利用他人作品创建训练数据集的过程中建立与作品著作权人充分有效的互动交流关系,以共同应对人工智能治理所必须克服的制度成本问题。
基于上述分析,本文认为,欧盟在2019/790号《指令》中针对“文本与数据挖掘的例外”所确立的“选择退出”规则虽难言完备,但提供了一种较著作权法定许可更加具有启示意义的规制生成式人工智能数据训练行为的思路。
根据《指令》第4条第3款的规定,适用“文本与数据挖掘的例外”以相关作品权利人尚未以适当方式明示保留其权利为前提。从逻辑上讲,权利人保留的提出存在着“事前保留”和“事后保留”两种可能。二者的区别在于,“事前保留”意味着作品使用方需对所使用的作品上有无存在真实的“保留声明”承担积极谨慎的注意义务,而“事后保留”则意味着作品权利人需承担将其“保留声明”及时向作品使用方告知的义务。两相比较不难发现,在涉及对他人作品进行大规模使用的互联网场景下,对“事前保留”的强调不仅会使作品使用者面临巨大的信息识别成本压力,也会严重影响其作品使用效率,因而难以与生成式人工智能数据训练所要求的利益兼顾规制思路相匹配。反观“事后保留”,其对于协调作品使用者与作品权利人之间的利益关系具有以下三方面的比较优势。
其一,“事后保留”将“行为人可自由无偿使用作品”作为“选择退出”规则的缺省设置,这意味着生成式人工智能企业在利用他人作品创建训练数据集时可以不必按照“先授权后使用”的财产规则行事,此举将极大地节省人工智能企业的市场搜寻成本,有利于提高数据训练效率。
其二,“事后保留”在承认作品权利人享有保留权的同时,也暗含了在作品使用者与作品权利人双方分担注意义务的要求。对权利人而言,“事后保留”主张的提出以其知悉自有作品被使用为前提。然而在大规模使用他人作品的场景下,鉴于由作品使用方一力承担向权利人及时告知作品使用信息的义务并不现实,因此宜将前述知悉过程分解为作品使用方信息披露与权利人信息识别两个步骤,进而分别由使用方和权利人负担信息披露和信息注意的成本。对生成式人工智能企业而言,此举既可有效避免数据训练沦为看不见的“技术黑箱”,同时又在人工智能企业与著作权人之间对保障著作权人的知情权所需花费的信息识别成本进行了合理分配,有利于减轻人工智能企业的注意义务负担。
其三,“事后保留”虽允许作品权利人选择从预设的“自由无偿利用作品关系”中退出,但对于文本与数据挖掘行为或者数据训练行为而言,由于作品使用行为以及后续的数据处理行为已经发生,此时强调停止使用并无实际意义,因此权利人所保留或主张的其实是“获酬权”。换言之,权利人的“事后保留”并不对作品使用方的使用行为本身产生实质性限制,其暗含的“非主张不付酬”逻辑在使著作权人的经济利益获得尊重的同时,也可最大限度地减少现实生活中大量存在的公有领域作品、孤儿作品以及权属关系不清的作品对使用方履行付费义务所造成的困扰,有利于精准定位报酬请求权人,从而节省了报酬精确收付的成本。
综上所述,鉴于“事前保留”与“事后保留”在法律适用效果上具有明显的差异性,欧盟《指令》确立的“选择退出”规则不应被简单地定性为“只是一种与法定许可类似的规制模式”。尤其是对以“事后保留”为内核的“选择退出”规制模式而言,其对人工智能企业与著作权人的双边注意义务设定有利于引导二者建立充分的互动交流关系,能够更好地兼顾生成式人工智能企业自由使用作品从事数据训练的商业需求与作品著作权人的经济利益诉求,因而更适于成为我国著作权法规制生成式人工智能数据训练行为的立法选择。
四、著作权法规制生成式人工智能数据训练的制度构想
从性质上讲,上述以“事后保留”为核心的“选择退出”规制模式在制度构造上更接近于学者所谓的“转换规则”。具体而言,生成式人工智能研发企业在创建作品训练数据集的过程中可能会受到著作权法的“三阶”规制。在“一阶”规制阶段,立法应以公共领域规则作为规制生成式人工智能数据训练行为的逻辑起点,原则上赋予人工智能研发企业为创建训练数据集可无偿抓取、复制、汇编他人作品的自由,但同时也应为其设定强制公开训练信息的义务,以便于相关作品著作权人能够及时知悉作品使用情况,并自由决定是否退出公共领域规则的适用。在“二阶”规制阶段,若著作权人拒绝适用公共领域规则,此时权利人有义务将选择退出决定及时告知生成式人工智能研发企业,并由双方按照财产规则的要求协商确定作品的使用价格。在“三阶”规制阶段,若双方难以就使用价格达成协议,应当根据责任规则的要求将报酬的支付标准问题交由司法机关或著作权行政主管机关裁定,并由生成式人工智能企业按照裁定结果履行报酬支付义务。(见图1)
需要进一步指出的是,在上述三阶规制中,基于生成式人工智能企业的数据训练通常需要使用海量作品的现实考虑,为降低三阶规制的制度运行成本,立法应注重发挥著作权集体管理组织在其中的中介桥梁作用。对人工智能企业而言,其负有的依法定要求披露作品使用信息的义务以及作品使用报酬协商义务不应面向众多分散的作品著作权人,而是面向特定的著作权集体管理组织。对著作权人而言,其在行使“事后保留权”时,同样需要借助著作权集体管理组织的力量才能完成从前述人工智能企业公布的信息中甄别出自有作品的义务,其获酬权的实现也惟有通过向集体管理组织主张才能最终实现报酬的转付。对于作品被用于生成式人工智能数据训练但却未及时通过著作权集体管理组织甄别作品权属信息、主张报酬请求的权利人,人工智能研发企业将对其免除付费义务。

图1 “选择退出”模式下生成式人工智能数据训练的“三阶”规制示意图
由图1观之,三阶规制的法律效果如何其实与人工智能企业、作品著作权人、著作权集体管理组织三方的协同合作密切相关。这也提醒我们注意,在著作权法对生成式人工智能数据训练的规制中,立法为著作权集体管理组织赋予的实际是在人工智能企业与作品著作权人之间以及在不同作品著作权人之间协调彼此利益关系的中间性角色。这与其传统的单纯作为会员权利人的利益代言人角色有着本质上的区别,也决定了三阶规制模式从根本上不同于由著作权集体管理组织主导的集中许可模式,因而并不会产生学者所担忧的集体管理组织滥用垄断地位、歧视性许可等集中许可弊端。理由在于,一方面,在以“事后保留”为内核的三阶规制模式下,人工智能企业利用作品进行数据训练的自由并不因著作权人行使“选择退出权”而受到实质性影响。这意味着其与集体管理组织之间的报酬协商在性质上并非一种授权许可关系,集体管理组织也绝无可能强行要求人工智能企业被迫接受其单方提出的不合理的一揽子许可条件。但另一方面,鉴于著作权集体管理组织在三阶规制体系中扮演着关键性角色,立法的制度构造确应重点围绕著作权集体管理组织的规范行动展开。为此,三阶规制的制度设计需要特别注意以下四方面问题。
其一,立法应为集体管理组织设定对人工智能企业数据训练信息披露义务的法定监督权限,同时明确信息披露的范围和监督程序,此举不仅有利于确保人工智能企业的信息披露义务得以真正落实,也有助于防止集体管理组织因过度监督给人工智能企业的正常生产经营活动和商业秘密保护造成不必要的困扰。
其二,立法还应就作品权属信息的识别问题为集体管理组织设定“非请求不甄别”义务,这意味着集体管理组织的权属信息识别对象不仅包括其有权管理的会员权利人作品,还应当将依法定程序向其登记主张著作权的非会员作品一并纳入权属信息甄别范围。
其三,在与人工智能企业协商作品使用报酬和支付方式的问题上,立法应当将“按需定价”和“互利共赢”作为协商应遵循的基本原则,明确将“作品投喂类型”“作品投喂数量”“人工智能企业资金规模”“生成式人工智能的商业运营状况”等规定为协商的重要参考因素,并就当事双方提请行政机关或司法机关裁决协商争端的条件和程序等问题一并作出规定,以避免协商活动因双方立场悬殊而沦为一场久拖不决的“拉锯战”。
其四,立法还应对作品报酬分配方案的制定规则和监督机制作出细致规定,以避免集体管理组织的分配活动发生“异化”。出于对降低集体管理成本、提高集体管理效率的考虑,集体管理组织与人工智能企业之间的报酬协商或者有关国家机关作出的报酬裁定,往往难以按照不同作品的长度、类型、品质等标准进行精细化的差异定价,这使得报酬的“概括支付”有可能成为一种常态。为避免“大锅饭”式的平均主义弊端,集体管理组织有必要按照自行确定的分配规则对人工智能企业交付的使用报酬进行公平合理的分配,这意味着对生成式人工智能企业数据训练的三阶规制在客观上将不可避免地对作品著作权人的利益构成一定程度的限制。在这一过程中,为防止集体管理组织的“自利化”和“歧视化”倾向,立法为非会员个体及时提出异议、解决报酬分配争端提供必要的制度保障显得尤为必要。
余论
有学者指出,“相比以蒸汽机的发明为标志、以机械化为特征的第一次工业革命,以电的发明为标志、以电气化为特征的第二次工业革命,现在以大数据应用为标志之一、以智能化为特征的新一轮产业革命到来了,它对人类文明和社会进步及经济发展的影响将不亚于前两次工业革命。”在这一技术演进历程中,作为“技术之子”的著作权当然无法“置身事外”。新技术的发展必然会带来包括著作权人在内的各方市场主体对利益的角力争夺,也会使著作权的制度设计带有愈发明显的分配伦理烙印,并决定了著作财产权的专有性带有个体性和社会性相协调的色彩。
随着著作财产权利益分配关系的日趋复杂,著作权绝对主义理念逐渐式微。在这一立法转向过程中,著作权集体管理已成为著作财产权利益平衡机制中不可或缺的组成部分,也昭示着一国著作权集体管理的立法水平、集体管理组织的管理能力将对能否实现立法预期产生至关重要的影响。就本文讨论的主题而言,前述对生成式人工智能数据训练的“三阶”规制同样离不开著作权集体管理组织在其中扮演的关键性角色。由此回看我国现行的《著作权集体管理条例》,立法对著作权集体管理的内涵以及功能定位的规定能否满足“三阶”规制的需要仍有待进一步细致的学理分析。这也再次提醒我们注意,著作权领域的制度安排往往牵一发而动全身,需要立法者从整体性的角度思考、应对复杂的利益分配格局,而“见树不见林”式的问题解决思路只会陷入头痛医头、脚痛医脚的怪圈,无助于问题的根本性解决。
因篇幅限制,已省略注释及参考文献。
引注:徐聪颖:《著作权法规制生成式人工智能数据训练行为的理论争议与路径选择》,载《河北法学》2025年第3期,第97页-113页。