设为首页 | 加入收藏 | 联系我们

河北法学

精文推荐

当前位置: 期刊首页 >> 精文推荐 >> 正文



【数字法治研究|许娟】基于生成式人工智能构想“在线”裁判文书公开新模式
日期: 2026-01-15      信息来源:      点击数:

作者简介:许娟,女,湖北仙桃人,南京信息工程大学法学与公共管理学院教授,博士生导师,研究方向:大数据与人工智能法治。


摘要:生成式人工智能在司法数据中的公开应用催生了在线裁判文书公开新模式的构想。在线裁判文书公开是指在原有裁判文书上网的基础上,增加人机对话的端到端的互动式司法服务系统。通过对AI透明性认识论的反思,现有裁判文书公开是通过人类认知对司法数据进行控制,即由法院生成裁判文书的原始数据,公众在公开的原始数据上进行分析利用。这种基于人类认知的控制模式存在三大难题:基础数据的规范性不强,司法理性的稳定性不高,数据信息的共享性不足。为解决弱人工智能介入司法数据公开面临的困境,需要以生成式人工智能介入数据公开的全流程,降低司法信息传递的边际成本,通过理论模型对现实事物进行同构,采用自我学习算法对数据多层映射构建起多层级神经网络,理解裁判文书中的相关性和因果性问题,为对话互动式司法服务系统提供技术路径,进而实现基于生成式人工智能的在线裁判文书公开新模式。

关键词:司法数据;在线裁判文书公开;生成式人工智能;司法服务系统;司法信息传递


引言

大数据因其规模、速度、类型和复杂性超出了传统数据库的范畴,已经对社会生活的各个领域产生了深远影响,包括商业、医疗保健、科学研究、社交媒体分析、物联网、司法领域等。面对数字经济浪潮的到来,我国围绕实现数据价值的高效利用,在制度层面进行一系列顶层设计,为数字经济健康蓬勃发展提供可遵循的政策指导。202212月,中共中央、国务院出台《关于构建数据基础制度更好发挥数据要素作用的意见》,明确提出推进数据资产合规化、标准化、增值化,依法依规维护数据资源资产权益。202381日,财政部印发《企业数据资源相关会计处理暂行规定》,数据资产化从202411日正式开始。20231231日,国家数据局等17部门联合印发《数据要素×”三年行动计划(2024—2026年)》,强调促进数据要素的放大、叠加、倍增作用发挥,即数据要素的乘数效应。我国司法数据治理的历程伴随着数据要素价值的发展也在不断演进。随着计算机和互联网的普及,法院开始尝试运用电子技术进行案件管理,并建立起最基础的法院信息系统。为了应对不断增长的司法数据,我国法院系统信息化建设的力度进一步加大,开始引入更为复杂的数据系统,对案件的管理流程趋向数字化、规范化,使得信息在司法机关内部流转更加高效。互联网的进一步发展使得司法部门意识到需要借助网络平台公开信息提高数据透明度,这一阶段出现了各类在线服务平台,裁判文书网的上线标志着我国司法数据公开进入全新的发展阶段,海量公开的裁判文书真正成为司法领域大数据挖掘、利用的主要对象,促进了司法数据资源的整合与共享。

在司法领域,大数据的应用催生了新型的数据治理平台和数据治理模式,高速发展的生成式人工智能在司法数据公开等领域的应用正不断开启新的可能性和面临诸多挑战。学者从不同角度探讨司法数据公开的现实价值与实现路径,但针对数据治理的有效方式仍未达成共识。在司法数据是否应该共享方面,支持司法数据开放共享的学者认为,司法数据共享是判例自动化生成的基础,应当加大司法数据公开共享的力度,提供多重主体参与司法的条件。也有学者反对粗放式的数据共享,认为司法数据共享潜在性地扭曲了公开行为,同时不完善的规则体系为滥用共享提供了机会,滋生出不充分、不客观、结构化不足的数据。对此,有学者认为应在共享和控制之间保持平衡,其重点在于如何保证隐私与公开的平衡性。在如何有效控制司法数据公开方面,有学者重点关注司法数据主控权,提出全面控制模式。有学者从权利冲突的角度,赋予数据局部控制权。从控制的方式看,有学者提出加强数据源头控制。也有学者通过检索裁判文书分析法院的做法,解析司法数据过程控制的实际图景。从控制的路径看,有学者对司法人工智能展开数据控制能力研究,有学者从欧美数据跨境流动的规则博弈和收益分配平衡的角度对数据控制规则进行再造。从控制与反控制看,有学者认为应该平衡控制与利用的关系,构建面向公共数据开放的数据控制框架。有学者通过反控制问题来倒推阻碍数据控制的因素(BjrnAhl & Daniel Sprick2018)。在如何理解司法数据公开中的人机关系方面,有学者强调算法权力可能存在的隐忧,应将人类理性与算法相结合,使得算法技术与公权力掌控者、私人资本保持共赢的关系,有学者认为生成式人工智能的出现导致司法活动逐渐呈现去责任化的趋势,机器逐渐取代人类在司法活动中的主体地位,需要警惕司法治理中算法影子官僚的风险。也有学者认为人工智能并未给法律基础提出挑战,受到挑战的只是如何将传统法学理念适用于人机关系的新变化,应当为法律人工智能的可及化和均等化提供新的辅助工具,促进法律与人工智能的双向融合,强化司法领域人工智能的服务型角色。从数据共享与数据控制、机器算法与人类认知等不同角度出发,对如何高效合理地利用生成式人工智能实现司法数据公开改革的问题的探索,有益于加深对生成式人工智能介入司法数据公开的相关要素的理解,但也普遍存在从法学理论出发讨论人工智能介入司法数据治理的问题。在人工智能高速发展背景下,更需要围绕AI技术特点和逻辑探索生成式人工智能介入司法数据公开的可行路径。

按照国务院办公厅出台的《要素市场化配置综合改革试点总体方案》中有关探索完善公共数据共享、开放、运营服务、安全保障的管理体制的要求,如何将公共数据管理体制放到生成式人工智能数字司法场景下作为制度路径依赖展开研究,并形成经生成式人工智能优化的司法数据治理新模式,这是数据在生成式人工智能司法场景运用中的核心命题。2024年中国司法大数据研究院发布首个通过中国法考的 AI 模型——法律垂直领域大模型法观,使得司法数据领域的生成式人工智能应用上升到新台阶。司法数据公开本质上转化为经生成式人工智能技术优化司法价值实现路径的概念。本文旨在从透明认识理论出发,围绕生成式人工智能的技术逻辑,探索以裁判文书网、人民法院案例库等司法数据平台为基础,经生成式人工智能介入司法数据公开,提供具有伙伴型人机关系的司法服务,构建在线裁判文书公开的新模式。


一、司法数据公开的历史回溯

(一)政策回溯

回溯我国裁判文书公开改革的历史进程,2003年最高人民法院发布了《关于进一步加强和改进人民法院审判工作的若干意见》,明确要求人民法院积极推进裁判文书公开工作。此后,全国各级人民法院相继建立了裁判文书网上公开系统,公众可以通过网络途径查询和获取裁判文书。自2013年起,最高人民法院以5年为建设周期,发布《人民法院信息化建设五年发展规划(2013—2017)》《人民法院信息化建设五年发展规划(2016—2020)》《人民法院信息化建设五年发展规划(2021—2025)》,体系化推进法院信息化建设,为司法数据公开提供明确的政策指引。面对司法数据治理融合人工智能的现实需要,202212月最高人民法院发布的《关于规范和加强人工智能司法应用的意见》中指出:规范司法人工智能技术应用,提升人工智能司法应用实效”“坚持技术研发、产品应用、服务运行的透明性……确保应用过程和结果可预期、可追溯、可信赖。”20237月,国家网信办等七部门联合公布的《生成式人工智能服务管理暂行办法》也在规范上完成了生成式人工智能在数据创新应用和风险防范的布局。这些意见政策的出台,不仅表明司法数据已经成为司法改革的核心驱动力,更强调了在数字时代司法改革需要与人工智能技术深度结合,司法数据的公开与人工智能的透明原则需要进行深度匹配和融合,提高政府、企业和社会公众对司法数据公开的认知,以透明治理推动司法公开改革,以数据驱动司法数据价值提升,所谓透明治理是指在稳定的基础上,以技术为根基,以司法场景为导向的可信治理模式。

20241月,张军在全国高级法院院长会议上强调:持续深化司法公开,加大裁判文书上网力度,妥善解决文书网使用效果不佳等问题,平衡好文书公开与当事人合法权利、隐私保护之间的关系,加强人民法院案例库建设,更优更实为司法审判优质高效服务,为社会公众学法、专家学者科研、律师办案服务。”202438日,最高人民法院在第十四届全国人民代表大会第二次会议上提交的工作报告中指出:推进全国法院一张网建设,以数字法院助力提质增效。在一系列推动人工智能应用、深化司法公开改革的政策发布的背景下,我国发挥制度优势,从国家统筹的层面为生成式人工智能应用于司法领域铺平道路。因此,裁判文书公开不仅需要依法公开,更需要从数据治理角度出发,以人工智能技术提升数据公开效能。

(二)实践进路

随着司法改革的持续深入,司法数据治理效能和手段也在不断地提升和扩展,从单一的信息管理逐步演变为数据的公开透明、资源共享、支持决策,并向着智能化、精细化、国际化的方向发展。司法系统不仅推动内部治理现代化,提高决策的科学性,还积极参与国际司法合作和数据交换,扩大中国司法影响力,同时也吸收和学习国际上的先进经验和理念。人民法院大数据管理和服务平台自20147月正式上线,实现了全国法院、案件数据和统计信息的全覆盖。2020年,建成以全面覆盖、移动互联、跨界融合、深度应用、透明便民、安全可控为特征的人民法院信息化3.0,全面支撑审判体系和审判能力现代化。20194月和202111月,联合国环境规划署环境法数据库分两批收录中国环境资源审判司法案例和数份环境司法报告;20236月最高人民法院与联合国妇女署合作发布《中国反家暴十大典型案例(2023)》,我国司法数据公开为国际组织治理提供了中国智慧。2016年最高人民法院立项、人民法院出版集团建设的法信平台上线,提供国内立法、行政和司法机关上万篇最新发布的法律文件和案例,构建知识图谱式的法律检索服务平台,并提供智能问答式检索功能。2023年上海法院启动数字法院建设,采用场景应用的模式,提供智能化的司法数据查询服务。北大法宝在原有检索类的数据库基础上,利用生成式人工智能技术,上线了法宝GPT,采用智能问答的形式,融合北大法宝现有的司法数据,提供对话式的法律咨询服务,为人工智能在司法数据中的应用提供了可以借鉴的实践案例。

在司法数据公开的实践中,裁判文书上网是受到关注最多、影响最广的重要方式。20131113日《最高人民法院关于人民法院在互联网公布裁判文书的规定》出台,中国裁判文书网正式上线,我国司法透明度得到进一步提升。然而,自2020年至2023年,裁判文书上网数量呈明显下降趋势。特别是202311月,最高人民法院办公厅发布《关于建设全国法院裁判文书库的通知》,将上线仅面向法院内部查询检索的全国法院裁判文书库,引发了此举是否意味着裁判文书公开改革倒退的争议。有学者认为这会损害公众的知情权和监督权,有学者则认为该举措极大提升了裁判文书公开的效能。对此,最高人民法院相关部门负责人专门作出回应,人民法院案例库与裁判文书网互为补充,相得益彰2024227日,人民法院案例库正式上线并向社会开放。自此,裁判文书网与案例库携手并行,同时裁判文书网上公开的案件数量经历短暂下降后,又明显上升。这些举措有效回应了公众的担忧,但并未从根本上解决司法数据公开带来的数据质量不高、检索不便利等问题。诚然,裁判文书上网是司法改革的重要方面,但是裁判文书公开不仅是为了提升司法公信力、促进社会法治进步,更是推动国家治理现代化的重要手段。在人工智能时代,裁判文书公开的意义更多体现在促进司法数据优化治理、增强司法公开透明、提升司法治理能力现代化上。


二、生成式人工智能与司法数据公开的内涵匹配

司法数据公开在政策规划和实践应用方面不断深化,生成式人工智能的出现大大加速了这一进程。同时,人工智能在司法数据公开中的应用催生了对机器(AI)认识论的反思,裁判文书公开中存在的问题使得AI认识不透明性增加,即原始数据缺乏规范格式、数据产生过程不可追溯、同类数据中出现逻辑矛盾、数据共享流通壁垒重重等问题导致公开的数据越多,AI对数据的分析理解有效性越差,数据公开的实际效果与预期目标渐行渐远。多年来,针对裁判文书公开的批评概莫能外。人类认识需要经过不断识别、理解和分析等认知螺旋,从而消除认识与认知透明性之间的鸿沟。生成式人工智能可以基于历史司法数据进行分析,预测类案的裁判结果,通过确保裁判标准的统一性和普遍性,减少因审判人员知识和思维局限性导致的对同类事实的个人主观判断差异。通过塑造伙伴型的人机关系,将人类基于价值、事实的判断与机器基于数据、算法的判断进行交互式理解、互动,生成式人工智能可以深化人类对司法数据的理解和认识,帮助法官在裁决时参考统一的法律标准,帮助公众更好地理解审判结果,使得法律价值上的公平正义与人们内心中的公平正义相统一。

(一)生成式人工智能提升基础数据规范性

裁判文书包含了审判流程、庭审、裁判文书制作和执行等重要诉讼环节产生的信息内容,是体现司法权威性的重要载体,规范性是裁判文书的必然要求。然而在实务中,不同法院在裁判理由、法条适用等方面可能采用不同的表达方式,使得裁判文书在内容上缺乏一致性,部分裁判文书可能会遗漏一些重要信息,如案件的基本事实、证据采信情况、法律适用的具体理由等,影响了数据的完整性和逻辑性。不同法院的裁判文书在格式上可能存在差异,比如标题、目录、正文的结构等各有不同,造成了一定程度的数据结构混乱。有时候裁判文书中可能存在对相关法律适用不够明确,法律专业术语使用不够准确,同一物品或事实使用不同的词语进行表述,文书内容中出现低级错误等问题,其在影响司法客观权威性的同时,也给司法数据的分析利用带来了障碍。人工智能对司法活动的认识基于对规范的司法数据进行同构,而裁判文书作为人类司法理性的终极表征,其规范性不足直接导致这种同构基于有缺陷的数据,带来机器对于司法活动认识的扭曲。

生成式人工智能可以对裁判文书进行理解、分析,有效地识别和提取裁判文书中的语义要素,准确地理解裁判文书中的法律概念和逻辑,精准地对裁判文书进行检索并输出满足审判人员需要的法律法规、同类案例、裁判理由等内容,提升裁判文书的规范性,为司法数据治理提供了高效整合的空间。生成式人工智能提升司法数据规范性主要体现在以下四个方面:(1)文本纠错。识别和纠正文本中的语法错误、拼写错误和句子结构问题,从而提高文本的规范性。通过对输入文本的理解和语法模型的应用,自动纠正错误并输出更符合语法规范的文本。(2)文本优化。识别文本中的重复、啰嗦和含糊不清的表达,通过重新组织句子结构和更正措辞,使文本更加清晰、简洁和规范。(3)语义分析。通过学习大规模语料库中的语义和词义关联,识别文本中的实体、关键词和主题,并对文本进行自动分类,通过准确的语义分析和分类,提高文本数据的组织性和统一性。(4)统一表达。识别和学习裁判文书中不同的语言风格、修辞和表达方式,辅助提升文本的规范性和匹配度。IBM开发了一款名为“OLGA”的人工智能助手,可以提供案件分类、提取元数据,对司法数据进行规范化处理,帮助法官和书记员可以更快地从成千上万的文档中筛选出特定案件并使用特定的搜索标准从各种文档中找到相关信息。

(二)生成式人工智能提升司法理性稳定性

法律是客观的,人们对司法审判的期望也是客观公正的。但法律天然带有意识形态的色彩,在作出判决的过程中,对于证据的采纳和法律的适用都依赖于审判人员对于法律的理解,判决的主观性难以避免。在我国,同案不同判的情形时有发生,无论是认定事实还是适用法律,都是法官解释的结果,面对同一法律事实,出现了不同判决结果,给司法数据的治理带来了一定程度的阻碍。随着社会的发展,法律也会进行修正和调整,法律的每一次修改都会对现行的法律体系、司法实践以及社会秩序产生影响,特别是在新旧法律交替适用的过程中,同类案件判决的决策依据变化导致的数据不稳定性尤为明显,数据使用的用户粘性也因此下降。面对这种人类主观意识导致的数据不稳定,基于理性逻辑的机器难以进行分析与理解,人类认知的不透明性导致人工智能难以区分司法数据中的相关性和因果关系,最终导致理性的机器输出不理性结论的结果。

生成式人工智能的机器认知的稳定性优于人类认知的稳定性,经过机器提炼案件的要件事实和逻辑论辩节点的裁判文书的理性化程度取决于机器对知识理解的能力,人类认知具有普罗特斯的脸谱特色,需要优质机器对知识进行理解,在此基础上进行人类认识论的提升。因此,在司法数据利用和治理过程中,需要将法律知识基础和数据分析技术有机融合,正确理解数据背后的法律意义和社会影响。利用数据进行预测模型建构、趋势分析或政策建议时需要谨慎,以保证分析结果的专业性和公正性。首先,生成式人工智能可以通过学习大量的裁判文书理解上下文中的含义和关联关系,对新生成的数据进行比对和验证,更好地理解裁判文书中的复杂性和语义,确保生成的数据具有一致性和准确性,降低数据错误或不稳定性带来的风险。其次,还可以通过模型训练来学习逻辑推理规则和知识结构,以检查数据的逻辑一致性和合理性,排除数据中可能存在的错误、矛盾或不稳定的部分,提高数据的稳定性和可信度。最后,生成式人工智能通过知识理解进行推理和预测,生成可能的补充数据,填补数据中的缺失或矛盾之处,提高整体数据的稳定性。由此,结合透明化、标准化、智能化的生成式人工智能对裁判文书的事实基础、法律依据、论证逻辑等进行有效的理解和优化,司法数据的稳定性得以保障。在实践中,上海法院开发了“206系统,当法官的判决与同一级别或以上级别法院类似案件的结果差异接近85%时,将自动提醒法官。如果法官仍然坚持原判决,系统将自动将判决文件推送给该院院长进一步研究讨论。

(三)生成式人工智能提升数据信息共享性

截至202512月,中国裁判文书网上已公开的各类文书已逾1.6亿篇,访问总量超过1200亿次;人民法院案例库的入选案例有5162件,入选案例以近五年为主,保证了案例时效性,裁判文书的共享化特征已充分显现。但是,裁判文书的共享一直处于判决直接上网、数量简单累加的粗放型公开模式。一方面,法院在提供上网的裁判文书中,往往只包含案件事实、裁判说理和判决结果,裁判结论的过程信息往往被简化或未被披露,缺少过程信息的裁判文书使得司法数据的相似度大大提高,增加了在类案同判的正义观影响下公众对简化后的司法数据出现误解的概率。另一方面,部分上网的裁判文书未将包含大量个人隐私信息,如受害者、嫌疑人和证人的详细资料的内容进行匿名化处理,造成当事人隐私泄露,因此而产生的人格权损害争议时有发生。在AI时代,非个人隐私的信息往往也能通过技术进行对个人身份的识别,而保护这些信息不被滥用是司法机构的重要职责,信息披露的程度受法律法规严格规定,这就导致司法人员难以判定上网的裁判文书是否会导致个人信息泄露,因而选择性地进行数据公开或控制文书上网的数量。在司法数据共享的过程中,还存在异质化的系统间的兼容性差,难以实现数据的无缝交流和共享的问题。即便是在同一司法体系内,不同机构或部门可能会有各自特定的数据格式和要求,这使得数据的整合和共享面临着标准化的困境。机器认识的提高需要大量的基础数据作为模型训练的原始材料,缺少足够且完整的司法数据会导致模型训练的不充分,人工智能对司法数据理解的底层模型将出现缺陷。

针对司法数据共享性问题,可以优化网上公开的数据质量和算法模型,运用生成式人工智能介入融合法律论证逻辑,促进司法数据高质量共享。面对海量已公开的司法数据,生成式人工智能介入处理可以有效提升司法数据利用效率,并在此基础上衍生出更多智能化的司法服务。通过自然语言处理(NLP)技术,生成式人工智能可以提升搜索效率,在为用户快速提供需要的文书的同时,还可以基于优化算法分析能力,提供精准有效的法律依据。有学者提出利用自然语言处理技术建立法律自动柜员机的可能性,作为法律信息学在发展中国家的创新应用。利用生成式人工智能可以自动识别和屏蔽文书中的个人隐私和敏感信息,降低海量数据的公开对个人信息安全造成的风险。对于简单案件,尤其是要素式、表格式、令状式裁判文书,生成式人工智能可以帮助自动生成当事人情况、诉称等部分,提供智能化的司法服务。


三、生成式人工智能实现在线裁判文书公开新模式

数据流通是数据要素价值实现的必然要求,司法数据公开透明是实现司法数据价值的需要。实现司法数据公开透明需要经生成式人工智能的优化控制,以技术为基础,围绕司法应用场景,建立共享赋值与全流程控制相结合的并行路径。通过生成式人工智能介入裁判文书公开的全流程,围绕降低司法信息传递的边际成本,以点线面结合的神经网络式控制结构,为未来通用大模型的出现预留应用对接的空间,构建在线裁判文书公开新模式。

(一)生成式人工智能介入在线裁判文书公开全流程

1.规范司法数据收集的前端应用

原始裁判文书数据是司法数据应用的基础,原始数据的质和量直接决定了后续数据利用的有效性,也是智慧法院、智慧司法建设的基石。司法数据的产生、存储、控制均由各级司法部门掌握,由于数据的特殊性,其已逐渐成为司法部门间的新型权力资源。数据的应用需要司法部门之间共享数据,这可以看作一种数据资源权力的重新分配。这种分配不光是在不同机构之间进行资源和权力的再平衡,也体现在了对数据访问、处理和使用能力的重新配置上。面对权力的二次分配,通过生成式人工智能介入,消解司法部门可能存在的抵触情绪,避免在上交或共享部门掌握的司法数据时进行选择性的筛选,而导致司法数据应用的原始数据失真情况的发生。同时,在共享数据过程中可能会涉及错误或者失误,经生成式人工智能优化的司法数据优化治理模式可以提供数据全流程溯源信息,为界定责任归属以及解决纠纷提供依据。随着数据共享的推进,对于技术基础设施的需求也会增加,不同司法部门可能对数据的敏感性、使用范围有不同见解,生成式人工智能可以在更高层级建立数据共享平台,对数据终端和数据接口的基础设施要求较低,能够有效帮助相关利益方达成数据共享共识。既要理性看待司法人工智能带来的挑战,也要接受人工智能时代即将到来的事实,积极推动法官角色和职能的转型升级,回应人工智能时代对法官角色定位的新需求。为实现高质量的司法数据收集,需要打破司法数据共享中部门间的壁垒,提升数据的规范化程度。建立和维护标准化的数据交换格式和平台,规范化司法数据共享的标准格式,确保不同部门之间数据共享顺畅。明确跨部门的数据治理机构监督数据共享过程,避免网络爬虫滥用对司法公开数据的侵害,确保数据准确性和一致性,并处理数据隐私和安全问题。制定统一的裁判文书模板,规定文书的格式和各个部分的内容,在撰写文书中使用标准化的法律术语和表述方式,减少不必要的个性化和情感化语言,保持文书的专业性和一致性。创建专门的裁判文书数据库,存储结构化后的数据,支持高效的检索、更新和维护功能。强化判决充分说理,组织化增强裁判文书的释法明理作用。裁判文书应充分阐述事实,详细列举和分析证据,清晰表述法律适用,对判决结果进行逻辑严密论证。确立明确提高审判效率、强化决策支持以及增进透明度和公众信任的建设目标,让各层级的司法部门认识到数据共享的共同价值,加大对从事司法数据工作人员的数据价值培训,培育协同共享的文化认同。以源头控制理念提升司法数据质量,增强司法数据可信度,为司法数据公开透明构建坚实的基础。

2.完善司法数据清洗的中心环节

司法数据在应用过程中,数据的清洗是智慧司法建设的决定性环节。在司法大数据的清洗中,生成式人工智能可以解决诸多问题。一是不同来源的数据可能采用不同的格式或标准,或出现信息缺失的情况,录入的数据可能存在输入错误,或者在数据传输和存储过程中产生错误,生成式人工智能通过大语言模型,有效识别数据中前后矛盾和输入错误的情况,提升数据质量。二是法律术语可能会有多重含义,或者不同的记录可能使用不同词汇描述相同的概念,司法数据中存在复杂的依赖关系,如案件参与者、法律条文引用等,往往容易造成解释或理解上的歧义。生成式人工智能使用专业的法律知识库和语料库进行训练,包括法律条文、案例、司法解释等,通过定期更新数据训练库、扩大训练数据范围,可以最大程度地降低算法偏见,强化后续数据分析和结果的公正性。三是在清洗数据以便后续分析利用时,原本被去标识化(匿名化)的数据可能会因为清洗过程中的数据关联或错误操作而重新与个人关联起来,导致隐私泄露。数据清洗过程需要将数据从一个安全性较高的环境转移到安全性较低的环境中进行处理,这个过程可能会增加数据被非授权访问的风险。在处理司法数据的过程中,生成式人工智能内嵌的匿名化自动化管理原则保证了要严格遵守隐私法规,确保隐私信息安全。

围绕算法算力开展数据清洗,能够发挥大语言模型在理解、分析、预测数据等方面的优势,强化生成式人工智能融合认知,增强司法的可解释性和透明性,实现可靠和高效的司法数据治理。高效能的数据清洗是指在确保数据质量、一致性和可用性的同时,将收集到的数据转化为方便人工智能分析理解的经典数据,提升算法识别精度,优化数据利用效率。2024年有报道称某地基层法院在裁判文书网上传的一份裁判文书中出现100多处错误,引起舆论哗然。生成式人工智能对数据的清洗可以有效避免文书中的低级错误,将审判人员从繁缛的文书工作中解脱出来,提升司法工作效率。首先,高效能的数据清洗依赖于算法的优化,通过快速识别和修正数据中的错误,包括数据校验、规范化和变换的功能,建立数据清洗流程,实现数据的规范化输入,保持数据的一致性和准确性。其次,高效能的数据清洗需要法律专业知识与数据专业技能的有效融合,司法人员要深刻了解司法数据的背景、意义和法律要求,确保数据清洗不仅要符合技术规范,同时也要遵守法律规范和实务需求,结合法律知识和数据技术,制定数据清洗的逻辑和规则,例如,识别和纠正错误或不一致的法律引用与案件信息, 通过引入先进的数据处理工具和算法,自动化数据清洗流程,同时,结合法律专家的知识进行质量控制和审核,确保数据符合司法程序和规范性要求。最后,个人隐私安全是数据清洗中不能回避的问题,对司法数据进行脱敏或匿名化处理,确保在数据集中无法直接或间接识别众多的个人信息,以履行个人信息保护监管责任。将安全合法、最小必要等原则通过技术手段嵌入司法数据管理和清洗的全过程,确保在不损害个人隐私的前提下有效地进行数据清洗,提高司法数据的效用。

3.优化司法数据公开的统筹末端

随着司法数据量的不断增长,从法律条文到裁判文书、指导性案例、司法解释等,对高效、精确的文档分析的需求从未像现在这样迫切。生成式人工智能中自然语言处理(NLP)技术凭借其理解、提取和提炼文本信息本质的卓越能力,成为解开法律世界复杂性的关键。首先,在数据汇集、利用阶段,生成式人工智能可以增强数据处理过程的透明度。司法部门倾向于将司法审判过程视为封闭的专业型系统化工作,在数据的采集管理、法律语义认知和判决决策逻辑上仍趋保守,而生成式人工智能是在海量裁判文书的基础上进行分析、运算,输出合法有效的结果,数据分析处理过程的透明性使得公众面对判决结果时更加可理解、可接受。其次,数据的应用中可能产生的数据歧视会严重影响司法公平正义的实现。智慧司法在辅助审判的过程中会通过预测审判人员的行为加深审判主观性在某些方面的偏见,甚至通过对法官进行画像间接决定审判结果。经生成式人工智能优化的司法数据优化模式就是要避免算法歧视和信息茧房,在人机互动的过程中保持中立、客观、辅助的角色,为司法审判提供可靠的技术支持。最后,司法数据的应用需要司法人员在让渡一部分数据权力的同时,加强人工智能等相关技术的学习,增加了司法人员的工作难度,对法检人员在审判过程中的作用和地位也有一定影响。生成式人工智能塑造的伙伴型人机互动关系,降低了司法数据的使用门槛,满足了司法人员个性化、定制化的司法服务需求,为智慧司法建设铺平道路。

2021年最高人民法院发布《人民法院信息化建设五年发展规划(2021—2025)》,提出构建司法数据中台,旨在在数据高质量收集和高效能清洗的基础上,以生成式人工智能技术为核心,建立高水平全局性的数据归集治理平台,全面提升智慧司法服务能力。司法数据的全局控制主要包括以下三点:第一,司法数据的规范化管理,要求增强数据收集、存储、利用过程中的透明度,坚持技术研发、产品应用、服务运行的透明性。制定清晰的数据管理原则和政策,公开数据处理流程,保存数据访问和使用的详细日志,确保数据管理活动符合数据保护法律和条例要求。第二,以技术创新驱动治理创新,加大如区块链技术、智能合约技术等信息化智能化技术运用力度,以裁判文书网等数据开放平台建设为典型,增加数据管理活动的透明度。第三,司法数据的分级分类管理。裁判文书网、人民法院案例库等司法数据平台的建设将司法数据分类别、分层次进行规范化收集共享,有效避免了数据公开带来的个人隐私风险和对司法行为的不当预测,避免数据歧视在司法领域的出现。通过自上而下体系化的裁判文书公开改革和高效规范的司法公开平台建设,建立统一数据公开的标准和流程,这有助于打通不同司法部门之间的信息孤岛,实现数据共享,真正促进司法审判现代化建设。

(二)生成式人工智能降低司法信息在线传递边际成本

边际成本是一个重要的经济学概念,它反映了当生产量增加一个单位时,总成本增加的额外金额。信息传递的边际成本通常非常低,特别是通信技术的发展与互联网的普及,信息的传播成本大幅下降,信息的可复制性使得其传递边际成本可近似于零。然而,随着大数据时代的到来,信息以数据的形式成为新型的生产要素,从大量数据中围绕特定需求提取有效信息的难度大大增加,例如,《最高人民法院统一法律适用工作实施办法》强化了类案检索的制度要求。随着裁判文书网、人民法院案例库等案例数据的持续增长,在为同案同判带来更多可供参考的案例的同时,也带来了类似“More is Less”的难题,信息传递边际成本显著增加。生成式人工智能可以从提高司法信息传递效率、优化司法决策支持和促进法律知识共享等方面,提供伙伴型人机关系的司法服务,有效降低司法信息传递的边际成本。

1.提高司法信息传递效率

生成式人工智能在司法数据领域公开应用的最大优势在于提高信息检索效率。由于强大的算法、计算以及标准化、流程化和重复性的特点,生成式人工智能可以在短时间内完成案件检索、数据分析、反馈意见等工作,从而改变只是简单推送相关案例的低效检索方式,有效缓解个人在面对海量司法信息时无从下手的困境。人工智能可以借助数据存储、读取、算法和计算能力的优势,对大量数据的全样本进行深入分析和研究。它不仅可以掌握先前案件判决中积累的成熟经验,还可以获得更开放的法视野和更丰富的司法实践知识,轻易地超越人类法官智慧的临界点。例如,在事实查找中,当证据与待证事实之间的关系不确定时,生成式人工智能可以根据大量先例经验的学习,量化证据要素与事实结论之间的概率,避免因法官个人知识和经验的局限性而忽略一些重要案件信息,从而产生不合理甚至错误的决定风险。生成式人工智能可以帮助平衡公平和效率,其基本运作机制是把司法大数据作为样本,通过语义分析和数据分析建立模型,筛选出可能影响判断结论的数据样本中的相关因素,然后将这些数据标记并整合到一个结构化的知识链中,以实现精确的自动化裁决。关注每个司法元素的可扩展性,依靠独立的算法,重复应用的法律系统可以有效地摆脱人类法官自由裁量的任意性,促进法律适用的统一,降低法官价值主观偏见和外部因素的影响,最终确保裁判官的客观性和公正性。

2.强化法律行为决策支持

通过分析历史案例和相关法律条文,生成式人工智能能够为用户提供更为全面的判例参考和法律依据,帮助用户作出更加精准合法的行为决策。Lexis Litigation Profile Suite等平台利用人工智能中的机器学习和自然语言处理技术挖掘已发布的案件意见中丰富的隐含信息,帮助用户快速发现新的论点并提供具体的论据以供在法庭上使用。利用生成式人工智能整合梳理大量的真实案例数据,并对数据进行分级分类处理,可以针对某一类案件提供可靠有效的法律建议,为司法实践提供参考和解决方案。基于生成式人工智能的法律服务平台Lex Machina2023年推出了集体诉讼模块,利用人工智能对数据的穿透理解能力为超过14 000起集体诉讼案件提供法律解决方案。生成式人工智能的自然语言对话能力,一方面可以帮助不同年龄、民族、地区、政治背景、学历结构的用户采用最熟悉的语言进行法律信息检索和法律咨询,对用户友好的使用方式会增强用户粘性,提升法律服务的普及性,为用户提供个性化的法律决策支持。另一方面,自然语言对话可以让用户更好地表达自身需求,生成式人工智能可以通过收集分析用户的提问,更好地理解司法活动中各类主体的需求变化,预测法律实施的效果与需要弥补的空白点,为法律和政策制定实施提供可靠的数据指引支持。例如,生成式人工智能可以提高律师基于AI输出的内容为客户提供法律决策建议的生产力;当律师作为包含生成式人工智能和一系列相关专业知识的多学科团队的一部分进行工作时,其自身的法律专业知识也促进和优化了人工智能的部署与运行。

3.构建司法知识共享渠道

生成式人工智能可以帮助将法律知识和信息以更容易理解的形式传播,降低专业知识的传播门槛。有学者提出结合人工智能技术建设法院数字共同体,以解决当下法官个体知识向法院群体知识传递、法院群体知识代际传承的两大难题,生成式人工智能提供的人机对话交互功能,能够为这两大知识传递共享难题提供有力的解决方案。知识的传递不再是单向的、静态的流动,而是根据用户的需求和理解,不断调整输出的内容,以达到人机互动的最优状态。法官面对繁重的审判工作,需要的是能够直接回应并解决相关问题的服务,而不仅仅是机械式、不加分析地反馈裁判文书或法律条文的工具。知识共享与生成式人工智能在提升司法部门整体效能方面具有相辅相成、共同促进的作用。有研究表明,通过知识共享的方式将组织内现有的知识进行整合,引导司法人员分享个人经验、形成集体智慧,使得隐性知识转化为显性知识,通过生成式人工智能促进知识的外部化和社会化,提高司法工作的效率。在智慧法院建设过程中,生成式人工智能还可以提供自助服务,如自动回答法律咨询、生成法律文书模板等,减少公众对法律服务的等待时间和成本。此外,对于困难、复杂或新颖的案件以及法官个人经验不足以有效应对的案件,生成式人工智能也可以通过探索法官的集体生活经验和整体理性,作出更可靠和稳定的判断,避免由法官个人自由裁量带来不确定性风险。生成式人工智能的输出质量高度依赖于训练数据集的质量和代表性,因此,不能仅依赖于裁判文书作为训练数据,更需要通过知识共享确保所使用的数据集具有足够的广度和深度,以避免偏差和错误。

(三)生成式人工智能增强在线司法数据公开控制的能力

在司法数据公开中,生成式人工智能嵌入的数据公开控制不仅关系到智慧司法的透明可信问题,还涉及到公民的知情权与隐私权的矛盾调和。结合生成式人工智能的技术逻辑和发展趋势,形成神经元式节点控制与神经网络式的经纬控制相结合,为未来应用通用大模型(AGI),真正实现智能控制留出可用接口,在保障数据的安全和合规性的同时,有利于整个司法系统的智能化水平,为公众提供更加透明和高效的在线司法服务。

1.信息预测与反馈的神经元信号传递式控制

在一阶控制理论中,可以通过信息预测与反馈的神经元信号传递式控制来实现人工智能对司法数据公开的控制。这种控制机制的核心在于通过理论模型对现实事物的同构,利用模糊集合理论(Fuzzy Sets)对符号化的司法数据进行一一映射,模仿人脑神经元的信号传递过程,通过建立一个复杂的函数集合,使得人工智能系统能够实时监测和分析司法数据公开的需求和风险。在这个模型中,每一个神经元节点都可以看作一个信息处理单元,它们通过电信号的形式进行相互连接和通信。这些信号在网络中传递,不断地进行预测和反馈,从而实现对整个系统的动态控制。具体来说,信息预测是指系统能够根据历史数据和当前情况,预测未来的信息需求和可能出现的问题。而反馈则是指系统在预测的基础上,根据实际发生的情况,调整自身的响应策略,以确保数据公开的安全性和有效性。这种预测与反馈的循环机制,使得人工智能能够不断学习和适应,提高其管理司法数据公开的能力。当系统检测到某个数据请求可能涉及敏感信息时,它可以立即启动预警机制,阻止数据的不当公开。例如生成式人工智能所包括的机器学习和深度学习等技术可以对数据进行特征提取和选择,获得最具预测性的特征来分析各种类型的数据,以识别潜在的风险,并向相关部门提供预警。同时,系统还可以根据用户的反馈,调整其数据处理和响应的策略,以提供更加精准和个性化的服务。

2.复杂法律关系网络化的神经网络式控制

为了确保敏感和复杂的司法数据得到妥善处理,回应类案同判、知识共享等司法现实需求,需要采用复杂法律关系网络化的神经网络式控制。这种控制方式是一种高级的人工智能应用,它模仿了人脑中神经网络的工作原理,通过多层映射的量变引起质变,算法构建起多层级神经网络,理解并区分因果性与相关性,构建一个庞大的网络化结构来处理和分析法律数据。在这个网络中,每一个节点都代表着一个法律实体,如案件、法规、判决结果等,而节点之间的连接则代表了这些实体之间的法律关系。这样的网络化处理不仅能够反映出法律实体之间的复杂联系,还能够通过机器学习算法不断优化自身的处理能力,提高对司法数据的分析精度。在人工智能介入司法数据公开的控制过程中,这种复杂法律关系网络化的神经网络式控制能够有效地识别和处理大量的法律信息,通过静态的控制软件提供基础设施,通过主体的控制程序建立全国裁判文书信息平台,全国裁判文书数据库赋予每一个第三方输入平台企业一个监管代码,打码入库,入库监管,为法官、律师以及公众提供更为准确和全面的法律服务。例如,它可以帮助法官在审理案件时快速找到相关的法律条文和案例,帮助律师为客户提供更加精准的法律咨询,同时也能够让公众更好地理解法律决策的过程和结果。此外,这种控制方式还有助于保护个人隐私和数据安全。通过对网络中的数据进行加密和匿名化处理,可以确保敏感信息不会被未授权的人员访问。同时,神经网络的自我学习和自我调整能力也使得系统能够及时发现并修补可能存在的安全漏洞,从而保障整个司法数据公开过程的安全性。在人工智能介入司法数据公开的控制中,采取复杂法律关系网络化的神经网络式控制是一种创新且高效的方法。它不仅提高了数据处理的效率和准确性,还增强了数据安全性,对于推动司法透明度和公正性具有重要的意义。随着人工智能技术的不断进步,我们有理由相信,这种控制方式将会在未来的司法实践中发挥更加重要的作用。

3.自我学习进化式的仿人类智能控制系统

通过数据、算法、算力的融合提升,对现实世界进行较为完整的映射,以机器认识的不透明性去逼近或者模仿人类认识的不透明性,从而实现人机期望、语言、时空三个方面的对齐。具体来说,未来可以采取一种自我学习进化式的仿人类智能控制系统来管理司法数据的公开,即人工通用智能在司法数据场景下垂直应用。这种系统的核心在于模仿人类的学习和决策过程,通过不断地学习和进化,提高对司法数据的处理能力。这种系统的工作原理是,首先通过大量的数据分析,让人工智能系统理解司法数据的基本结构和特点,然后根据这些信息,系统可以自动地对新的数据进行分类、整理和分析。在这个过程中,人工智能系统会不断地从错误中学习,通过机器学习算法,系统能够识别出数据处理方式的有效性,从而不断优化自己的数据处理策略。这种自我学习进化的过程使得人工智能系统在处理司法数据时,越来越接近于人类的处理方式,甚至在某些方面超越人类的处理能力。随着社会的发展和技术的进步,司法数据的结构和内容也在不断变化,需要预训练的大模型可能无法适应这种快速变化的环境,但是未来人工智能系统可以通过自我学习和进化,快速适应新的数据环境,确保司法数据的有效管理和公开。通过采取自我学习进化式的仿人类智能控制,我们可以有效地管理司法数据,确保数据的安全和有效公开,同时也为司法领域的其他应用提供了强大的技术支持。可以想见,这种技术的应用不仅可以提高司法数据管理的效率,也可为司法公正和透明提供有力的保障。


结语

在探讨司法数据治理新模式的进程中,面对不断涌现的司法数据,通过裁判文书的公开作为突破口,不仅是走向司法透明度的重要一步,也是构建开放、公平和透明司法环境的基础。裁判文书公开的改革已成为司法审判现代化建设中的典型缩影。当前裁判文书公开采用弱人工智能指导下的司法服务模式,在裁判文书网普遍公开的基础上建立人民法院案例库对数据进行规范控制,然而在数据量不断增长、人工智能技术持续迭代的背景下,现有模式适应性较低。以生成式人工智能为核心的司法数据的智能化利用,可以有效增强司法审判的公信力,提升法律服务效率,扩大法律普及范围,这一过程不仅涉及技术层面的创新,更关乎系统设计、隐私保护以及法律伦理。着眼于裁判文书的公开,需要经生成式人工智能优化的司法数据公开透明新模式,构建伙伴型人机关系,实现更高效和规范的司法公开平台建设,促进标准化流程的建立,推动跨部门、跨区域的数据共享。尽管人工智能存在算法黑箱”“算法歧视等问题,但人工智能技术的高速发展所带来的生产力变革有目共睹。被动应变不如主动求变,我们应该在正视现有技术不足的基础上,大力推进司法数据公开领域中生成式人工智能的正确与合理应用。以生成式人工智能介入数据公开的全流程,降低司法信息传递的边际成本,通过理论模型对现实事物进行同构,采用自我学习算法对数据多层映射构建起多层级神经网络,强化司法数据公开控制,提供对话互动式司法服务,实现基于生成式人工智能的在线裁判文书公开新模式。随着生成式人工智能技术在算法、算力等方面的不断提升以及人类对人工智能新的认识论的不断深入,这一新模式有望成为增进司法透明度、提升司法权威性的重要推手,为未来制定司法数据条例、推动数字法院建设与促进审判体系和审判能力现代化提供参考路径。


因篇幅限制,已省略注释及参考文献。

引注:许娟:《基于生成式人工智能构想在线裁判文书公开新模式》,载《河北法学》2026年第2期,第81-100页。



地址:河北省石家庄市友谊北大街569号

Copyright© 2004-2005 All Rights Reserved 冀ICP备11009298号