专栏名称: 法理杂志
《法理——法哲学、法学方法论与人工智能》是由中国政法大学法学方法论研究中心、北京市天同律师事务所主办,商务印书馆出版的集刊。舒国滢教授担任本刊主编,王夏昊教授、辛正郁律师担任本刊副主编。
目录
相关文章推荐
闹闹每日星运  ·  星历0304:巨蟹保持平常心 天蝎保持谨慎 ·  2 天前  
闹闹每日星运  ·  周运 | 闹闹12星座周运势:0303~0309 ·  3 天前  
闹闹每日星运  ·  2025乙巳年九宫飞星布局详解(添旺篇) ·  4 天前  
闹闹每日星运  ·  星历0303:金牛学会适当让利 水瓶关注健康问题 ·  3 天前  
51好读  ›  专栏  ›  法理杂志

思享|张迪:大数据证据、人工智能证据与算法证据的概念辨析

法理杂志  · 公众号  ·  · 2025-01-26 17:00

正文





来源

原题为《大数据证据,人工智能证据,还是算法证据?——“算法证据”概念之提倡》,载于中国政法大学刑事辩护研究中心公众号

作者简介

# 张迪

华东政法大学中国法治战略研究院特聘研究员,法学博士;兼任南京大学证据法研究中心兼职研究员。先后在《法学家》《现代法学》《法制与社会发展》等期刊发表学术论文近二十篇。主要研究领域为数字法学、证据法学等。


针对大数据相关证据的刑事司法应用,学界已经展开了相应的研究,并初步形成了三套话语体系,即“大数据证据”“人工智能证据”和“算法证据”。其中,“大数据证据”是学界较为流行的用法,持此种观点的学者认为,大数据证据是指基于海量电子数据形成的分析结果或报告。持“人工智能证据”观点的学者认为,“人工智能证据是基于人工智能分析形成的可用于证明案件事实的机器意见”。持“算法证据”观点的学者则认为,“从证据法视角来看,算法证据是将海量的案件信息数据进行计算整合,形成结构化和信息化的案件场景自动解读与自动推理结果”。虽然上述研究成果推动了刑事证据法理论的发展,但客观地说,现有混乱庞杂的话语体系在一定程度阻碍了相关理论的深入研究与实践运用。比如,就“算法证据”这一概念来说,学界对其内涵的界定就不清晰。“海量的案件信息数据”直接将案外大数据排除在外,同时又将案件所附带生成的裁判信息等包含在内,这直接导致算法证据的内涵过于繁杂且指向不清,我们很难对其进行聚焦性的研究。因此,为了更好地服务于立法和司法实践,在法律尚未确定大数据分析结果的概念和属性时,我们有必要对上述话语体系进行进一步的审视与反思。正如有学者所言,“法律概念并非措辞和语义的简单表达,而是通过该术语的语词构成、定义方式等向人们传达法律的调整对象。”

黄志雄:《数据治理的法律逻辑》

武汉大学出版社 2021 年版



就“大数据证据”“人工智能证据”“算法证据”这三个概念来说,其所传达的信息各不相同。下文将对这三个概念进行反思,并在此基础上,重新界定“算法证据”的内涵。


一、大数据证据的概念及其问题


国内对大数据相关证据的研究肇始于海量电子数据所引发的刑事证据分析难题。其后,沿着这一研究进路,大多数学者认为,在大数据证据的概念下,海量的电子数据是“源”,分析得出的结果是“果”。换言之,主流学界所界定的大数据证据不仅包含了大数据分析报告,还包含了海量的电子数据本身。这一概念看到了海量电子数据的基础性作用,着重强调了大数据分析后的结果,具有一定的启发意义,但却存在如下问题:


其一,大数据证据的概念混淆了大数据本身和大数据分析结果。实践中海量电子数据可被称为大数据证据,大数据分析报告也可被称为大数据证据。但这两者之间存在明显区别,将它们概括在同一概念之下不利于大数据相关证据的理论研究和实践运用。比如,在大数据证据的概念下,大数据证据的证据属性具有了复合性,单一的法定证据种类都无法用于界定大数据证据的证据属性。这里需要说明的是,有关大数据证据这一概念所存在的逻辑问题和运用难题,笔者还将在后文的案例分析中加以详细阐明。


其二,大数据证据的概念界定虽沿用了证据法学者既有的研究路径,但其违背了概念界定的基本原则。虽说概念的界定没有客观上的正确或错误,重要的是某种特定用法是否对于大多数人来说是可以接受的或正在被接受,但清晰的概念界定仍应是学术研究所追求的目标。就大数据证据来说,其概念本身就存在如下两个问题:一方面,正如前文所述,法律概念要向人们传达的是法律的调整对象。按照此种逻辑来看的话,大数据证据所要规制的对象是大数据,但是,大数据的价值需要借助算法技术加以挖掘才能得以实现。那么,对于大数据证据来说,海量电子数据固然重要,但是,算法才是挖掘大数据价值的关键环节,因此算法应当成为法律首要的规制对象。另一方面,概念是反映事物特有属性的思维方式,而事物的特有属性指的是某类事物所具有而其他事物所不具有的属性。

杨树森编著:《普通逻辑学》

安徽大学出版社 2012 年版



就大数据证据而言,其所具有的特有属性并非数量巨大的数据,而是实现海量数据价值的算法。归纳而言,既有大数据证据的概念既未体现出大数据相关证据的独特属性,也未能明确表达出大数据相关证据的首要规制对象。


二、人工智能证据的概念及其问题


人工智能证据是指基于人工智能分析形成的可用于证明案件事实的机器意见,其更为关注刑事诉讼中人工智能技术的核心作用,着重研究了人工智能技术的特点和作用,推动了刑事证明中对算法的研究。但是,这一概念的提出也存在一些问题:


其一,该概念并未认清大数据相关证据的内在运行逻辑。在大数据分析的场域下,大数据和算法是人工智能的核心要素,两者是并行的两个概念。提出人工智能证据的学者认为,人工智能证据与学界所提出的大数据证据具有很大相似性,但不包括“直接将大数据以等量复制的数据副本形式”作为证据使用的情况。这一论述似乎在说明人工智能证据的核心特点是人工智能技术。但是,大数据分析结果的产生包括大数据收集与储存、大数据预处理(数据清洗、数据集成、数据归约、数据变换)、大数据分析处理、大数据结果生成(可视化)等环节。其中,人工智能技术仅在大数据分析处理中发挥重要作用。因此,人工智能并不能标识出大数据相关证据的全部特点,它忽视了非智能算法的地位、作用和意义,因此并未表达出概念本身所应规制的主要对象。


其二,人工智能证据中“人工智能”这一语词的用法过于超前,因而脱离了审判实践。人工智能更多地强调机器的“自动化”“拟人性”等特点,而现行的大数据分析技术离高度的人工智能还很远。正如有学者所言,“我们距创造刺猬级别的智能水平还有很长的路要走。截至目前,甚至无人能创造出超过蠕虫的智能。”

[ ]汉娜·弗莱:《算法统治世界》

贵州人民出版社 2021 年版



具体到刑事司法实践中,以机器学习为基础的人工智能仍处于弱智能阶段,大数据的分析更多依靠设计者来构建特定的半智能算法来实现。与此同时,我们需要考虑的是,刑事诉讼中的人工智能本就应被定位在辅助功能之上,我们很难将证据的生成交由人工智能来完成。归纳而言,人工智能证据所反映的内涵应当是具有自我意识的人工智能机器所产生的意见,这种证据在刑事司法实践中或许根本就难以实现。因此,用人工智能证据这一概念指称司法实践中的大数据相关证据,既不相称,也过于超前。


总而言之,大数据证据和人工智能证据的概念界定都存在一定的问题。算法是大数据相关证据的核心特征和规制对象,用算法证据对大数据相关证据进行界定才是最优解。然而,算法一词本身就存在一定的争议,因此我们有必要在现实案例的基础上,重新界定算法以及算法证据的内涵,以期推动理论与实践的发展与进步。


三、算法证据的概念界定


前文已述,既有学界对算法证据的界定存在内涵庞大、指向不清等问题,因此我们有必要重新界定算法证据的概念。在此之前我们先要明确算法的概念。算法的概念虽未在学界形成高度共识,但学界较为一致的看法是,算法指包含一系列复杂的数学规则、能通过预先设定的步骤解决特定问题的计算机程序。

[美] 克里斯托弗·斯坦纳:《算法帝国》

李筱莹译,人民邮电出版社 2014 年版



其设计逻辑是将解决问题的思路分解为若干环节,再通过具体的程序将这一思路公式化或模拟化,进而借助系统的程序来求解复杂的问题。在刑事诉讼中,算法证据应作为反映大数据相关证据本质属性的最优概念,但我们对其内涵的深入理解需要借助于对实践案例的比对和分析。


案例1 在陈德惠律师事务所偷税案中,一审检察机关指控被告单位陈德惠律师事务所采用设立账外账,少列收入,进行虚假的纳税申报,不缴或少缴应纳税款,构成偷税罪。大连市人民检察院技术鉴定处对被告单位提供的全部账目进行鉴定后,认为被告单位自1995年至1999年期间,少缴各类税款共计114.7449万元。


案例2 在李志超组织、领导传销活动案中,四川省丹棱县公安局对云数贸五化联盟会员管理系统备份数据库进行提取并固定。重庆市科信电子数据司法鉴定所对该备份数据鉴定后,出具了[201705]鉴字第015号《司法鉴定意见书》,用于证明李志超会员账号的下线层级、会员及获利的情况。该意见载明,案涉组织下线层级共有130层,下线会员共有212088人。


在案例1中,被告单位在第一时间主动将全部账目交给税务部门的工作人员,这些账目是本案的书证。但因会计账簿具有特殊性和专业性,一般人无法对其内容进行准确的核算和认定。这些工作需要由专业人士来完成,以给出专业的鉴定意见。在本案中,“大连市人民检察院鉴定书”便是证明被告单位偷税的关键性证据。换言之,案涉的会计账簿本身属于书证,但却衍生出了鉴定意见这一新的证据种类。这二者虽然同源,却属于不同的证据类型。


在案例2中,“会员管理系统备份数据库”系大数据库的一种,其本质上属于电子数据。但因该数据库中包含了20余万会员的相关信息,人力难以完成此数据库的统计和分析工作。因此,司法机关委托鉴定机构对上述数据库进行分析,出具鉴定意见。然而,与案例1所不同的是,案例2中的鉴定机构对大数据进行鉴定时,其并非依靠专家的个人知识和经验,而是依靠特定的算法对案涉数据库进行分析。也就是说,此份鉴定意见本质上是由算法作出的机器意见。有学者认为,程序代码是生成这类证据的“专家”,其应被看作是由人工智能程序代码生成的新型专家证据。这里我们可以发现,案例2中的“会员管理系统备份数据库”本身就属于电子数据,“司法鉴定意见书”虽然名义上属于鉴定意见,但其实质上是由算法所给出意见,这与一般的鉴定意见并不相同。而且,如果将算法得出的结果划为鉴定意见时,一旦我们对鉴定意见所依赖的算法产生异议,并要求对其进行鉴定时,就会生成对鉴定意见的鉴定意见,这将引发鉴定混乱的局面。此外,如果将算法得出的结果归入鉴定意见,因为鉴定机构的特殊背景,这还可能导致司法鉴定机构直接主导算法证据之判断的局面。


归纳而言,通过比对上述案例后我们可以发现,无论是“账目”还是“备份数据库”,虽都伴随犯罪行为而生,但其自身都无法直接明确地指向案件的待证事实。如果想要明确其证明目的,就需要借助专业的知识或技能对其进行分析。只是较为特殊的是,对于大数据相关证据的分析无法完全借助于人力,而需借助于算法,算法才是大数据相关证据发挥证明作用的关键。因此,笔者认为,应当使用算法证据来指称实践中与大数据相关的证据。当然,算法证据虽能明确其所要规制的对象,但其本身也具有一定的争议性。事实上,在社会科学领域,有些概念本身就具有争议性,但争议性并不意味着含混不清。在概念存在一定争议性时,我们可以对其内涵作出一些界定,以保障其在实践中被正确地运用。


第一,在对算法证据的内涵进行界定前,我们需要区分的是决策辅助算法与基于算法的证据。前者是指在庭审前、审判和审判后阶段为人类决策提供信息,比如犯罪数据挖掘以及用于保释听证会、判刑、缓刑等;后者主要指基于算法所产生的证据,有学者将其分为计算机混成证据、计算机生成证据和直接证据等。

[葡] 马丁·艾泊斯、玛尔塔·坎泰罗·伽米托主编

《算法治理——法律和道德挑战》

姚前、冯蕾译,中国金融出版社 2022 年版



本文所称的算法证据主要指基于算法所产生的证据,不包括用于决策辅助的算法。

第二,需要明确的是,本文所界定的算法证据既与大数据本身相互独立,又与大数据直接相关联。算法是为了解决大数据而生的,其生成的原因是为了分析大数据,目的是挖掘大数据的内在价值。

涂子沛:《大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活》, 广西师范大学出版社 2015







请到「今天看啥」查看全文