我的位置: 上观号 > 上海市法学会 > 文章详情

[丹麦]杰斯帕·瑞贝格著 奚哲涵译|刑事司法与人工智能:如何评估量刑算法的性能

转自:上海市法学会 2025-10-09 08:15:28

人工智能正日益渗透到许多影响重大的社会决策中,例如刑事法庭的量刑,各种类型的算法工具已被引入量刑当中。本文主要讨论使用算法提供量刑建议的问题,更确切地说,即如何确定一种量刑算法(如基于机器学习的模型)在伦理上是否优于另一种量刑算法(如基于老式编程的模型)。量刑算法的实施在伦理上是否可取显然取决于各种因素,例如算法偏差和缺乏透明度等传统问题。然而,本文的目的是引导人们关注在讨论量刑算法时尚未考虑到的另一个因素:即使有关偏差、透明度和成本效益的传统挑战都已得到解决或被证明不重要,与量刑算法相关的另一个亟待解决的问题是,我们还没有一个在道德上合理且适用的标准来评估量刑算法执行的优劣。

人工智能正变得无所不在。各种类型的算法工具正以相当快的速度越来越多地渗透到社会生活的各个领域。在涉及重要社会决策,即对公民生活和福祉有重大影响的决策时,情况也是如此,刑事司法系统就是一个鲜明的例子。
算法工具目前正在渗透到刑事司法实践的各个阶段,从警方的侦查到法院的终审判决。例如,风险评估算法在美国已使用很长时间,其能够为法院评估罪犯重新犯罪的可能性,更前沿的例子是使用算法为个别刑事案件提供量刑建议,如在强奸和持有毒品等严重犯罪案件中确定刑期的算法系统便已经投入使用。一些州已经宣布欲在司法决策(包括量刑)使用人工智能的基础上引入“智能法庭”,尽管目前这还只是一种愿望,但不久也可能会成为现实。如果被设计用于量刑的算法即将进入法院的量刑程序,那么亟待解决的问题之一就是,在量刑这样重要的决策中,应该使用哪种类型的算法?使用基于机器学习的系统是否可取?对该问题仅有几位学者进行了粗略探讨。
例如,反对使用机器学习算法等复杂系统的一个顾虑是,这些系统的预测准确性具有代价:即系统的内部运行缺乏可解释性。正如计算机科学家戴维·存宁等人所指出:“机器学习(ML)算法中可能存在固有的冲突:机器学习的性能(如预测准确性)与可解释性之间存在内在冲突。通常情况下,性能最佳的方法(如DL,即深度学习)最不容易解释,而最容易解释的方法(如决策树)则最不准确。”要解决复杂的机器学习系统缺乏可解释性的问题,一种可能的方法是利用可解释人工智能(xAI),即创建第二种算法来事后解释黑盒系统的工作原理。然而,这种组合一直饱受批评。如辛西娅·鲁丁认为,与其依赖不透明算法系统和xAI的组合,不如使用“本质上可解释”的算法工具,即“提供自身的解释,忠实于模型实际计算结果”的系统。她认为,当前机器学习的商业模式往往会激励企业开发“过于复杂”的算法,而很多时候“企业中根本没有受过培训或具备构建可解释模型专业知识的分析师”。她基于“尚未发现有使用完全黑盒模型这类高风险应用的必要”这一经验,提出作为一般经验法则,在涉及影响重大的社会应用(包括在刑事司法中使用算法工具)时,“如果存在一个具有相同性能水平的可解释模型就不应使用黑盒模型”。故在其看来,机器学习量刑算法往往不值得推荐。
弗雷·汤姆森也简要探讨了何种算法可能构成量刑中理想的算法类型。其认为在量刑中引入算法工具有一些好处,甚至表示在量刑方面实施“全自动决策”有很大优势。但其同时指出,量刑并不是非常适合机器学习的决策问题,部分原因在于,如果训练算法的历史数据集存在偏差,那么这些偏差可能会在算法输出中重现甚至加剧。即俗称的“垃圾进,垃圾出”问题。因此其得出的结论是,自动量刑决策不应基于机器学习,而应“基于老式的人类编程”。
学者们关于什么是量刑背景下理想算法系统类型研究的共同之处在于,他们将人们的注意力引向——并试图规避——在刑事司法实践中(以及其他社会背景下)讨论算法工具时引起关注的一些传统挑战:其一是某些算法系统缺乏透明度;其二是算法预测可能存在偏差。此外,学者们也提出了一些其他类型的挑战。然而更重要的是,即使这些挑战都已解决,基本的优劣比较问题仍然存在。假设有关算法透明度或算法偏见(包括因此带来的其他影响)的挑战已被证明在伦理上无足轻重,或者已通过某种技术方案得到解决,在此情况下仍然会面临如下问题,即如果在量刑中采取此类工具,什么才是更可取的算法。如假设不同计算机科学家分别提供了高度复杂的深度学习算法、不复杂的机器学习算法以及不基于机器学习的算法,且这些算法在判断个别刑事案件的量刑时似乎都不错,那么哪种系统应被视为更可取?如果以这种方式提出问题,即首先排除在比较不同算法系统时通常会考虑的所有道德标准,那么答案似乎显而易见:应该选择最擅长完成其工作的算法,即在刑事案件量刑方面最出色的算法。然而尽管该答案听起来似乎不言自明,但下文将论证其应用时实际非常复杂。得出这一答案的前提是要解决一系列刑法理论难题,但这些难题尚未得到解决。因此,这意味着还不具备对何种算法更符合量刑目的做出合理评估的理论背景。
为了支持这一结论,本文将进行如下论述:第一节探讨建立量刑算法绩效评估标准的一个候选方案。该标准基于算法和人类法官所作判决之间的无差别要求。本文认为,尽管这一标准有其直接的合理性,但不应予以采纳。第二节探讨评估算法工具性能的另一标准,该标准基于刑事伦理方面的考虑。尽管该标准在伦理上确实可行,但其预设了一系列刑法理论难题的答案,这些答案实际上尚未得到确证。第三节探讨基于过度惩罚考虑的最后一种可能的评估标准。尽管这一标准可提供一些启发,但其很可能面临与第二节所讨论之标准相同的伦理挑战。第四节总结并得出结论。本文将强调这样一个事实:与任何其他类型的技术一样,算法工具的合理实施取决于道德考量,因此,如果相关的伦理理论尚未得到充分发展,就可能无法确定这些工具的使用是否为一种进步。
一、不可区分性标准
假设开发了两种不同的量刑算法,这两个系统分别为基于机器学习和不涉及机器学习。为便于说明,将这两个竞争系统分别称为α和β,在该两系统的比较中,认为α表现优于β(反之亦然)的理由是什么?人们想到的第一个评估标准可能是应选择最接近人类法官判决的算法,也即评估应基于:
不可区分性标准:当且仅当由α确定的量刑在更大程度上比由β确定的量刑更接近由人类法官确定的量刑时,α才优于β。这一标准具有一定的直接吸引力,特别是如果我们考虑的是汤姆森等人所设想的算法应用途径,其中包括取代人类法官而采用完全自动化的刑罚裁量,那么似乎可以认为,算法是否能够完成通常由法官完成的工作这一问题必须构成评估算法的适当尺度。因此,对相互竞争算法系统的优劣比较也必须取决于其模拟人类法官决策的能力。显然,将与法官量刑的不可区分性作为比较算法优劣的参数标准,需要先进行一些澄清才能在实践中发挥作用。如法官在类似案件中并不总是判处相同的刑罚。许多研究证实,同一司法管辖区内存在量刑差异。然而即使忽略该因素,仍然有一个更基本的道德原因让我们对基于不可区分性的算法系统评估标准持怀疑态度。
这就是当我们仔细思考后,很难理解为何人类法官判决的刑罚应该成为评估的合理参数。该标准意味着最好的算法系统应该是与法官量刑完全无法区分的算法系统。例如,如果人类法官对入室盗窃判处两年监禁,对袭击判处四年监禁,对强奸判处六年监禁,那么我们所能期望的最好结果就是算法能作出同样的量刑。然而在实施算法工具的许多其他场景下,人们的期望要高得多。如当机器学习算法用于分析医学环境中的扫描图像时,人们的想法不仅仅是这些工具应像人类医生一样工作,相反其目标是,在医生无法作出正确判断的情况下,算法能够作出比医生更好的评估。在许多其他应用场景中,算法工具正在接管人类的工作。算法的实施不仅是为了保持人类的决策水平,也是为了提高决策水平。如果我们考虑将算法引入量刑,是否存在空间实现同样的目标?
答案是肯定的,而且不需要太多思考就能得出。例如,有充分的理由相信人类法官作出的量刑有时会有偏见。许多研究表明,在美国和其他国家,黑人和棕色人种受到的处罚更为严厉。此外,还有许多研究得出这样的结论:刑法裁量可能还会因种族偏见以外的其他因素而出现偏差。因此,假设有一个案件,其中人类法官会因某项罪行判处罪犯八个月监禁,但公正的判决是六个月。在此情况下,很难坚持认为与人类决策的不可区分性应该成为评估算法的最合理标准。相反,在理想情况下应该希望量刑算法建议判处六个月监禁。事实上,人们希望算法工具能帮助避免人类决策的一些偏见,这种希望已被用作支持用全自动决策取代人类法官的论据。换句话说,在量刑算法方面,相信算法也有超越人类判断的空间似乎是合理的。人类的量刑决定不能被认为总是合乎道德(事实上,除了下文偏见示例中所说明的原因外,还有原因也支撑该论点)。因此,与人类量刑决定的不可区分性不能成为对不同类型量刑算法进行比较评估的必要标准。
二、刑罚伦理标准
如果上述论证正确,即如果人类法官作出的判决不能作为对不同类型量刑算法进行评估的合理参数,那么认为一种量刑算法比另一种量刑算法表现更好意味着什么?有一个看似简单的评估标准:考虑到有些量刑即使与人类法官作出的量刑有偏差,也可能在伦理上更可取,一个显而易见的方案是直接根据对罪犯量刑的道德方法制定标准。也即可能的方案是刑罚伦理标准:当且仅当α的量刑在更大程度上比β的量刑更符合最佳刑罚伦理理论时,α才优于β。这种比较标准显然比不可区分性标准更合理。虽然法官确定的刑罚可能存在伦理上更明显的偏差,表明不可区分性不能成为评估算法的必要标准,但刑罚伦理标准不会受到同样困扰。根据这一标准,重要的是伦理上什么是可取的,而不是法官会确定什么样的刑罚。因此,也许可以说该标准更接近真理:如果一种量刑算法确定的刑罚在伦理上比另一种算法更好,那么它怎么会不可取呢?然而,尽管只要排除对量刑算法全面评估可能带来的一系列附带后果,该标准就很难受到质疑,但这并不意味着它不存在任何缺陷。该标准面临的问题是,它在实践中很难应用,主要由于以下几个原因:
第一,人们还远不清楚什么才是最好的刑罚伦理理论。在19世纪和20世纪的大部分时间里,功利主义的刑罚理论占据主导地位。报应主义通常被认为是一种不人道甚至野蛮的立场,与可能被视为开明的刑罚方法相去甚远。然而,在20世纪70年代初情况开始发生变化。越来越多的刑罚学者宣布他们赞同报应主义思想,对报应主义复兴的提及成为刑罚理论著作标题和开篇的标准说法。尽管报应主义在随后的几十年中占据了主导地位,但如今的情况已经变得更加多样化。仍然有许多学者为报应主义辩护,认为它是最合理的刑罚理论。然而报应主义并不代表一种单一的理论,更恰当的说法是,其是一个涵盖一系列理论的总括概念,尽管这些理论都认为报应在惩罚的正当性方面至关重要,但它们的发展方向却各不相同。此外,许多学者也提倡混合理论,力求将功利主义和报应主义思想的元素相结合。这些理论也有许多不同版本。近年来,一系列其他理论并不符合报应主义和功利主义之间的标准区别,它们也得到了越来越多的讨论,这包括:结果主义(非功利主义)理论、权利丧失理论、自卫理论、恢复主义理论、恢复性正义理论和对于废除死刑的不同观点。因此,关于什么是最佳惩罚理论存在很多分歧。事实上,该领域似乎比以往任何时候都更加多样化,而且重要的是,没有理由相信不同的理论在刑罚确定上会得出同样的结论。因此,将量刑算法与“最佳刑罚伦理理论”所确定的量刑进行比较并非易事。
第二,即使忽略不同刑罚理论之间现有的分歧,仅狭隘地关注一些最有影响力的理论在刑罚分配方面提供的指导,答案也非常糟糕。例如从功利主义的角度看,很难准确说出不同罪犯应受到何种严重程度的惩罚。显然,对罪犯施加刑罚的轻重会在一定程度上因社会背景而异。因此从该角度来看,不应期待任何普遍性的答案。从报应主义的角度来看与此不同,因基于报应的理论对于什么是适当的刑罚程度几乎没有任何论述。关于罪刑相适应原则已有很多探讨,然而该原则只说明了对不同严重程度的犯罪应采取相匹配的刑罚,并未说明应该对特定犯罪进行何种程度的惩罚。一些报应主义者直面该问题,试图发展旨在确定不同犯罪相应刑罚的理论。虽然笔者无法在此深入讨论这些理论,但可以公平地说,目前为止它们只为如何处理刑罚分配问题提供了非常概括性的框架轮廓。O22没有任何理论能够准确回答不同罪行应判处多重刑罚。因此当涉及对某一特定罪行而言,何种刑罚才合乎伦理道德时,当前的目的论和报应论均未提供在比较量刑算法优劣时的参考答案。该领域的其他刑罚理论也是如此。
以上探讨并不意味着不可能将刑罚理论标准应用于量刑算法的评估。刑罚理论在未来可能会得到发展,足以回答应用该标准所需的刑罚分配的具体问题。然而实事求是地说,我们目前还远未掌握刑罚伦理标准应用所要求的理论(和经验)资源。因此,即使该标准在原则上确实是合理的,但在需要比较量刑算法优劣的案件中仍然用处不大。
三、过度惩罚标准
尽管迄今为止,刑罚理论就对不同罪犯应判处刑罚的严厉程度几乎不能提供多少指导,但人们可能仍会认为上文的考虑有些为时过早。当前的刑罚理论可能无法规定小偷是否应该入狱四或五个月,或者醉酒司机是否应该缴纳500或600美元罚款,然而这并不一定意味着刑罚理论无法就何为适当刑罚水平提供任何指导。事实上,刑罚学者们似乎一致认为,在美国以及很多其他国家大量罪犯目前受到的刑罚都过于严厉。支持该观点的理由之一是存在过度定罪的问题,也即有太多行为本就不应该被定罪。例如,全面探讨过这个问题的道格拉斯·胡萨克将过度定罪描述为“当今刑法中最紧迫的问题”。如果法律太多,那么就会有公民受到过度惩罚。他们因本不值得任何惩罚的行为而受到惩罚,这样一来,过度定罪就产生了过度刑罚。
支持上述观点的第二个理由是,即使只考虑那些被普遍认为应该为法律所禁止的行为,也有许多学者认为刑事制裁过于严厉,特别是认为监禁正被大量过度使用。这是根据功利主义的刑罚理论而提出的。大量关于剥夺行为能力和威慑力的研究表明,将罪犯长期关押在监狱中对预防犯罪没有任何好处,因此应缩短监禁时间。迈克尔·托里近来总结了其在预防犯罪领域的研究综述,认为“大规模监禁的预防犯罪效果比许多人想象或希望的要少得多,这是没有争议的”,“几乎没有理由相信更严厉的刑罚比更轻缓的刑罚具有更大的威慑作用,通过长期关押使人丧失行为能力是一种无效的犯罪预防策略,认为监禁的经历能使罪犯在以后的生活中犯下罪行的可能性更小也是不切实际的幻想”,此外,“关于威慑和丧失行为能力研究文献的导向直截了当:应将极少数被定罪的罪犯送入监狱,并缩短其服刑时间”。在报应主义阵营的学者中也有类似支持过度惩罚论的观点。如理查德辛格认为,将报应模式视为类似于“扔掉钥匙”的刑罚方法的观点不正确,表示监禁只应用于最严重的罪行,且监禁时间也应相对较短。杰弗里·墨菲认为,如果始终遵循报应理论,刑事犯罪的惩罚力度会比实际的惩罚力度要小,刑罚的方式也会更得体。索尔·史米兰斯基强调,对犯下罪行的人进行超过其道义上应得的过度惩罚是在许多西方国家普遍存在的做法。安德烈亚斯·冯·赫希甚至认为,即使是最严重罪行的监禁期限也不应超过五年,这种刑罚水平观点与所有西方国家的现行做法大相径庭。因此尽管刑罚理论可能无法准确确定不同犯罪应受多严厉的惩罚,但提供了理论依据以判断犯罪者目前受到了过度惩罚。此时用于评估量刑算法刑罚理论标准的修改版本可能是:过度惩罚标准,当且仅当α确定的刑罚比β确定的刑罚更宽松时,α优于β。
值得注意的是,基于这种标准的考量因素已被用来拒绝应用基于机器学习的量刑算法的可能性。正如所见,基于历史数据的算法可能会重现歧视。所以当不公正是由于刑罚过重而产生时,当然也存在类似的重现问题。汤姆森明确指出了这点,他认为:“如果现有刑罚裁量普遍过度惩罚,那么历史案件数据集可能大部分甚至全部由未获公正判决的案件组成,此时利用机器学习对历史数据进行ADM(自动决策)训练实际上毫无意义,充其量只能得到一个稍微更有效、更一致地再现当前量刑实践中普遍不公正现象的模型。”该观点似乎正确。然而除了引导人们关注与使用机器学习相关的挑战之外,在涉及如何评估量刑算法相对优劣这一总体问题时,所建议的标准能否作为一种有益的指导?
毫无疑问,该标准在部分情况下可作为比较某些量刑算法的指南。例如,如果α倾向于推荐比当前略重的刑罚,而β确定的刑罚比当前更轻,那么遵循标准β会比α更可取。然而现实生活中情况可能更加复杂。假设α确定的部分刑罚比β确定的更重,但在涉及其他类型犯罪的案件中β确定的刑罚比α更重。在此情况下,标准的应用就变得很复杂。从功利主义的角度来看,哪种算法系统在伦理上更可取可能在经验上无法确定;而从报应主义的角度来看,人们将面临一个非常复杂且理论上尚未得到充分探讨的问题,即如何从伦理上比较某一量刑与伦理上的正确刑罚的偏差。值得注意的是,在现实的刑罚实践中可以预料到,决策者所采取的不同算法不太可能提供截然不同的量刑建议。例如,在现实生活中,几乎不可能出现对于这样的两种量刑算法的比较:前者推荐的刑罚接近法官现实中会确定的刑罚,而后者反映了冯·赫希的论点,即纵使最严重的罪行也不应判处五年以上监禁。后一种算法的采用将引发一场刑罚实践革命,很少有决策者愿意接受。因此在现实生活中,与量刑有关的算法工具更有可能反映现有的刑罚秩序。但正是当算法在它们提供的建议上没有太大差异时,才会出现哪一套量刑建议更可取的问题。
总之,过度惩罚标准似乎是合理的尝试,旨在应对当前刑罚理论尚不能对不同罪犯应受何种刑罚提供精确答案的事实。在某些情况下,该标准可能为哪种算法更可取提供指导。然而在现实生活中对相互竞争的算法系统进行比较时,我们也有理由预期,即每个系统推荐的判决不会有显著偏差,而正是在这种情况下,该标准就容易受到未经充分研究且在理论上要求很高的一个问题的影响,即在伦理上比较某一量刑偏离理想刑罚水平的程度。
四、结论
在某些司法管辖区,使用算法工具确定刑罚已经成为现实,考虑到人们在刑事司法实践中利用人工智能的明确意愿,在不久之后此类技术工具的使用肯定会增加。此外,尽管承认存在需要解决的道德问题的挑战,但越来越多的学者仍为在法院工作中使用此类工具辩护。因此可以现实地预期,未来将面临必须比较哪种算法系统更可取的情况。该问题在前文论述中已经详细探讨。简单来说,重点在于:认为一种量刑算法比另一种表现更好意味着什么。本文论证的前提是忽略与使用算法系统相关的所有传统挑战(这些挑战必须包含在综合评估中),目的是为“应选择表现最好的量刑算法”这一真理提供注解。将人类法官判决的刑罚作为量刑算法评估参数的标准应该被摒弃。没有哪个刑事伦理学家会认为法官在法庭上作出的所有判决都是合理的。这意味着合理的标准不能是基于法庭所作出的实际判决,而是基于刑事伦理考虑,即什么构成了合乎伦理的量刑水平。然而如前文所述,该思路有两个重要含义。
首先,如果对相互竞争的算法系统的优劣比较不是基于实际判决,而是基于对不同罪行的道德上正确的判决,那么令算法量刑建议取决于先前的刑罚裁量就没有多大意义。这意味着使用基于机器学习的算法没有意义,因这些算法是在历史判决的基础上进行训练并重现历史判决的。其次,更重要的是,如果评估算法性能的合理标准必须基于刑事伦理考量,那么一个明显的前提是根据刑事伦理有可能得到足够精确的答案,即不同罪行应受到多严重的刑罚。如果没有这样的答案,该标准仍将是空洞的。然而目前的刑罚理论在量刑问题上几乎提供不了任何实际的指导,其要么在经验上不够确定,要么在理论上不够发达,故而无法提供必要的答案。因此似乎可以实事求是地得出这样的结论:目前还不具备必要的刑罚理论学说来确定一个算法系统是否比另一个系统表现更好(至少在其提供的算法建议没有显著差异的现实场景中)。当然,笔者希望未来的刑罚理论能够填补当前量刑确定问题上的空白,其重要性不言而喻,因国家应该在何种程度上惩罚罪犯的问题本身就构成了一个紧迫的道德挑战。并且正如我们所见,这为在刑事法庭中原则性地实施算法量刑工具奠定基础也至关重要。

往期精彩回顾

姚景俊|法益恢复的刑法评价

胡书豪 倪铁|公立医院医药购销领域腐败治理的路径优化

郑文龙|从严格保护到风险控制:数据监管沙盒的理念遵循与制度建构

乔岳 孙刚|有故意无身份型间接正犯之否定——以内幕交易罪为出发点的展开

目录|《上海法学研究》2025总第13卷

[匈牙利]兹索尔特·兹迪著 王泽山译|算法可解释性和法律推理

上海市法学会官网

http://www.sls.org.cn