判决书中,对于律师来说最重要的是「法院见解」的部分,但法院见解的段落几乎没有固定的表示方式和分段,以「本院见解」或「经查」开头的段落还算简单,许多最高法院的判决书几乎没有分段,连人类都难以判断,电脑更是无以为继。
例如最高法院刑事判决九十六年度台上字第三七三四号,对资料科学来说就是一个绝难的挑战。除了判决本文的高度非结构化非常难以透过电脑判读之外,它的前审,也就是『台湾高等法院95年度上重更(二)字第19号』这个字号就包含了7个裁定和1个判决,这对讲求唯一资料编号(UID)的资料科学来说也是一个难题。诸如此类的判决结构都会变成横亘于法律大数据前的一堵高墙。
法律的资料科学在司法改革中并非显学,甚至可以说几乎是被遗忘的一环。
法界在遇到资料科学的问题时常常用很片面的方式去解决,例如判决的金额常常使用『叁』这个数字,但判决用的big5编码只有『参』而没有『叁』。因此在去年司法院大幅翻修成unicode之前,『叁』这个字司法院一直是用造字程式呈现了20年,然而对于没有透过造字档的资料库,这个字会无法辨识,对于判决的再利用产生很大的不便。资料结构化在资料科学中是个根本性的问题,几乎所有处理资料的公司例如Google、Facebook等,都尽量期望把资料结构化,因为这将会影响到接下来我们可以怎么透过电脑处理资料。
在司法改革国是会议的第一次直播中,王金寿教授大力的建言希望建置专责的研究机构,以落实台湾的法实证研究。其用意不外乎是希望改善台湾在法制度建立时缺乏法实证依据,「凭空立法」的窘境,而法资料结构化正是要完成这件事的基本工。法律资料结构化除了帮助法实证研究,帮助协助修法参考外,对于节省司法成本也有诸多好处,结构化后将大大增加司法人员搜寻法律资料的效率、减少资料搜集、整理和传递的成本、辅助量刑系统的建置等。许多原本必须透过人力海捞资料分析才能完成的工作,透过资料结构化可以由电脑来协助完成。最重要的是,当我们讨论法律大数据,讨论用电脑自动化和AI人工智慧来协助法律人工作,讨论得很开心的时候,也千万别忽略这些火红名词的第一步骤,都是『资料结构化』。
为了进一步将法律资料更容易使用在资料科学上,有几个建议可以参考:
放弃现行使用├ ─ ┼ ┴ ┬等符号画出的ASCII表格,改用改用一般文书处理较常见的表格。
统一资料引用的格式,并在所有的法律资料(判决、决议、函释、法规)中严格遵循。不要让一条法条、判决字号、函释令号有这么多的表现方式,甚至是透过系统直接选取是更精确的方式。
每一笔资料有独一无二的编号(UID),而非很多裁判共用一个字号。
文件的段落分明,最好要有统一的标题。我国的判决目前只略分成『主文』和『事实及理由』两个部分,其他部份则随法官习惯各自编排,有无标题均属常见,人眼阅读可以理解,但电脑却无法判读。就算是透过人类判读,但目前的判决书架构就连律师或法官都难以一眼掌握整篇判决的段落,哪一段是法院的见解,哪一段是当事人的主张,透过固定的格式要求,同时也能增加判决书的可读性。
文件修改(例如判决更正、法规修正)时应纪录修正历程,而非以新文件直接取代旧文件。