IBM和IDC(国际数据公司)将大数据的特点归纳为“4V”,即海量性(Volume)、多样性(Variety)、快速性(Velocity)、真实性(Veracity,IBM的界定)或价值性(Value,IDC的界定)。在此基础上,涂子沛先生提出数据有测量、计算、记录三种来源,大数据可理解为传统的小数据(源自测量)加上现代的大记录所产生的数据。“大数据是指人类有前所未有的能力来使用海量的数据,在其中发现新知识、创造新价值,从而为社会带来‘大知识’、‘大科技’、‘大利润’和‘大智能’等发展机遇。”因此,大数据之大,不仅在于大容量,更在于大价值。大数据被称为“‘第三次工业革命’的新石油”和“人类的眼睛”。
作为大数据在治安防控领域的分支,“犯罪大数据是指能全面反映犯罪相关人、事、物的数量特征、时空分布特征,以及变化过程的海量、多源、异构数据。犯罪大数据具有多源异构、高维度、长时序的特征。”犯罪大数据同样具有“4V”特性,在思维、方法、类型、价值上与大数据一脉相承,但它是以犯罪及其防控为核心的数据,是犯罪及其防控信息的载体。经过数据整理与加工后,犯罪大数据能够呈现出具有规律性的犯罪防控知识。
犯罪大数据的大价值主要体现于犯罪防控的创新实践中。在国外,美国圣克鲁斯警局较早运用大数据分析历史案件,发现、推测犯罪趋势和犯罪模式;美国马里兰州运用软件预测罪犯假释或缓刑期间的再犯可能性,这种预测成为了法庭假释审查的参考;孟菲斯市警局启用“Blue CRUSH”预测型分析系统后,过去五年暴力犯罪率大幅下降;南卡罗来纳州警察运用IBM的数据分析工具探察犯罪模式,发现犯罪热点,优化警力部署;洛杉矶警局与科研机构合作,基于过去80年的130万个犯罪记录开发出预测犯罪高发地点的软件;纽约警局在梅普尔的领导下启用CompStar系统,以犯罪地图为工具预测犯罪高发时空热点,开展地点警务;美国Palantir公司为洛杉矶警局设计了一套犯罪防控语义知识搜索挖掘平台,用于日常的警方业务工作中。在国内,信息警务异军突起,犯罪大数据分析逐渐成为治安防控的重要支撑。山东省公安机关“警务云平台”建设取得重大进展,截止2016年已收集460类369亿条数据,存储总量达到10P,每日处理数据达千亿条;2013年北京市公安局怀柔分局与天津工业大学合作,研发出“犯罪数据分析和趋势预测系统”,取得了良好的防控效果;台湾新北市警局以犯罪大数据分析构筑“科技防卫城”。
相对于犯罪大数据的丰富实践,我国犯罪大数据的理论研究甚为滞后,这在客观上制约了犯罪大数据在治安防控中的应用。为此,在全面体察上述实践的基础上,本文尝试从以下五个方面解读犯罪大数据:
1.犯罪大数据不能简单等同于公安大数据
公安机关与海量的线索、情报、信息打交道,并拥有人、车、案件、证据、户籍管理、警力部署、警用地理信息等犯罪数据库,因此有学者直接提出“公安大数据”范畴。虽然公安机关是打击和预防犯罪的重要力量,但犯罪治理的主体不限于公安机关。从全局层面、系统角度来理解,法院掌握的已判决刑事案件数据、检察机关掌握的提起公诉刑事案件数据、国家安全机关掌握的国家安全数据、司法部门掌握的罪犯矫治数据、政法委掌握的维稳及综合治理数据、纪委掌握的反贪及廉政建设数据、政府其他机构掌握的城市公共安全数据、社会其他团体及公民个人(现代社会每个人都是人联网数据记录与传输的终端)掌握的与治安防控有关的数据均与公安大数据一样,属于犯罪大数据的范围。可见,“犯罪大数据”比“公安大数据”涵盖范围更广、视野更加开阔、内容更为丰富,“犯罪大数据”应成为研究大数据浪潮对犯罪防控影响的基石范畴。
2.犯罪大数据包括犯罪小数据
从类型上看,犯罪小数据亦是犯罪大数据的有机组成部分,源自测量的小数据与现代大记录形成的数据共同组成了犯罪大数据。“大数据从类型上可分为结构化数据、半结构化数据和非结构化数据。”结构化数据是防控机关内部系统中的信息,如Excel表格中案件情况的统计数据。从容量及数据来源上看,结构化数据属于典型的犯罪小数据。半结构化数据包括Word文档中的文字、网页中的新闻、电邮等;非结构化数据是基于物联网、手机等移动智能终端、车联网等的传感器所形成的视频、图片、地理位置、活动轨迹、网络日志等数据。
从数据可用性上看,大数据的价值主要体现在传统的小数据或结构化数据上。当前人类的数据约75%是非结构化数据和半结构化数据,这也是大记录的表现形式。非结构化数据和半结构化数据要想体现出数据治理的价值,当前主要的处理方法还是把它们转化为严整结构的小数据。以往传统的区域犯罪风险评估、基于犯罪地图的热点探测、实验性防控项目跟踪等量化研究很多都属于小数据分析。“大数据无法取代以抽样调查和实验研究为代表的传统的‘小数据’研究,抽样调查的样本在特定情况下比某些‘大数据’更具有代表性。从长远来看,大数据不仅不会取代小数据,而且必须依靠小数据才能得到发展。”因此,犯罪大数据并不排斥传统的小数据分析,犯罪小数据与大数据是一种共生相依的关系。
3.“理论+数据”结合下的数据相对论
犯罪大数据分析以对犯罪规律的精准把握为目标,但这种分析并不是单纯的客观性分析,仍离不开主观假设、理论思辨、经验和偏好、既有知识积累、价值评判的影响。有了犯罪大数据也不意味着就能为决策者、研究者提供一个绝对真实的“镜像世界”。我们有时必须无奈地承认犯罪大数据并非是包治百病的神药。大数据分析的推崇者以往每每列举洛杉矶警局运用大数据预测犯罪的例子,但2015年洛杉矶犯罪率却出现了13年以来各类犯罪齐升高的现象。这是否意味着犯罪大数据分析失灵或大数据泡沫破裂呢?
实际上,数据越多,分歧也可能越多,因为每一个不同的观点,都能找到相应的数据来支持。“要将千变万化的人类行为提炼归纳进一套相关性分析模型和数学公式里面,几乎是不可能的。这就是大数据不可能宣告理论终结的原因所在。”“所有的研究者都在解释数据,当研究者试图理解其发现的意义时,解释就开始了。”数据是不能单靠自己“说话”的,还有赖于研究者的数据清理、分析、解释工作。“不对原始数据进行调整就等于故意公布错误的信息。”因此,犯罪大数据分析必须扎根在犯罪学基础理论之上,并接受理论的指导,任何分析都是一半数据、一半理论;理论驱动与数据驱动之间是一种“海上明月共生潮”的珠联璧合关系。
根据数据相对论的理解,数据永远在追赶事实。数据仅记录事实的一个侧面。数据再大都不是事实,但它逼近事实。事实确实只有一个,但又千万个棱面,任何一组数据,可能都只仅仅描绘了一个“面”。研究者用数据描述事物不同棱面的过程就是解释数据。可见,犯罪大数据分析是否科学有效不仅取决于犯罪数据的质量,更取决于研究者如何将犯罪学理论与犯罪数据有机结合,以既有理论、知识设计算法和程序,以量化分析探究犯罪规律、检验和修正犯罪学理论,从而改进犯罪治理模式。此外,有效的犯罪大数据分析能够提升犯罪防控决策和实施活动的科学性,但并不意味着能直接带来犯罪率的降低。毕竟,影响特定区域犯罪率的因素很多,即使犯罪大数据分析应用甚多,有时也无法对冲人口、城市化、经济、社会结构等深层次原因的影响。
4.从相关到因果的犯罪规律探究
在大数据时代,“相关比因果更重要”的观点甚为流行,针对相关关系的实证研究大行其道,基于相关关系的预测分析成为大数据的基本应用。犯罪原因一直是传统犯罪学的核心议题。随着大数据分析的流行,相关关系能够取代因果关系,犯罪预测会架空犯罪原因研究吗?
一般来说,大数据思维强调归纳,注重分析事物之间的相关关系;传统犯罪学研究强调演绎思维,以解释因果关系为目标。“大数据分析可以阐述关联和概率,但归纳法具有无法确定因果关系的天然缺陷。科学的最终目的显然不只是陈述概率或可能性,而是解释因果关系和给出答案。”在概率分析中,有时两个风马牛不相及的因素之间会存在显著的回归系数,这并不意味着变量之间有真实的因果关系。
概率分析的上述局限也无法否定相关分析在犯罪原因研究中的独特价值。尽管相关并非完全等同因果,但“相关性观察是绝大多数犯罪原因研究的前期研究”。“犯罪原因的等级取决于同结果发生之间的联系概率。概率越大,原因等级便越高。”“研究者运用基于概率论的数理统计方法可从众多因素中筛选出与犯罪存在较大概率的相关因素、排除无关因素,并精准把握特定变量影响犯罪发生的数量关系。”在分析过程中,归纳和演绎思维往往难以分割,“‘数据驱动科学’必须把归纳和演绎结合起来。通过归纳性的大数据分析洞察情况,然后依据数据分析的结果提出假设,最后再用演绎法与数据分析相结合去验证假设。”可见,相关关系不仅没有取代因果关系,而且从相关性角度探究犯罪的因果关系构成了量化犯罪原因的可行进路。
从相关到因果的研究进路不仅能够预测犯罪、量化犯罪原因,还有助于揭示犯罪规律。“犯罪规律是指犯罪现象中客观存在的本质联系。犯罪规律首先是指犯罪的因果关系,又包括重复出现的各种犯罪相关性。在因果中心说和概率中心说的互补下,犯罪规律的范畴得以完善。”因此,犯罪规律研究包括相关分析和因果分析。犯罪大数据分析不仅没有架空犯罪原因研究,相反还从犯罪规律的层面为犯罪防控提供了坚实的理论支持。
5.工具理性与价值理性的交相辉映
大数据对人类生活的意义堪比互联网,正如麻省理工学院教授尼古拉斯·葛洛庞帝所说:“计算不再只和计算机有关,它决定我们的生存。”从数据文化上看,犯罪大数据不能止步于工具理性,不能片面主张大数据分析对社会的精准控制,也不能仅强调“用数据决策、用数据管理、用数据创新”;更应彰显价值理性,在法治框架下开展犯罪大数据分析,防范“数字利维坦”的出现,尤其是在牵涉公民权利时价值理性不能“失语”。
“数字信息技术进步使‘虚拟社会’向‘镜像世界’转变;人们对数字技术的价值诉求减弱而工具诉求增强。”安东尼·吉登斯指出,“我们生活在一个福柯称之为国家‘监控’变得越来越广泛和越来越明显的社会。通过计算机和芯片技术的使用,对所属人口信息的储存和控制已成为国家权力的主要媒介。在国家监控活动得到极大发展的条件下,公民权利的维护很大程度上受到了限制。”因此,犯罪大数据分析不仅要求防控机构必须依法开展(如防止出现公民宾馆登记记录泄露等数据泄密事件),还要求在数据开放理念下进行犯罪数据的开放(如刑事案件裁判文书的网上公开)、鼓励“数据平民”的崛起。在英美等国,犯罪数据开放最典型的表现就是犯罪地图的网上公开,通过犯罪地图公开,为民众安全生活提供行动参考、实现警察执法效果的可视化监督、以信息化助力警民互动。