专栏名称: 北京大学光华管理学院
北京大学光华管理学院
目录
相关文章推荐
河北青年报  ·  100+脑洞大开的问题,带你走进神奇的数学世界 ·  2 天前  
河北青年报  ·  100+脑洞大开的问题,带你走进神奇的数学世界 ·  2 天前  
超级数学建模  ·  比Samba还火!这双鞋没人能拒绝,新配色难 ... ·  3 天前  
超级数学建模  ·  限时领丨这10部顶级数学纪录片,从另一个角度 ... ·  4 天前  
超级数学建模  ·  被指出轨女博士,细节内容ppt展示,南师大发 ... ·  4 天前  
51好读  ›  专栏  ›  北京大学光华管理学院

北大光华王汉生教授万字长文,讲透数据治理问题!

北京大学光华管理学院  · 公众号  ·  · 2018-03-26 08:00

正文



数据治理:

数据安全与价值的制度保障


摘   要


2018年3月16日,中国银监会发布了《银行业金融机构数据治理指引(征求意见稿)》,就相关数据治理问题,向全社会公开征求意见,至此银行业金融机构全面数据治理的大幕拉开。而在大洋彼岸,关于Cambridge Analytica滥用Facebook 5000万用户数据的丑闻正闹得沸沸扬扬,并持续发酵。这一切都说明,数据治理已经成了一个极其重要、亟待解决的重大社会问题。一个科学合理的数据治理规范,是数据安全与价值的制度保障,是数据产业健康发展,甚至是国家人工智能战略实施不可或缺的前提条件。本文尝试根据自己的有限了解,提出一个数据治理的大概理论框架,希望能够为相关工作提供一些思路参考。


在我看来,所谓数据治理,就是对数据资产的治理,属于公司治理的范畴,是对数据资产所有相关方利益的协调与规范。具体内容包括但不局限于:(1)数据资源资产化;(2)数据确权与合规;以及(3)价值创造与人才培养。


第一、数据资源资产化。 数据不等于数据资产,数据就是电子化记录,仅此而已。数据并不天生具备资产属性。资产需要能够给企业带来预期收益。因此,只有满足一系列必要条件的数据资源,才可能成为数据资产。


第二、数据确权与合规。 隐私保护问题越来越受重视。所谓隐私保护就是对隐私数据的保护。最理想的情况是,能够在产权层面,确立相关个人作为隐私数据的合法的唯一拥有者。这就需要一个法律基础:对数据产权(包括但不局限于隐私数据)的确定,也就是数据确权。如果暂时做不到数据确权,那么至少要做到,对数据实际控制者的行为严加管束,做到合法合规。


第三、价值创造与人才培养。 对价值创造而言,数据治理不应该关注太过具体的业务问题,因为业务形态千变万化,具有极强的不确定性,不可能通过一成不变的规章制度去治理。相反,数据治理应该关注人才团队的建立与培养,这才是价值创造的沃土。只要精通数据思维的人才沃土在,就一定会开出鲜艳的花朵,结出丰硕的果实。



一、背景介绍



2018年3月16日,中国银监会发布了《银行业金融机构数据治理指引(征求意见稿)》,就相关数据治理问题,向全社会公开征求意见。 至此银行业金融机构全面数据治理的大幕拉开。该指引要求银行业金融机构将数据治理纳入公司治理范畴,并根据数据治理情况,评价公司治理水平,甚至与监管评级挂钩。该指引还鼓励银行业金融机构开展制度性探索,并设立专业岗位,为人才团队的培养建设提供了制度保障。


这是一个非常积极而且重要的事件,对数据产业(不仅限于银行业金融机构)的健康发展具有重大意义。它带来两个重要启示。


第一、从产业政策层面,作为银行业金融机构的主管机构, 中国银监会 对数据治理的重视与推动,必将对数据产业产生重大而且积极的影响。 其影响也许不仅仅局限于银行业金融机构,还包括其他数据相关的产业。


第二、从理论层面,该指引的发布,驱动学术界从理论上思考:数据治理的内涵到底是什么?它和公司治理之间的关系到底怎样?数据治理的独特之处何在? 需要一个相对统一的理论框架,便于开展理论研究,并形成同产业实践的良好互动。


为此,我尝试根据自己的有限了解,提出一个数据治理的大概理论框架,希望能够为相关工作提供一些思路参考。更重要的是,希望能够起到抛砖引玉的作用,吸引更多的政府、产业、学术专家,一起来关注这个重大问题。 一个科学合理的数据治理规范,是数据产业健康发展,甚至是国家人工智能战略实施不可或缺的制度保障。

接下来,将从几个方面进行讨论。第一、银监会的指引里明确指出,数据治理应该纳入公司治理的范畴。为此,需要首先对公司治理有基本的了解。第二、数据作为一种新兴资产,它的治理工作,有哪些独特、重要,且具体的内容?第三、数据资产价值的创造离不开专业的人才。因此,人才团队的建立与培养也至关重要。


二、公司治理与数据治理


中国银监会《银行业金融机构数据治理指引(征求意见稿)》第四条(数据治理总体要求)明确指出:“银行业金融机构应当将数据治理纳入公司治理范畴”。为此,需要先简单了解一下: 什么是公司治理(Corporate Governance)?

为了说明这个问题,虚构一个“老王卖耗子药”的搞笑案例。假设老王开了一个小公司,叫做“老王科技”,专业售卖耗子药。老王科技就一个员工,那就是老王自己。老王既是唯一股东、董事长、CEO,又是市场总监、销售骨干、前台接待,全都是老王一个人干。那么,老王科技的业绩好坏,就看老王自己的经营能力是否够强。无论老王科技的业绩是好还是坏,都只跟老王一个人相关,跟其他人无关。因此,这是一个纯粹的经营问题,跟公司治理无关。为什么?因为:“老王科技”这个资产(即:公司)的所有者(老王,唯一股东兼董事长),以及实际经营者(还是老王自己,兼任CEO、市场总监、销售骨干、前台接待等众多职务),是100%同一个人。因此,实际经营者(老王,CEO、市场总监、销售骨干、兼前台接待),在他的能力范围内,一定会100%尽全力为股东(还是老王,唯一股东兼董事长)努力奋斗,不需要任何制度鞭策。如果经营不善,老王自己负全责,没法怨天尤人。这样的公司,只有经营问题,没有治理问题。

但是,老王科技发展的太好了,以至于必须开分店!一不小心,在北京城里开了100家分店,请问:老王自己一个人还忙得过来吗?显然忙不过来了。怎么办?老王必须为每个分店,请店长,请员工。为了协调这100家分店的市场行为,还在总店聘请了市场总监。为了协调100家分店的货物配送问题,还在总店安排了物流主管。这么多员工,他们的招聘、离职、五险一金,也是一个不小的事情,迫于无奈,老王还聘请了一个HRD。好家伙,这么七七八八算下来,总店的员工人数也不少了,太操心了。搞得老王连搓麻将、玩德扑、打电游的时间都没了。这可严重影响了老王的生活质量。于是,老王又重金聘请了一个海归MBA来当CEO(Michael)。

不知不觉中,老王科技的员工数目,已经从原来老王1人,变成300人了。这时候,新的问题就来了。作为“老王科技”的唯一股东,老王心心念念希望老王科技的利益(也就是自己的股东利益)越来越好。但是,员工的心思可不一样。无论是高管CEO、中层各种总监、还是最下面的店长店员,每个人的利益跟老王都有交集(毕竟老王科技做得好,大家才有工资奖金),但是又不尽相同(毕竟老王科技业绩,跟员工个人利益,并不是完全确定性关系)。于是,每个员工,自觉或者不自觉地,都有一点自己的小心眼儿。这不是一个好现象,也不是一个坏现象,这是一个太正常不过的中性现象。对于这个现象,如果利用得当,可以成为公司发展的巨大动力。但是,如果治理失控,就会极大地影响公司业绩,影响公司所有相关方的权益。这时候,公司治理就变得极其重要了。

由此可见, 所谓公司治理,在一个相对狭义的层面,就是要解决公司实践中,资产所有者(股东老王)和实际经营者(CEO Michael,中层大张,店长小赵,N多店员)的分离所产生的矛盾。 如果没有良好的治理制度保障,公司资产(例如:老王科技的分店)的实际经营者(店长+店员),极有可能做出伤害公司利益的行为(例如:利用老王科技的分店,私下兜售老李科技的产品)。这就是公司治理中经典的委托代理问题,也是现代金融学研究的核心内容之一。

如果老王科技有融资上市计划,公司治理问题会变得更加严重。以前老王科技就老王一个股东,他对公司中所有事物有绝对的生杀大权。但是,现在为了企业高速发展,老王科技经历了A到Z无穷轮融资,最后终于在海外上市。等到上市的那一天,老王在公司股权中的占比,已经不到10%,而其他的股权散落在各个投资机构,甚至散户手中。尽管通过双层的股权结构设置,老王仍然拥有在董事会的绝对控制权。但是,此时老王的影响力,肯定不如以前了。以CEO Michael为首的管理团队(公司资产的实际经营者),具备了很强的挑战老王的能力,散户就更别提了。管理团队具备了更大的用公司资产为自己谋私利的可能。此时,如果没有科学合理的制度设计,老王科技的前途堪忧。

目前为止,老王科技的治理问题只牵涉到两方利益,即:股东方(资产所有者)利益与管理方(实际经营者)利益。如果有第三方介入,老王科技的治理问题会变得更加复杂。例如,老王科技的快速发展,带来一个严重后果:环境污染。为了生产剧毒耗子药,老王科技的生产制造过程,不可避免的涉及到大量有毒有害的化学原料以及废弃物,对环境产生了很大的伤害。当地政府、居民,以及环保主义者都对此表示强烈的不满。为了解决该问题,老王科技同当地政府、居民,以及环保主义者,建立了良好的沟通机制,积极采纳最新的低排放生产工艺,找到了各方都满意的解决方法。此时,老王科技协调规范的不仅仅是股东、管理层之间的利益,还包括外部第三方(当地政府、居民、环保主义者)。从一个更加广义的范畴看,这也可以被看作是公司治理的内容。

因此,从一个更加广义的角度看,公司治理就是要对公司(作为一个资产)的所有相关者(不仅仅局限于股东和管理层,还包括第三方)利益的协调与规范。


回到数据治理问题的讨论,请问:数据治理,治理什么?治理的对象是什么?是数据吗?答:不是。数据作为一种电子化记录,无处不在,大多数情况下都无关企业重大利益,并没有治理的必要。 因此,数据治理的对象必须是重要的数据资源,是关乎企业重大商业利益的数据资源。这样的数据资源可以称其为“数据资产”。 关于数据资产更加详细的讨论将在下一节进行。这里不难获得一个结论:所谓数据治理,不是对数据的治理,是对能够为企业带来商业利益的数据资产的治理。数据资产显然是公司资产的一部分。因此,无论是从狭义的角度还是广义的角度看, 数据治理应该属于公司治理的范畴 所有 关于公司治理的典型问题,都可能在数据资产上出现。 公司资产会出现所有者与实际经营者分离的问题,数据资产更会出现。数据资产的所有者,跟实际使用经营者,几乎从来就不是同一个人,或者至少极具争议。公司资产的实际经营者(例如CEO),有可能用公司资产谋取私利;数据资产的实际控制者(例如数据库管理员),更有便捷的条件,通过倒卖数据,谋取私利。公司的利益有可能同外部第三方(例如环保主义者)发生冲突;这个问题对数据资产而言更加突出。以电商平台为例,除了股东、管理层以外,相关数据资产有一个天生的第三方——消费者。股东管理层对数据的利益诉求,极容易同消费者这个第三方冲突。作为冲突的焦点,数据确权与隐私保护首当其冲。

总结一下, 所谓“数据治理”,不是对“数据”的治理,而是对“数据资产”的治理,是对数据资产所有相关方利益的协调与规范。


三、数据资源资产化


数据治理是关于数据资产的治理,那么数据资产又是什么?行业中有一个广泛流传的误解,很多朋友不假思索地认为:“数据就是资产!” 错!数据不等于数据资产。所谓数据就是电子化记录,电子化记录就是数据。但并不是任何数据都可以被称为资产,因为数据资产的要求更高,只有数据具备了资产属性后,才可以被称为数据资产。那么,基础会计学中,对资产的定义是什么?其对数据资产的定义能有什么启发?

新《企业会计准则-基本准则》第20条规定:“资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”如果照猫画虎修改一下,不难获得一个关于数据资产的定义: “数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源。” 由此可见,数据要成为数据资产,至少要满足3个核心必要条件:(1)数据资产应该是企业过去的交易或者事项形成的;(2)企业拥有或者控制;(3)预期会给企业带来经济利益。

其中(1)似乎不是问题。 企业数据资源的获得无外乎两种途径。第一种途径,是自己过去正常经营的一个自然积累与产出,或者由于业务实施的必要而被实际控制。 例如,对电商网站而言,网络浏览日志数据、消费购买数据自然而然就产生了;为了给消费者快递商品,消费者的姓名、银行卡、手机号、地址等数据也被记录了下来,被电商网站实际控制。 第二种途径,就是资源互换。 可能是A企业通过货币(或者等价物)购买了B企业的数据,也可能是A企业的数据同B企业的数据做了等价置换。假设相关操作合法合规,那么这种途径获得的数据资源也符合数据资产定义的条件(1)。

但是,(2)似乎是一个很大的问题。 根据核心条件(2),数据要成为资产,要么被企业合法合规地拥有,要么被企业合法合规地控制。 对于普通资产而言,这似乎不是一个很大的问题,因为普通资产的产权非常明晰。但是对数据资产而言,产权非常不容易界定。还是以电商网站为例,网站积攒大量的关于消费者的消费记录数据。这些数据的实际控制者是电商网站,但是其合法的产权方是谁?这不是一个容易回答的问题。对于该数据的生产,电商网站提供了软硬件设备,似乎贡献巨大。但是,这些数据的内容,却由消费者生产,并且关乎消费者隐私,消费者也有无可争议的权益。这其中的矛盾冲突,如何通过科学合理的制度予以规范协调,这是一个极具挑战,需要大智慧的问题。关于数据确权与合规这个重要问题,后面一节还会进一步讨论。

最后,(3)似乎也不是一个容易解决的问题。数据要成为资产,就需要能够给企业带来可预期的经济收益,否则就不是资产。因此,那些被大量存储,产生可观存储成本,但是却不能给企业带来可预期经济收益的数据资源,也不能被称为数据资产。只有那些能够给企业带来可预期经济收益的数据资源,才能够被称为数据资产。 什么样的数据资源才能够产生可预期的经济收益?这需要一些必要条件。

第一、记录电子化。 电子化的记录才是数据,否则连数据都不算,怎么能产生可预期的经济收益,又怎么能从数据资源变成数据资产?请不要忽视记录电子化这个卑微的工作,其意义极其重大。因为相关行业中,大量的历史记录都没有被电子化,而这些记录中蕴藏着海量的宝贵信息。最典型的例子莫过于:病历!虽然现在的医院大量采用电子化病历,但是过去几十年里可都采用的是纸质病历。这些病历上写满了只有医生护士才看得懂的天书。这样的纸质 病历 ,一个大型三甲医院,就有上亿份之多!里面蕴藏了无比珍贵的临床数据。不把这些记录电子化,就成不了数据,支撑不了科学研究,支撑不了规模化应用,产生不了可预期的经济价值,因此不是数据资产。

第二、数据聚合。 统一的数据聚合平台,是数据资产化的优质条件。如果没有统一的数据聚合平台,每次不同的业务需求,都会产生不一样的数据提取、整合、清理需求。这些需求常常需要和不同的业务部门沟通,在不同的数据库上直接操作。这需要高昂的沟通成本,以及不平凡的数据库操作技能,而这些技能往往是数据需求方(例如:业务方)不具备的。最后只能拜托技术团队去完成,而技术团队的时间成本也非常高昂。 过高的数据提取整理成本,会抵消数据资源原本应该产生的经济收益,成为数据资源资产化的巨大障碍。 而要消除该障碍,一个统一规范的数据聚合平台不可或缺。

第三、质量保证。 数据分析中有一句名言,叫做:“垃圾进去,垃圾出来 (Garbage in, garbage out)”。它讲的道理是,如果数据本身质量很差,如同垃圾一样,还用做模型输入,那么无论模型有多高大上,最后出来的结果仍然是垃圾,没有任何价值。可见数据质量的重要性。 数据质量主要表现在以下几个方面:(1)真实性。 虚假数据是没有任何意义的;真实的数据,常常分散在各个职能部门中。如果没有合理且强力的制度保障,正常情况下,没有任何人愿意主动贡献自己的真实数据,他的利益何在?因此,合理而且强力的制度设计非常重要。 (2)完整性。 该收集整齐的数据要尽量收集整齐。一套数据对被记录对象的所有相关指标的完整程度越高,相关模型的预测精度就会越好,数据资源就越有价值。相反,过多的缺失数据会极大地伤害相关模型的预测精度,进而限制数据的应用能力。 (3)精准性。 有三层含义:第一层含义是数据的逻辑要合理。例如:对于大气数据而言,由于PM2.5是PM10的一部分,因此,相关数据必须满足PM10的数值要大于PM2.5,否则就不合逻辑,是错误数据。第二层含义是数据的细致程度。同样的数据,不同的采集方式,不同的存储方式,带来的数据细致程度是不一样的。以车联网数据为例,数据采集应该细致到每秒?还是每15秒?在不考虑成本的情况下,显然越细致越好。第三层含义是数据的精确程度。以定位数据为例,应该精确到10米以内?还是1米以内? 在不考虑成本的情况下,显然数据精度越高,对于业务的支撑能力越强。


四、 数据确权与合规


随着社会的发展,隐私保护问题越来越受重视。所谓隐私保护就是要保护关乎个体隐私的数据。个人隐私数据之所以应该受到保护,就是因为这些数据的滥用有可能对个人造成巨大的财产甚至人身伤害。所谓隐私保护,其实就是对隐私数据的保护。 一个最理想的情况是,能够在产权层面,确立相关个人作为隐私数据的合法的唯一拥有者。这就需要一个法律基础:对数据产权(包括但不局限于隐私数据)的确定,也就是数据确权。 如果暂时做不到数据确权,那么至少要做到,对隐私数据实际控制者的行为要严加管束,做到合法合规。要避免,因为数据资产的错误使用,给任何相关方造成不必要的损失。因此,相关的数据治理规则非常重要,主要关注几个方面。

第一、数据确权。 数据一旦成为资产,就一定有产权方,或者实际控制人,可以把他们统称为主人。请问:数据资产的主人到底是谁?如同实物资产一样,如果一不小心,错用了别人的资产,可能会产生严重的法律后果。对于实物资产,确权似乎不是一个问题。因为,无论是桌椅板凳,还是电脑打印机,它们在产权层面是非常明晰的。制造商独立制造了这些产品,整个制造过程跟消费者无关,制造商独享产权。制造完成后,消费者通过付费,获得了这些实物资产的产权。但是,数据的生产过程太不一样了。以电商为例,大量的消费者数据被电商平台所掌控(例如:消费者的个人信息、购物信息等),电商平台事实上在经常使用这些数据为自己的业务服务(例如:支撑电商平台自己的个性化推荐)。甚至,不负责任的电商可能通过各种灰色交易将数据售卖给了莫名其妙的第三方。但是,这些数据资产的生产过程,可不是电商平台自己能够完成的。电商平台提供了“平台”,在这个平台上,消费者通过注册、浏览、订阅、购买、评论等一系列行为生产了相关的数据。因此,整个数据资产的生产过程,既有电商平台的贡献(在线场景、软硬件环境),也有消费者的贡献(注册、浏览、订阅、购买、评论)。 这样的数据资产,其产权归属如何确定,其控制权应该如何治理?主人到底是谁?这是一个极具挑战性,而又非常重要的问题。

第二、数据采集。 大量的数据采集来自业务实践,但相应的数据采集过程是否合法合规?有几个基本的原则可供参考。 第一个原则是“合法正当原则”。 显然,非法采集的数据,通过不正当途径获得的数据,是不能采用的。 第二个原则是“知情同意原则”。 数据作为一种电子化记录,大量记录了关乎个人隐私(例如:姓名、手机号、身份证)或者商业机密(股权结构)的信息,因此非常敏感。采集如此敏感的信息,被采集方充分的知情、同意,并且授权,是必不可少的先决条件。 第三个原则是“必要性原则”。 由于数据可能涉及个人隐私或者商业机密等敏感信息,因此,数据采集应该遵循越少越好的原则。例如,一个电商平台的APP,采集用户的姓名、银行卡、手机号、地址等信息,非常必要。否则,无法完成在线支付、线下快递等必要业务。但是,如果该APP同时采集你的社交圈信息,还要看你的电话簿记录,这似乎就违背了数据采集的必要性原则。

第三、使用场景。 即使企业对数据拥有100%的产权,或者合法合规的实际控制权,也不能对数据不分场景地任意使用。这个道理其实好懂。假设你拥有100个鸡蛋,你对这100个鸡蛋拥有100%的产权。这是否代表你可以对鸡蛋做任意处置?不可以!任何处置方式,都必须满足一个基本前提:不对他人造成不必要的伤害。例如,你可以把这100个鸡蛋变成:煮鸡蛋、煎鸡蛋、蒸鸡蛋。但是,你不能拿鸡蛋去大马路上扔汽车的挡风玻璃。这可就太危险了,容易引起交通事故,给他人造成伤害。由于数据记录了大量关乎机构或者个人的敏感信息,因此数据资产的使用场景,要慎之又慎!坊间传闻,腾讯内部对QQ和微信的聊天记录(数据)给予最高的保密级别,称为“高压线”,不准任何人碰这部分数据。原因何在?这部分数据涉及到太多的用户隐私。这是一个负责任企业自我约束的好例子。因此,数据治理的一个重要工作就是定义数据的使用场景。什么样的数据,可以应用于什么场景?支持什么产品?谁来使用?使用的前提条件?都需要认真思考,需要必要的规章制度。

第四、使用手段。 接下来应该关注的是数据的使用手段。即使企业对于数据拥有了100%的产权,也确定了一个合法合规的使用场景,也要对数据的使用手段非常谨慎。因为数据记录了敏感信息,因此对数据的每次加工使用,都有泄密的风险。为此,要对数据的使用手段做出必要的合规要求。这里继续沿用上面的例子。你对这100个鸡蛋拥有100%的产权,并且有一个合规的使用场景:餐厅。餐厅售卖各种加工后的鸡蛋,例如:煮鸡蛋、煎鸡蛋、蒸鸡蛋。结果某吃货发现,你给他提供的单面煎鸡蛋里面居然有三个蛋黄,这是一个极少见的“三黄蛋”!没想到,该吃货是鸡蛋大数据的高手,经过他的大数据分析,最后判断,世上能够产三黄蛋的老母鸡只能是隔壁家老李鸡场的78号老母鸡。该吃货把这个消息在微博微信上大肆宣扬,后果是老李鸡场78号老母鸡的隐私没了。其他老母鸡都知道78号下三黄蛋,觉得非常奇葩,超级鄙视,议论纷纷。78号老母鸡因此患上了严重的抑郁症,失去了产蛋能力,最后被主人老李炖成了一锅鲜美的鸡汤,下场好惨!这个例子说明,粗心大意的数据使用手段,容易产生隐私泄露的风险。因此,必要的隐私保护(或者加密)技术,应该被积极采纳。例如,当初厨房的鸡蛋治理制度规定:不许加工单面煎鸡蛋(能看出三个蛋黄来),而是要求蛋黄蛋清必须打碎搅和均匀后才能做进一步加工(例如:蒸鸡蛋、炒鸡蛋)蛋,这并不会对鸡蛋的美味产生太大的影响,但是却能够极小化三黄蛋(一个敏感信息)被识别的可能性,因此78号老母鸡的隐私也被保护了。

第五、数据安全。 由于大量数据关乎个人隐私、商业机密,因此数据安全是一个非常重要的问题。现实生活中的数据泄露比比皆是。我自己的经验是,只要孩子参加了一个课外培训班(例如:英语),其他同行培训机构就会跟上来。曾几何时,有租房经验的朋友也知道,只要在任何一个房地产中介留下过租房信息,很快就有更多的中介找上门来。我们的个人手机号码,如此重要的个人数据,是如何泄露的? 数据安全是整个数据产业正在面临的重大问题! 数据安全的保障需要必要的软件和硬件。但是,最需要的是一个合理的数据治理制度。该制度应该对数据从产生、使用、到消亡的整个链条进行严格治理。具体内容包括但不局限于:存储安全管理、用户匿名化、访问权限管理等。







请到「今天看啥」查看全文