今天,跟大家探讨一个非常坑爹的问题:数据产权的确定(简称:数据确权),以及相关的数据交易问题。为什么说这个问题非常坑爹?因为:极其艰难。可以负责任的说,在当前这个时间点上,估计没人能够非常准确地把这个问题说清楚。熊大?显然更不可能。这个问题很重要,但是越是深入思考,越是发现坑多水深,困惑无穷。为此,我想把自己一些不成熟的想法整理一下,同大家坦诚分享,请更多的朋友关注并批评指正。
数据确权是重要的,这很好理解。因为,行业中越来越多的朋友认识到:数据是企业的一个重要资产,是一种类似于原油的重要生产资料。既然是这么重要的东西,咱们最好说清楚:这是谁的吧?为此,至少有两个重要的场景。
隐私保护同数据确权有什么关系?隐私保护,隐私保护,隐私保护,请问:您到底要保护的是啥呀?答:保护的是关乎我隐私的信息。请问什么是信息?答:就是数据呗。所以,隐私保护的对象应该可以被具象成:关乎我隐私的数据。
但是,如果这个数据在司法确权过程中,发现不是你的,是我的,请问:您保护个啥子东东?既然这个数据是我的,我想咋地就咋地,跟您隐私保护什么关系?所以,要成为“关乎我隐私的数据”,是不是应该有一个前提条件,就是:“这必须是我所拥有的数据!”。也就是说,关乎我隐私的数据的所有权,应该是在我的手上才对。
所以,熊大一直认为,隐私保护的核心是:数据确权。只有数据确权后,我们才可能确定隐私保护的对象和边界。否则在执行层面可能产生很多矛盾冲突,进而让隐私保护变得虚无缥缈。
数据交易(或者交换)恐怕是挡也挡不住的趋势。如同山洪咆哮而下,势不可挡。因此,最好的策略是:规范疏导它。不要让他毁坏庄稼,反而要用它来发电造福人类。
因此,全国各地陆陆续续开设了很多数据交易所。请问他们都在做什么?我想应该是撮合数据交易吧。什么是数据交易呢?很简单啊。假设A有一个数据X,而B需要。于是,B向A支付了一个好处(可能是货币、可能是其他的等价数据),然后A 把X复制了一份给B。对,就是这么简单的一个交易过程。但是,这个简单交易过程背后,有一个巨大的假设:A是拥有数据X的。也就是说,如果对X做数据确权的话,它应该只有一个唯一的所有者,那就是A。相反,如果X的主人不是A,或者说不清楚。那么,A把X交易给B的这个行为是危险的,是需要谨慎对待的。
前面讨论的是数据确权的重要性。接下来跟大家讨论一下:这事技术上可行吗?主要挑战何在?咱们先看一个典型案例。假设,老王是狗熊商城的忠实客户,每年要从狗熊商城(一个类似于天猫、京东的网上商城)购买很多商品。狗熊商城因此留下了老王的购买记录、浏览日志等很多数据。请问:这些数据是谁的?是老王的?还是狗熊商城的?
从一个完全中立的角度,我认为:这个答案对狗熊商城是不公平的。没错,这些数据都是老王的行为产生的。如果老王把这些数据存在了自己的服务器上,那估计就跟狗熊商城没有任何关系了。但是,事实上,这些数据都存在了狗熊商城的服务器上。而狗熊商城为了采集并存储这些数据,投入了巨大的资源。对此,狗熊商城是否也应该享有该数据的一些利益?该利益应该如何体现?
这显然不可以。不能因为我在你家购物,这些数据就都成你的了。那还了得,我的银行卡信息(为了交易付费留下的)、家庭住址(为了快递上门留下的)、还有很多购物信息,那都成狗熊商城的了?既然是狗熊商城的,那任何时候,只要狗熊商城一开心,就可以向全世界公布:熊大住在哪里,欢迎大家去骚扰他!所以,这个答案肯定也不对。我想大家都可以理解。
由此可见,无论我们把这些数据的利益100%算在谁的头上,似乎都是不合理的,行不通的,同现在大家默认接受的common practice是不一致的。在熊大看来,似乎唯一合理的方式就是:利益共享。老王和狗熊商城共同享有这个数据的利益。这时候一个新的问题出来了:这个利益如何分享呢?
如果把数据看作是一个公司的话,就是大家分享股权。这答案乍一看去,似乎有道理。老王提供了行为,狗熊商城提供了技术存储手段,共同产生了这些数据。因此,这些数据的所有权,应该大家共同拥有。但是,再一细想:那谁是大股东?
如果老王是大股东,那基本上退回到【答案1】的场景。狗熊商城要做一个个性化推荐算法才麻烦,得跟千百万、甚至上亿的用户沟通,获得对方授权。所以,这似乎不合理。
如果狗熊商城是大股东,这就退回到【答案2】的场景,基本上狗熊商城会全方位碾压老王。所以,也不合理。那大家各占50%如何?这也基本上同【答案1】的场景相似。狗熊商城失去对数据的绝对控制权,而所有算法分析的推进,都需要海量的用户授权。这个成本将极其高昂。这同现在行业默认许可的practice不一致。
看来分享所有权是不大可行的了。那能否把【所有权】和【使用权】区分开呢?显然,这个数据的所有权不能给狗熊商城。要不然,老王的基本信息成了狗熊商城的。没有狗熊商城的许可,以后老王都不敢跟人说:“我叫老王,男,芳龄68”。所以,所有权只能由老王拥有。
但是,毕竟狗熊商城为采集存储这些数据也投入了资源,因此狗熊商城将拥有该数据的使用权。那么,所有权和使用权有什么区别呢?显然所有权是最高权限,自己想怎么干,就怎么干。没人管得了。但是,使用权就要有限制了。第一、要限制您的使用范围;第二、严禁售卖。这样产生的后果就是:老王在狗熊商城所产生的数据,仅限于狗熊商城(或者某个约定的范围)使用。例如,狗熊商城可以用该数据改进个性化推荐算法,也可以用于分析了解各个商品的销售情况。但是,狗熊商城绝对不可以把老王的数据售卖给熊猫商城。这个要是让老王知道了,应该有申张利益的权利。
如果大家同意熊大的瞎想,那么【方案2】似乎可以解决老王和狗熊商城的数据利益分享问题。但是似乎仍然不能解决数据交易的问题。因为,根据【方案2】,狗熊商城是不能售卖老王数据的。但是,事实上,数据交易的需求如洪水猛兽一般,势不可挡。熊大认为挡是挡不住的。如果非要阻挡限制它,那么数据交易就会走向地下,后果更可怕。相反,如果我们能够规范疏导它,那么数据交易一定能够为社会创造出巨大的价值。
这里的核心问题是:狗熊商城到底如何交易数据,才能够不同【方案2】的精神相违背?可以被凑合看作是安全合规,不伤害老王的隐私利益?这是核心问题!
请大家注意,这里熊大做了一个假设,就是:“数据非交易不可”。这个假设也许是错误的,也许是正确的。在这篇文章里不讨论。咱们姑且假设:数据非交易不可。狗熊商城一定要买卖数据,请问怎么做,才能够对老王最负责?对此,狗熊商城可能有几种不同的设想:
我们把ID(或者类ID的标志,例如:设备号、地址等)全部隐去。这样,别人就不知道老王是老王了嘛。如此一来我不就可以售卖了?这么说,似乎可以很大程度上解决老王隐私保护的担忧。但是,这样的数据,我不知道谁还会购买?大量的应用场景(例如:精准营销、消费信贷)都需要把数据和人准确地匹配上。如果您把ID全部消灭了,这还能有多大用处?这样的数据卖给熊大做个纯粹的学术研究,估计还行。但是,对于真实的商业实践,价值就很低了。所以,我不相信这种数据交易会成为主流。
我不直接售卖老王的数据。我把800个“老王”一起打包,组成一个“老王军团”。把他们的各个指标的均值、方差、分位数啥的计算一通。然后,把老王军团的描述统计售卖给对方。因为,“老王军团”里有800个“老王”,所以谁也不知道咱家的老王到底干了啥。因此,老王的隐私也得到了极大的保护。这个设想如何?我也表示呵呵。数据交易最大的冲动显然不是要几个描述统计量。如果是这样,我为什么不直接买分析报告?还要整这么复杂的服务器,API接口,交易数据。太麻烦了不是。所以,我也不相信这种数据交易会成为主流。
这两个天真的设想似乎都不怎么成立。说一千道一万,数据交易最原始的冲动是希望获得精确到ID的指标。但是,精确到ID的原始数据太敏感。那么,我能否交易:精确到ID的“模糊化”的数据?也就是说,我告诉你一个关于老王的非常模糊的“得分”。这个“得分”是基于原始数据计算而来的。但是,从这个“得分”您似乎并不能对老王的隐私产生太多的瞎想。有没有这种可能?答:有可能,而且在市场上已经公开存在,而且,似乎没有被大范围的反对过。
这种产品是什么?答:各种各样的征信得分(例如:芝麻得分、考拉得分、还有很多其他各种得分)。这种得分(或者类似产品),如果做的足够好,是可以被售卖的。老王向招商银行贷款,银行怎么知道老王是好人还是坏人?于是银行花100元,向狗熊征信局购买了老王的“狗熊信用得分”。发现是800+,非常好。于是,欣然批准了老王的贷款请求。这个“狗熊信用得分”就是一个精确到老王的、模糊化的数据产品。这个产品不见得是最完美的,最让数据交易各方都满意的。但是,似乎是最现实可行的,一个可以被交易的数据产品。
如果上面的逻辑能被接受,那么,狗熊商城应该可以考虑生成关于老王的:信用得分(用于消费信贷),消费能力得分(用于评估客户价值),电子产品发烧得分(用于评估对电子产品的喜好程度)。这些得分不能太多。太多,等价于又把老王给卖了。只有足够少,才能最大限度保护老王隐私。但是,太少就会伤害未来数据分析预测的精度。毕竟,指标越多,预测精度才可能越好。因此,这些得分的生成,必须要结合一定的业务场景,在准确的因变量Y的指导下生成。而不能由狗熊商城自己闷头干。同样是“信用得分”,狗熊商城为不同银行设计的可能就不一样,为不同消费金融公司设计的可能也会不一样。
例如:熊猫消费金融公司,长期从事消费信贷工作,积累了大量的黑名单(Y)。熊猫消费金融希望借助狗熊商城的数据X,建立一个强大的通过X预测Y的征信模型。那么,狗熊商城应该对此做个性化的开发。为此,我们需要把熊猫消费金融的数据Y和狗熊商城的X,根据ID 匹配在一起,然后评估X之于Y的重要意义。
请问这个事情谁来做?熊猫肯定不希望狗熊做,因为熊猫担心狗熊高估预测精度,以此提高未来数据售卖的价格。狗熊也不希望熊猫做,因为狗熊担心熊猫低估预测精度,以此压低未来数据采购的价格。这种互相的不信任是天生的,可以理解的。那谁来做呢?【硬广请注意】也许只能是类似于狗熊会这样的第三方机构【硬广结束请放松】。因此,熊大瞎想:也许将来的数据交易,除了需要交易所这样的交易平台以外,估计需要不少的第三方数据评估,甚至定价的机构。
以上是自己对数据确权以及交易的一些瞎想。有时候想多了,总觉得矛盾重重,自己也觉得很糊涂。但是,仍然希望能够深入思考一些。因为数据交易也许是挡不住的。如果挡不住,我们就想办法规范管理他。但是,如何规范管理?希望本文可以抛砖引玉,吸引更多聪明的脑袋去研究思考。
识别下方二维码进入狗熊会案例平台