专栏名称: 法律读库
法治新媒体阅读管家,传递常识,启迪法治。Less is More,少即是多。每日向用户推送优质法律类文章1至4篇。
目录
相关文章推荐
最高人民检察院  ·  邻居拆迁都是货币补偿,为何他们只能选择购买安 ... ·  19 小时前  
最高人民法院  ·  跨时空“致富经” ·  3 天前  
最高人民检察院  ·  第九届全国检察“三微”优秀作品展播|微动漫: ... ·  4 天前  
51好读  ›  专栏  ›  法律读库

非法律人眼中的法律大数据

法律读库  · 公众号  · 法律  · 2021-01-19 10:39

正文

作者:李永卓 来源:李永卓

1


 “廉政瞭望”曾于2018年在一篇文章里谈到了淘宝小二事件。淘宝小二是淘宝商家对淘宝系工作人员的统称,这些平均年龄不足30岁的年轻人,因为掌握着流量也间接掌握了上千万商家店铺的生杀大权。

曾有媒体报道,周末晚上的杭州高档娱乐场所一度成了淘宝小二的天下,对于他们来说,一场饭局三五万是太平常不过的事情,而那些没有门道或出不起钱的商家们,在排几个月队后未必能等得到上活动、上首页的机会,难以获得流量扶持,由弱更弱,恶性循环。

小二事件后,阿里壮士断腕,基于大数据的风控与流量分配系统的研发和完善大大加速,小二的权力被大幅压缩,集团内部反腐杀手锏逐一亮相。

镜头拉远。这之后,2014年今日头条信息流广告上线、2015年腾讯朋友圈广告上线、2015年微博粉丝通2.0上线、2016年百度信息流广告上线。流量的分配逐渐更替为流量的选择与竞买,效率越来越倚重于平台的体量、推广系统的功能和企业主对该系统的驾驭能力。

流量是什么?形式上是曝光次数,是占领潜客心智的机会,它只是营销环节的一个中间过程,数据则是构成流量的最小单元。企业主在尚未找到通往潜客最优路径的情况下只能大水漫灌,生死之争集中到流量之争,流量之争演化成为资本之争与技术之争,技术之争的基座又是数据的获取、整合、分析、使用、保护等综合的重构能力。值得一提的是,流量只是这一基座上搭建起来的建筑之一,目标制定、财务规划、绩效评估、运营优化、团队激励、利冲解决、执行风控、组织管理等方方面面都需要在这一地基拔地而起。


2


掌握互联网隘口的平台通常会以竞价的方式出售流量,购买流量的企业主会在相应的后台系统中沉淀大量数据。此外,各企业通常还会有自建系统沉淀数据,如官网、微信公众号、抖音、头条号、微博、百家号等。最后,很多相互衔接的系统,如呼叫中心、在线客服、在线办公、CRM都会生成相应数据。这些数据都属原生通用数据,但原生通用数据某种程度上并不能使我们在同业者中一骑绝尘,因为大家所掌握的数据维度几乎相同,我们能看到的、能想到的,也是同业者所能看到和想到的。

怎样可以通过现有的系统获取更多维度的数据?限于篇幅仅举一例,比如向落地页、官网、APP等一些业务系统埋点,这样既有可能采集到更多的诸如访客城市、年龄、性别、经纬度、运营商、网络、设备等基本属性信息,又可以采集到访客的点击行为和浏览路径,从而使运营更有针对性,拉升ROI,同时也会促使我们优化展示载体,以便更好的符合客户的关注逻辑,从而将其引导至我们的逻辑体系。

除了通过上述两种内部获取数据的方式之外,我们还应放眼更广阔的外部视野。网络中到处分散着大量有巨大价值的信息,例如,全国征地信息共享平台公示着最新的省级征地信息、各地政府官网公示最新的土地招拍挂信息、企业信用信息公示系统公示着竞得方的主体信息、裁判文书网公示着该企业过往的诉讼案件、通过alpha系统甚至可以很便捷地查询到同类案由大标的额案件的争议焦点,以及该类案件所存在的共性与裁判结果,从而由个案件研究变成对行业的研究…………降维打击的前提是我们需要首先已经升维,利用好第三方数据正是通往更高维度的路径之一。


3


如果案件数量不多,我们尚且可以手动在上述平台逐一查询、关联、匹配,但如果目标是圈定某个行业及其大量客户进行研究,通常需要我们自身或者团队具备一定的数据采集、挖掘、处理的能力。可惜的是第三方数据很容易被人们忽略,或许人们可以隐约估量出它的价值,只是没有找到高效的获取方式与使用方法,不得已只能路过。

内部应用系统林立,外部公示信息越来越多,数据过于分散不但会降低团队的执行效率,还很容易使各团队负责人陷入盲人摸象的误区,这种情况下数据整合就显得尤为必要,后续能否对数据深度利用很大程度上也取决于此。

整合数据通常需要自建系统定制开发,需要我们在如下几个方面具备较为深刻的理解:

(1)各团队内部业务执行的基本面;

(2)各团队之间工作流程如何衔接;

(3)第三方平台的使用方法、逻辑、与API文档;

(4)将上述三项设计成研发人员可以看懂的精确开发文档;

(5)研发技术。


4


成熟的系统可以获取到头条、百度、腾讯等不同平台、多推广账户中的咨询信息,并能按指定的规则向团队成员分配。团队哪些同事在同时跟进潜客(利冲的前期化解)、为潜客初步解决了哪些法律疑问、何时拜访了潜客、潜客何时又来律所拜访、团队出具了哪些大数据报告、何时签订了委托合同、哪些律师参加了案件研讨会或模拟法庭、盛廷办案34步进展到了哪个阶段……等等。数据整合的理想状态是达到这样的效果:如果客户委托了我们,案件负责人可以查阅到客户从进入我们系统的第一天开始直至结案每个环节的法律服务过程与相应负责人;如果潜客没有能委托我们,案件负责人可以定位到终止的环节并且回溯,查找原因,以期未来做得更好。同时,因为各环节都有相应的数据沉淀,一定程度上可以消除法律服务过程中客户的“视觉盲区”从而更快速地建立坚定的信任感,使律师团队避免与委托人因信息不对称产生信任破损的二次修复风险,从而降低时间与情绪上的消耗,更加心无旁骛的办案。


5


数据整合是为了获得更大的数据用以支撑精准决策,如果只有数据却没有深入分析与挖掘的能力,沉淀的数据无异于淤泥。

我们以一个真实的案例来说明这个问题。

2021年1月17日,我们发现一个以36.158开头的IP地址在该问落地页,这时,管理者通常不会做出什么重大反应,因为这条访问与其他访客并没有明显区别。



 如果查看该访客的历史记录,会发现该访客在一天内的不同时段访问了落地页3次,这些信息可能会给管理者带来一个初步判断,该客户的法律服务需求可能比较强烈。

然而事实果真如此?继续挖掘,发现该访客的“停留时长”全为未知,另外,操作系统也不统一,甚至屏幕的分辨率也完全不同,疑点初现。




调查自2020年9月至2021年1月约100万条访客记录,该IP地址出现合计225次,超过其他访客的平均点击次数几十倍。

继续深入挖掘,发现该网段96个IP中有19个非常可疑,平均点击次数为142次,仍远远超过合理点击次数。


限于篇幅,这里不再描述后续挖掘的过程,仅提供后续挖掘的思路。如,我们是否存在误判?其他自有系统的访客数据库能否查到该IP段下的咨询记录?该IP所在地在哪里?该地区在对应的时间段内是否有新委托的案件?该IP是否属于代理服务器?如果是,其下是否有其他域名?恶意访问(非真实客户访问)有什么规律?为什么这些异常IP能成为推广后台屏蔽规则中的漏网之鱼?新规怎样预防?如何建立该领域的风控模型?是否有必要通过诉讼的手段促使ISP服务商披露更多的信息?通过怎样的诉讼策略可以使恶意访问的主体承担相应的法律责任?

挖掘分析的广度与深度不同,决策也会不同。倘使数据只躺在那里,我们对损失将毫无察觉,只能习惯性的感觉到真金白银在流入一个黑暗通道之后莫名其妙得哗哗流淌,甚至既没有声响,也没有影像。

上述案例仅是抛砖引玉,关于第一部分谈到的团队激励、组织管理等领域如何创建科学可量化的模型,在此不再一 一列举。


6


百度百科中有一段关于“幸存者偏差”的描述:

1941年,第二次世界大战中,哥伦比亚大学统计学沃德教授应军方要求,利用其在统计方面的专业知识来提供关于《飞机应该如何加强防护,才能降低被炮火击落的几率》的相关建议。沃德教授针对联军的轰炸机遭受攻击后的数据研究后发现:机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是“我们应该强化机尾的防护”,而军方指挥官认为“应该加强机翼的防护,因为这是最容易被击中的位置”。

沃德教授坚持认为:

(1)统计的样本,只涵盖平安返回的轰炸机;

(2)被多次击中机翼的轰炸机,似乎还是能够安全返航;





请到「今天看啥」查看全文