豆瓣经常推迟开分,是为了清洗脏数据。
清洗脏数据的意思是,当不合理的数据(spam)占比太高时,人工加强识别明显不合理的数据,不计入总分计算。
我以前问过大厂风控部门的老大,怎么才能识别脏数据呢?
他和我私交很好,但也不肯告诉我细节,只是含混其辞地说,统计上,把许多项相关因子放在一起,哪怕你没做过风控,也能一眼看出来谁作弊,谁没作弊。
按我的猜测,豆瓣评分,早就进化到了为每一次评分评价进行可信度评级,而不仅仅是为某个用户打权重分的地步了。买通高权重的豆瓣核心用户打高分,打低分,都是没用的,仅仅增加了豆瓣员工清洗脏数据的工作量。(这大过年的 ……)
清洗脏数据的意思是,当不合理的数据(spam)占比太高时,人工加强识别明显不合理的数据,不计入总分计算。
我以前问过大厂风控部门的老大,怎么才能识别脏数据呢?
他和我私交很好,但也不肯告诉我细节,只是含混其辞地说,统计上,把许多项相关因子放在一起,哪怕你没做过风控,也能一眼看出来谁作弊,谁没作弊。
按我的猜测,豆瓣评分,早就进化到了为每一次评分评价进行可信度评级,而不仅仅是为某个用户打权重分的地步了。买通高权重的豆瓣核心用户打高分,打低分,都是没用的,仅仅增加了豆瓣员工清洗脏数据的工作量。(这大过年的 ……)