豆瓣经常推迟开分,是为了清洗脏数据。
清洗脏数据的意思是,当不合理的数据(spam)占比太高时,人工加强识别明显不合理的数据,不计入总分计算。
我以前问过大厂风控部门的老大,怎么才能识别脏数据呢?
他和我私交很好,但也不肯告诉我细节,只是含混其辞地说,统计上,把许多项相关因子放在一起,哪怕你没做过风控,也能一眼看出来谁作弊,谁没作弊。
清洗脏数据的意思是,当不合理的数据(spam)占比太高时,人工加强识别明显不合理的数据,不计入总分计算。
我以前问过大厂风控部门的老大,怎么才能识别脏数据呢?
他和我私交很好,但也不肯告诉我细节,只是含混其辞地说,统计上,把许多项相关因子放在一起,哪怕你没做过风控,也能一眼看出来谁作弊,谁没作弊。