专栏名称: 郭老师统计小课堂
介绍统计学课程的知识,方法和思想
目录
相关文章推荐
半月谈  ·  基层,不妨大胆拥抱AI ·  9 小时前  
长安街知事  ·  杨靖宇信件公布! ·  昨天  
微观三农  ·  预告 | ... ·  昨天  
四川新闻广播  ·  蜀乡各地春耕备耕忙 ·  2 天前  
中国水利  ·  水利部全面部署各地春灌保障工作 ·  2 天前  
51好读  ›  专栏  ›  郭老师统计小课堂

稳健的数据融合--在繁杂的信息中把握真相

郭老师统计小课堂  · 公众号  ·  · 2023-12-30 14:47

正文

本文是王若宇博士所撰写,为大家介绍他们发表在Biometrika上的工作。

王若宇,现为哈佛大学公共卫生学院博士后, 2 022 年博士毕业于中国科学院数学与系统科学研究院。他的研究兴趣包括数据融合、因果推断、大规模数据分析以及机器学习的领域泛化问题。相关工作发表在Biometrika、Journal of Machine Learning Research、Biometrics、CVPR、Neurips和ICLR等知名期刊或会议。

本公众号将持续为大家介绍国内优秀青年学者的工作,以便大家能更好地了解青年学者的研究。感兴趣的老师同学也强烈欢迎和本人联系,撰写文稿介绍自己的工作,共同为统计学的发展做出自己力所能及的努力。

在这个信息爆炸的时代,不同来源的数据越来越多。这使得我们有机会综合不同来源的信息进行更有效的推断与决策。但与此同时,不同来源的数据的质量却参差不齐,有些甚至可能带有误导性的偏差。在引入更多的数据来源时很可能会引入一些有偏的数据来源。如果不加选择地对不同来源的信息进行简单的整合,可能导致最终的结论出现严重的偏差。本文介绍一种对有偏数据来源稳健的数据融合方法,来从各种繁杂的数据来源中提取有用的信息从而得出尽可能准确的结论。

稳健估计

考虑 维参数 的估计问题。假设有 个不同的数据来源,每个数据来源给出 的一个估计。对于 ,记第 个数据来源的估计为 。我们假设有些数据来源给出的估计是相合的,并将这些数据来源称作无偏数据来源。同时可能有一些有偏的数据来源给出不相合的估计量,而我们不知道哪些数据来源是无偏的哪些是有偏的。传统的荟萃分析使用 的加权平均来估计 。这样的估计对有偏差的数据稳健性较差。相比于均值,中位数对于数据的扰动更为稳健。直观来讲,只要一组估计中有一半以上是相合的,那么这组估计的中位数就应该是一个相合估计。受此想法的启发,为了提高稳健性,我们提出使用 的几何中位数

来估计 ,这里 代表欧几里得范数。注意几何中位数并不是简单地对各个分量取中位数,而是考虑把每个数据源的估计看作一个整体,通过最小化到不同估计的欧氏距离的和得到的。使用几何中位数可以把每个估计量不同分量的信息综合起来以判断相应的数据来源是否有偏。这使得即便有偏数据来源的个数大于 ,只要不同有偏来源偏差的方向不相同, 仍可以相合估计 。为了进一步提高方法的效率和准确性,还可以考虑对不同的数据源进行加权处理,这里不再赘述。

稳健与效率

尽管 可以相合估计 ,它的收敛速度与估计效率一般无法达到最优。我们在文中给出了具体的例子来说明这一现象。本节我们引入一个新的估计方法来解决这一问题。

首先,我们假设每个数据来源的 都是渐近正态的,并且我们知道哪些数据来源是无偏的。在这种情况下,基于所有无偏数据来源的最有效估计是逆方差加权估计量

这里 是无偏数据来源的指标集 的渐近协方差阵。然而,由于无偏数据来源的指标集 未知,因此 在实际中是不可行的。为了定义实际中可行的估计量,我们考虑所有 个数据来源,并为每个数据来源引入一个偏差参数 。我们试图使用这个偏差参数消除有偏数据来源对最终估计的影响。这样一来我们得到目标函数

然而我们无法通过最小化该目标函数来获得 的估计,因为无论 取什么值,只要取 ,该目标函数的取值都能达到最小。

注意到对于无偏的数据来源来说,它的偏差向量应该为 。因此我们对偏差参数加上正则项来将无偏来源对应的偏差参数惩罚为 ,同时尽量不对有偏来源的偏差参数施加限制以保证偏差参数可以充分消除有偏来源的影响。为了达到这一目的,我们利用初始估计 来给正则项加权并得到目标函数

通过最小化该目标函数可以得到最终的估计量







请到「今天看啥」查看全文