专栏名称: 中国地理资源期刊网
致力于促进和服务于中国地理科学的创新与发展。
51好读  ›  专栏  ›  中国地理资源期刊网

违背不相关性假设对 TC 方法精度的影响

中国地理资源期刊网  · 公众号  ·  · 2024-11-22 12:00

正文



引用格式: 谈松林,王洁,季静静,等.违背不相关性假设对Triple collocation方法精度的影响[J].地球信息科学学报,2024,26(3):591-603.[Tan S L, Wang J, Ji J J, et al. Investigating the impact of violations in orthogonality and zero cross-correlation assumption upon the accura cy of Triple Collocation methods[J]. Journal of Geo-information Science, 2024,26(3):591-603. ]
DOI:10.12082/dqxxkx.2024.230502
一、文章简述

Triple  Collocation(TC)方法是一种可以在未知观测值的“真值”情况下,仅通过3个独立观测样本两两比对,就能推测出各观测值不确定性的方法。该方法的使用需要一定的前提条件:线性误差形式假设与2组不相关性假设。在实际使用中,该方法的这三条假设难以完全满足,尤其是2组不相关性假设。根据现有研究,无法得知在这些假设遭受不同程度的违背时,会对方法推测结果究竟产生什么样的影响?本文主要针对违背2组不相关性假设与结果误差之间的关系展开研究。

针对上述问题,本文做了如下工作:1.通过虚拟样本实验生成了多组不同违背程度的样本,以定量评估不同程度的假设违背对方法结果的影响。2.在上述虚拟样本实验中发现一个现象:当不相关性假设的违背处于某个特定关系时,TC方法结果的误差会突然大幅度增加。这一现象在以往的研究中没有被重视,我们将其简称为“异常点“。3.使用数学推导结果解释了异常点出现的原因。4.针对异常点,我们提出了两种可能的消除方法,并在虚拟样本和实际数据中进行了验证。

生成虚拟样本的方法


二、关于TC方法假设违背与异常点现象的问与答:

Q:TC方法的适用条件是什么?在哪些领域可以应用?

A:TC方法是一种严谨的数学方法。只要在线性误差假设的基础上, 满足 对于同一观测对象的三组观测样本“相互独立”就可以使用。准确来说,这里的“相互独立”在数学上表现为满足2组不相关性假设,即随机误差互不相关和随机误差与真值不相关。本文正是研究:如果不同程度地违背这2组不相关性假设对方法精度会产生怎么样的影响?通俗来说就是:如果当这三组观测样本不够“相互独立”时,对方法精度会产生怎么样的影响?

实际应用过程中,TC方法的特色是:当我们想观测一个对象但测不准,手头只有几组不同的观测值,不知道实际的“真值”却又想知道这些观测值的不确定性。就可以通过TC方法两两比对来推算。近些年,TC方法广泛应用于地球科学观测数据中,例如土壤湿度、蒸发、降雨、风场、海浪波高等数据;同时,在金融、核物理领域也有应用。只要能符合假设条件就能使用。


Q:违背2组不相关性假设对TC方法结果的影响是什么样的?

A:当对“随机误差互不相关性假设”的违背程度增加时,方法的结果误差会相应地呈线性增加;当对“随机误差与真值不相关性假设”的违背程度增加时,方法的结果误差会相应地呈平方倍数增加。但当不相关性假设的违背处于某个特定关系时,TC方法结果的误差会突然大幅度增加,这就是后文提到的“异常点”。

图注:实验1条件是指仅控制对“随机误差互不相关性假设”的违背程度进行变化;实验10条件与实验1相反,仅控制对“随机误差与真值不相关性假设”的违背程度进行变化。纵坐标大小表示方法结果的误差大小。


Q:在TC方法的实际使用中,什么时候容易出现异常点?是否需要时刻警惕异常点干扰方法的结果?

A:当其中两组样本的相关性与另一组样本的相关性产生比较大的差异时就容易出现异常点。比如:使用三组遥感或再分析数据进行计算的时候,如果这三组数据中的两组由于使用了某些相同的方法或原始数据,其中两组表现出远高于另外一组的相关性时,就容易出现异常点。有趣的是,如果这三组观测样本较某一误差同时产生了相关性时,比如都使用了相同的算法或某一原始数据,反而不容易出现异常点。因为该方法将这一误差识别成了相同的“真值”。

没有必要时刻警惕异常点干扰方法结果。文中对异常点出现的概率做了模拟:对于三组独立性较好的样本,异常点出现的概率是很低的。哪怕三组样本独立性较差,对少数几组(n<50)样本使用TC方法时,正数的异常点出现的概率也不高。但当对大量样本使用TC方法时,比如试图评估某一格点数据观测不确定性的空间分布时,对一片区域中的每个格点依次进行计算,这时异常点出现的概率就较大。而且,实际使用中多组格点数据一般都是不同的遥感或再分析数据,由于这些数据中的算法或测量方式具有一定的内部相关性,异常点出现的概率就大幅度地增加了。整体而言,还是更建议在实际计算中,直接使用文中的改进方法2:约束缩放系数的大小。这种方法仅在异常点出现时起作用,正常情况下与传统TC方法的计算结果相同,有利无弊。

图注:实验1条件是指仅控制对“随机误差互不相关性假设”的违背程度进行变化;实验10条件与实验1相反,仅控制对“随机误差与真值不相关性假设”的违背程度进行变化。纵坐标大小表示方法结果的误差大小。


Q:当异常点出现时,有什么表现?出现后,如何消减其影响?

A:值得庆幸的是,异常点往往会以负值的形式出现,实际使用中大多数情况会出现计算结果为负或算不出结果的现象,这也是这一现象之前没有被重视以及上文中说没有必要时刻担心异常点干扰方法结果的原因。当异常点以正值出现时,往往会表现为一个离群的异常值。

实际数据的异常点出现形式


异常点的出现还是会干扰数据分析的正常流程,如果和其他模型进行耦合,异常点甚至会影响其他模型的计算结果。为了消减异常点的影响,我们在文中提出了两种改进方法:方法1从根源上规避了异常点的出现,但对假设违背更敏感,实际使用中结果精度损失较大;方法2仅异常点出现时进行修正,保留了TC方法原始的精度与稳定性,更推荐使用。这两种方法已在github上共享,链接见文章中。


Q:近年来更为先进的基于工具变量的方法(如IVs、IVd)是否也存在异常点的现象吗?消减异常点的方法是通用的吗?

A:虚拟样本实验中存在,但实际使用中不常见。根据本文研究,异常点的出现是由于对缩放系数的错误估计,工具变量方法调整了缩放系数的估计方式,并引入了自不相关性假设,改变了异常点出现的条件,具体结论还需要进一步的研究。就目前经验而言,对于IVd方法,真实数据的自相关性特征可能正好规避了IVd方法容易出现异常点的区域,实际使用中出现的概率比较低;但IVs方法由于结构问题,出现异常点的概率较大。但在实际使用中,这又回到了上文问题3的讨论:少量样本使用无需担心,但大量样本使用的情况下还是加入缩放系数的限制更为保险。

消减异常点影响的方法是通用的,尤其对于改进2。异常点的出现是由于对缩放系数的错误估计,而如今的TC类方法都需要对缩放系数进行估计。限制缩放系数的方法具有普适性,而且这种改进方法只在异常点出现时起作用,正常情况下不影响计算结果。


作者简介




王洁 副教授

南京信息工程大学水文与水资源工程学院院长助理、系主任,主要从事水文气象灾害预警、水文模型开发、气候变化与水循环、山洪灾害预报等方面的科研工作,兼任国际水文协会中国委员会陆气关系分委会委员,荣获河北省科学技术奖、中国三农科技服务金桥奖等省部级奖项10项,近年来主持国家自然科学基金、河北省科技厅重点研发项目、江苏省水利科技项目以及省市水文局与气象局科研项目20余项。在国内外核心期刊上发表学术论文50余篇,参编多本专业专著教材,为Water Resources Research、Journal of Hydrology等期刊的审稿专家。

谈松林 硕士研究生

南京信息工程大学硕士研究生,主要研究方向TC方法及其与水文模型的耦合。


全文请在中国知网或学报官网下载

























































































请到「今天看啥」查看全文