专栏名称: 郭老师统计小课堂
介绍统计学课程的知识,方法和思想
目录
相关文章推荐
河北交通广播  ·  【992 | 刚刚】中国男篮大胜日本队! ·  8 小时前  
河北交通广播  ·  【992 | ... ·  昨天  
河北交通广播  ·  【992 | 刚刚】官宣延期!至3月30日 ​​​ ·  昨天  
保定晚报  ·  今天的晚报,来了! ·  昨天  
河北交通广播  ·  【992 | ... ·  2 天前  
51好读  ›  专栏  ›  郭老师统计小课堂

小有成就 | 高维低秩矩阵的稳健估计

郭老师统计小课堂  · 公众号  ·  · 2024-04-22 12:58

正文


Matrix lasso通过最小化带核范数惩罚的平方损失函数,为高维低秩矩阵估计提供了一个普遍适用的估计方法,但其估计效果会受到厚尾分布的不利影响。针对这一问题,本文建立了稳健的正则化估计方法,将Wilcoxon型秩损失函数与核范数惩罚相结合,形成了一个统一的高维低秩矩阵稳健估计框架,提出了调节参数的数据驱动选择方案,其可用于矩阵回归、多元回归和矩阵填补等多个问题。理论上,在非常宽泛的误差分布假设下(包含正态、 、柯西、对数正态等分布),证明了新方法具有最优的非渐近估计误差速率。

1. 背景介绍

高维背景下对低秩矩阵的估计在过去的二十年中受到了广泛关注和深入研究。低秩矩阵模型的应用包括推荐系统、图像修复、压缩感知、传感器定位等等。假设我们观察到数据 ,服从如下线性算子模型:

其中 是响应变量, 是属于某个线性空间 的协变量向量或矩阵, 是随机误差, 是对于每个参数均保持线性运算的双线性算子, 是感兴趣的矩阵参数。对于参数 和半径 ,我们假设 属于集合

其中 的第 大的奇异值, .

这个模型使我们能够以统一的方式处理以下几个重要的低秩矩阵估计问题,包括矩阵回归(矩阵压缩感知)[1]、多元线性回归[2]和矩阵填补[3]等。具体如下:

例子1.1(矩阵回归) 矩阵回归模型是一种对观测未知矩阵 的随机线性投影的建模。具体来说,

其中 是一个随机矩阵,使得 是一个线性投影。

例子1.2(多元回归) 多元回归的目标是估计一个将协变量 映射到多维输出向量 的线性预测函数。更具体地,考虑多元线性模型

其中 .

例子1.3(矩阵填补) 矩阵填补问题可以被写成与矩阵回归模型(1.2)相同的形式,其中矩阵 表示矩阵 中哪些位置被观测到,它们被假设来自于

这里 表示第 维单位向量。矩阵填补的目标是从 元素的不完全观测中重构其所有元素。

对模型(1.1)的估计,文献中采用最广泛的方法之一是基于权衡目标矩阵对数据的拟合优度和模型复杂度的正则化方法,即求解

其中 中的凸参数空间, 是经验损失函数, 是调节参数, 是适当的惩罚函数。在这一范式下,应用最广泛的估计方法之一是matrix lasso[4],它考虑了平方损失和核范数惩罚或其变体。这类正则化方法在实际应用中通常面临两个挑战。一方面,尽管基于平方损失的方法在次高斯随机误差下可以对目标矩阵的估计速率达到最优,但对于厚尾或偏斜误差非常敏感。另一方面,正则化参数缺乏基于数据驱动并且有理论保证的选取方法。在现有低秩矩阵估计文献中,同时处理这两个问题的方法还未建立。

在本文中,我们提出了一种称为rank matrix lasso的稳健估计方案,可应用于统一的高维低秩矩阵估计框架中。它既具有对厚尾误差分布的稳健性,又具有数据驱动的调节参数选择的理论保证。

2. 方法

2.1 稳健估计方法

对于统一的高维低秩矩阵估计模型(1.1),我们通过最小化以下带惩罚的损失函数来估计

其中 表示 的核范数, 表示调节参数,损失函数定义为

其中 表示 中的秩, 是由 生成的一组得分,其中 是定义在区间 上的非减得分函数,经过标准化确保

多元秩的损失函数 首先由[5]提出,用于处理低维多元线性模型的稳健估计问题。在本节中,我们考虑在多元秩损失函数中使用Wilcoxon得分

以此在低秩矩阵估计问题中同时实现估计的稳健性和高效率。在后面的部分中,我们把这种用于高维低秩矩阵估计问题的新方法命名为 rank matrix lasso

2.2 调节参数的选取

以计算有效的方式为正则化方法选择调节参数 至关重要,因为不同的 可能会产生完全不同的模型。传统的交叉验证(CV)或信息准则在计算上效率低下,只能通过暴力搜索来给出适当的 的值,并且缺乏相应的理论保证。这里我们利用秩损失的完全枢轴性,来克服高维矩阵估计问题中调节参数选择的困难。

中的秩。记 根据 的定义,直接计算得出 的梯度函数在 处的取值为

其中 的第 个元素是 ,这里 . 注意到 的联合分布服从 上所有排列上的均匀分布。因此,以协变量 为条件, 的条件分布是已知的。

根据理论分析,当

rank matrix lasso估计量具有几乎最优的误差界限 . 这里 分别表示 的算子范数和Frobenius范数。较大的 会增加该事件的概率,但会对估计准确性产生不利影响。这表明最好选择一个小的 ,同时使得事件(2.3)以高概率成立。受到[6]的启发,我们引入一个新变量 并建议取 等于

其中 表示以协变量 为条件, 条件分位数。如上所述, 的分布与随机噪声分布无关,所以 不依赖于任何未知总体量及其估计。因此可以通过在给定 下,从 上所有排列上的均匀分布中重抽的模拟方法来获得 .

3. 理论性质

首先,我们给出定理3.1作为建立 收敛速度的指南。然后,我们可将此定理分别应用于三个特定问题:矩阵回归、多元回归和矩阵填补。这里集合 是一个根据具体设置确定的凸参数空间,我们用 表示损失函数 的总体版本。

定理 3.1 假设 并且调节参数 满足 . 进一步假设,对任意的 , 有

对于某一正数 ,如果 ,那么我们有

该定理揭示了建立 收敛速率所需的三个主要条件。首先,我们需要 大于 . 其次, 是两个与模型参数







请到「今天看啥」查看全文