专栏名称: 郭老师统计小课堂
介绍统计学课程的知识,方法和思想
目录
相关文章推荐
鲁中晨报  ·  颜宁(山东人),拟获中国女性至高荣誉 ·  昨天  
鲁中晨报  ·  噩耗传来!已确认,遗体被找到 ·  昨天  
51好读  ›  专栏  ›  郭老师统计小课堂

异构感知的聚类分布式学习

郭老师统计小课堂  · 公众号  ·  · 2025-01-21 20:05

正文

作者介绍

陈远星 ,2022年毕业于厦门大学统计学与数据科学系,2022-2024于耶鲁大学生物统计系从事博士后研究,目前在清华大学丘成桐数学科学中心从事博士后研究。主要研究方向为高维数据分析、函数型数据分析、多源数据分析及分布式估计。目前已在JMLR、INFORMS Journal on Computing (UTD24)、JCGS、JMVA等期刊发表(含正式接收)论文多篇。

张庆昭 ,厦门大学经济学院统计学与数据科学系、王亚南经济研究院双聘教授,博士生导师,国际统计学会elected member。2013年获得中国科学院数学与系统科学研究院概率论与数理统计博士学位,先后在中国科学院大学和美国耶鲁大学进行博士后研究。中国现场统计学会高维数据分析学会理事、统计交叉科学研究分会常务理事、全国工业统计学理事、中国青年统计学家协会理事等。主要研究方向为高维数据分析、多源数据融合、复杂数据分析、图模型等,近年来在JASA、JBES、Biometrics、Statistica Sinica、Bioinformatics、Statistics in Medicine、《统计研究》等期刊发表多篇论文,先后主持国家自然科学基金2项,教育部人文社会科学基金1项和全国统计科学研究重点项目1项。

马双鸽 ,耶鲁大学生物统计系教授,国际统计学会推选会员(ISI Elected Member, 2007),美国统计学会会士(ASA Fellow, 2013),2004年获得威斯康星大学统计学博士学位。2004-2006于华盛顿大学从事博士后研究。主要研究方向为生物统计、遗传流行病学、生存分析、高维数据分析等。担任Briefings in Bioinformatics、AISM等多个国际期刊主编或副主编。已在Nature Genetics、JASA、Annals of Statistics、Biometrika、Briefings in Bioinformatics等国际权威期刊发表论文数百篇。

方匡南 ,厦门大学经济学院统计学与数据科学系教授、博士生导师、耶鲁大学博士后,国家社科基金重大项目首席专家、国际统计学会elected member。主要研究领域为经济管理统计、统计机器学习、高维数据分析、健康医疗大数据等。入选国家级高层次青年拔尖人才、福建省高层次人才(A类)等。兼任全国工业统计教学研究会副会长、中国商业统计学会常务理事、中国统计教育学会常务理事、《统计研究》《数理统计与管理》《商业经济与管理》《调研世界》编委等。目前在JMLR、JoE、JBES、JCGS、Biometrics、Statistica Sinica、Bioinformatics、INFORMS Journal on Computing (UTD24)、《经济研究》《统计研究》《管理科学学报》《世界经济》等国内外权威期刊共发表学术论文100余篇,著有学术专著和教材等6部。主持了国家社科基金重大项目1项,国家自然科学基金3项,以及教育部人文社科、国家统计局重大项目等10多项纵向项目。获省部级以上科研奖项9项,其中一等奖2项。

今天为大家分享的是由清华大学陈远星、厦门大学方匡南和张庆昭、耶鲁大学马双鸽四位老师于2024年发表在Journal of Machine Learning Research上的文章《Heterogeneity-aware Clustered Distributed Learning for Multi-source Data Analysis》。

1. 背景介绍

多源数据广泛出现在众多的应用领域中,在多源数据中,个体层级的原始数据往往分布存放于多个独立的来源(每个来源称为“客户端”)。例如在金融研究中,一家大型商业银行的数据通常分布在多个独立的分行和支行中。而在基因组学研究中,针对一个科学问题,多个课题组往往独立地进行实验并得到不同的样本。整合来自多个来源的数据有助于提升模型的拟合效果(Liu等,2014),而现有的研究主要关注如何整合个体层级的原始数据(Tang和Song,2016;Huang等,2017)。这类整合分析方法尽管有效,但由于隐私保护的需要(原始数据难以获得),在实际中通常难以应用。在Facebook因隐私泄露造成巨大的经济损失之后(Kelleher,2018),隐私问题再次引发工业界和学术界的广泛关注。众多新兴行业(如智能医疗、金融科技和监控系统)需要开发特定的机器学习方法对其敏感数据进行分析,因此机器学习的发展需要充分考虑隐私保护(Liu等,2021)。

分布式学习(Distributed Learning)作为一种经典的隐私保护框架,旨在通过汇总所有客户端的概要信息来训练一个全局模型。概要信息提炼自原始数据,可以有效地替代原始数据在系统中进行传递,从而降低了隐私泄露的风险。根据迭代次数的不同,现有的分布式学习方法可分为两类:一次交互和多次迭代(Zhou等,2024)。一次交互方法只需在本地客户端与中央服务器之间进行一次信息传输。其中分治策略(Divide-and-Conquer)是最受欢迎的一种(Lee等,2017;Battey等,2018)。尽管一次交互的方法通信成本最低,但为了与基于所有原始数据的估计量具备相同的收敛速率,各客户端的样本量相对于客户端数量必须足够大(Wang等,2017)。为了放宽这一限制,学者们又提出了多次迭代方法,例如分布式近似牛顿法(Shamir等,2014)和替代似然法(Jordan等,2019)。此外,当数据量很大时,用汇总的数据(从各个客户端向中央服务器传输的原始数据)构建统计模型往往导致巨大的计算成本(Bhowmick等,2018)。然而在分布式框架下,汇总并整合较少的概要信息可以同时减轻通信交互和计算负担。上述的分布式方法均假设各个客户端共享相同的数据生成模型。这一假设尽管方便,但可能过于严格。传统的(基于原始数据)整合分析表明,数据源的多样性会导致数据异质性(即非独立同分布数据),因此需要不同的模型来拟合异质的数据(Tang和Song,2016;Huang等,2017)。在分布式学习的框架下,数据异质性问题引起了广泛关注。一个典型的例子是不同医院本地存储的电子健康记录(Electronic Health Records),这些记录属于病人的隐私数据,因此难以直接将原始数据对外传输。此外,不同医院的患者群体可能存在差异(体现在异质的结果-协变量关系上),因此需要在分布式框架下进一步考虑数据异质性(Liu等,2022;Duan等,2022)。由于数据异质性可能源于样本特征、数据收集技术和多个其他因素的差异(Ghosh等,2020),因此如何构建个性化分布式框架引起了越来越多的关注。

联邦学习(Federated Learning)作为一种流行的分布式学习范式,其更加关注协作过程中数据孤岛的问题(Kaissis等,2020;Liu等,2021)。它提供了一种新颖的方式,能够在不泄露客户隐私的情况下构建个性化模型(Zhang等,2021)。在联邦学习中,中央服务器与本地客户端之间一般需要多轮信息交互,以获得最终的模型估计。聚类联邦学习(Clustered Federated Learning)是联邦学习的一个特例,其旨在将客户端划分为多个子类,使得同一类中的客户端共享相同的模型参数,分属不同类的客户端则对应不同的模型参数(Ghosh等,2020;Marfoq等,2021)。这种异质性分析在计算机科学领域可能比在统计学中更为流行,并且在推荐系统和个性化广告投放等市场应用中至关重要(Ghosh等,2020)。从直观上看,假设并识别出客户端间的聚类结构有助于理解客户端之间的“相互关系”(同一类中的客户端更相似,彼此之间更紧密相关),并减少模型参数的数量。例如,不同的手机用户(客户端)群体可能关注不同的新闻话题,如政治、体育或时尚等。因此,深入理解类别内部的“相互关系”可以促进更准确的个性化推荐。

在分布式学习的统计文献中,数据异质性一般通过允许客户端具有特定模型来进行识别。例如,Zhao等(2016)提出了一种基于部分线性模型的异质性分布学习框架,其中假设非参数结构由所有客户端共享,而线性的参数则在客户端之间各有不同。Duan等(2022)对同质下的替代似然函数法进行拓展,在估计方程中允许客户端具有特异的参数。值得注意的是,这两项研究仅限于低维数据的情形。Cai等(2022)基于广义线性模型,在高维情形下通过汇总各客户端的概要统计量进行异质性分析。Tang等(2021)指出,允许所有客户端拥有各不相同的模型可能引入大量的冗余参数,从而对模型的估计和推断产生负面影响。

本文研究在隐私保护下对多源数据进行整合分析。具体而言,作者利用概要统计量(而非个体层级的原始数据)以避免隐私泄露,同时基于分布式学习框架构建参数模型。本文使用的概要统计量可以包括初始的参数估计量、梯度向量、海塞矩阵等内容。受到聚类联邦学习的启发,作者假设客户端之间可形成聚类结构,并且模型参数不再是因客户端而异,而是因类别而异,即同属一类的客户端共享相同的模型参数。此外,为了解决高维下的变量稀疏性,作者假设模型具有相同的稀疏结构(即相同的重要变量集合)。在方法论上,本文提出了一种整合聚类回归(Integrative Clustered Regression;ICR)方法,以进行参数估计、变量选择并同时识别聚类结构,该方法具有以下优点。首先,与假设同质模型的方法相比(Lee等,2017),它能有效地处理数据异质性。其次,与允许模型参数因客户端而异的方法相比(Zhao等,2016;Duan等,2022),它可以更好地理解客户端之间的相似性/差异性,并且通过减少模型参数来提高估计效果。第三,与现有的聚类联邦学习方法相比(Ghosh等,2020;Marfoq等,2021),它可以自适应地确定聚类的个数,并且识别的聚类结构对初始的聚类划分不敏感。最后,本文提出有效的优化算法,并建立严密的理论性质,为异质性分布式学习提供了新的研究思路。

2. 方法论

2.1 隐私保护下的整合分析

假设有 个独立的客户端,其中第 个客户端收集到 个观测值,总样本量为 。对于第 个客户端,令 分别为第 个观测值的响应变量和协变量向量,其中 的第一个元素固定为 来纳入截距项。相应地,令 分别表示第 个客户端的设计矩阵和响应向量。令 为事先设定的二次可导的损失函数,并定义真实的模型系数为

其中 是一个 维的系数向量, 表示整数 的索引集 。相应地,经验版本的局部和全局损失函数分别定义为

其中 是一个 的系数矩阵,其第 行为 。假设 形成了 的一个不重叠的聚类分割,并且来自同一类的客户端具有共同的系数向量。也就是说,给定 ,对于任何 ,都有 ,其中 是类别 的特定系数向量。此外,对于每个协变量,其在 个客户端中的系数可以视为一个组(Cai等,2022),从而形成 个协变量组。

为了同时进行模型估计、变量选择和客户端聚类结构的识别,作者首先考虑理想汇总(Ideal Pooling)策略下的目标函数:

其中,惩罚项 用于变量选择,而惩罚项 用于聚类。这里, 是惩罚函数(参数 调节凹性程度), 范数, 是两个非负的调节参数。

在隐私保护的约束下,客户端在个体层级的原始数据通常无法获得,因此公式(1)中的目标函数 在实际中无法使用。为了解决这个问题,作者采用了He等(2016)和Zhu等(2021)的最小二乘近似(Least-Square Approximation)方法,并提出如下的目标函数:

其中 是第 个客户端的局部估计量, 是海塞矩阵。He等(2016)建议在 的情况下采用普通最小二乘(OLS)估计量作为局部估计。而在高维情形下,OLS估计量是不可行的,一种“简单”的方法是用Lasso估计量来替代OLS估计量。然而,经典的有偏Lasso估计量在模型整合时会引入巨大的偏差,而去偏的Lasso估计量(van de Geer等,2014)计算成本很高。受到Cai等(2022)的启发,作者提出最小化以下的目标函数来得到ICR估计量:

其中 ,而 是梯度向量。这里,我们使用Lasso估计量作为 。惩罚函数可选SCAD(Fan和Li,2001)、MCP(Zhang,2010)等。本文在算法推导和数值研究中均采用MCP作为惩罚函数。值得注意的是,通过公式 (3)中的损失函数项,我们可以实现去偏的效果(无需实际使用计算代价昂贵的去偏Lasso估计量)。图1展示了ICR方法框架的示意图。该示意图包括基于各客户端的原始数据生成局部估计量,从本地客户端向中央服务器传输概要统计量,中央服务器进行信息整合并输出最终的估计量以指导后续的分析。

图1: 方法流程图

2.2 优化算法

作者基于Zou和Li(2008)提出的局部线性近似(Local Linear Approximation)策略来近似融合惩罚项,并提出了一种迭代算法。具体而言,在第 次参数迭代中,作者通过求解以下问题来更新系数:

其中 表示权重, 的导数。上述最小化问题等价于一个最小化等式约束的问题:

其中 是一个由辅助变量组成的 矩阵。这个优化问题等价于最小化如下的增广拉格朗日函数:

其中 是一个由对偶变量构成的 矩阵, 是一个小的正常数。根据Shimmura和Suzuki(2022),作者通过以下迭代过程来最小化目标函数

其中,作者利用近端梯度下降(Proximal Gradient)算法来最小化式子(4),具体过程参见Chen等(2024)。

3 案例分析

随着技术创新的出现,各类针对网站的网络攻击(通常表现为异常请求)很大程度妨碍企业运营或中断关键基础设施系统。在网站的运营过程中,系统生成的网络日志往往记录详细的访问信息,因此被广泛用于系统监控和入侵检测(也称为异常检测)系统(Hu等,2017;Guo等,2021; nal和Da ,2022)。大规模的网络日志通常存储在本地客户端上,为了防止访问信息的泄露,通常不允许将原始日志从本地客户端传输到中央服务器上。正如Guo等(2021)所指出的,一方面,只有一小部分原始日志包含有用的建模信息,因此传输大规模的原始日志是非常耗时且不必要的。另一方面,为了便于日志分析,原始日志有时需要传输到第三方机构进行分析,这增加了隐私泄露的风险。为了解决这个问题,Guo等(2021)采用了联邦学习来进行分布式环境下的异常检测。这项研究的一个局限是假设客户端之间是同质的。Hu等(2017)和 nal和Da (2022)考虑客户端之间的异质性,并构建因客户端而异的模型。然而,正如背景介绍中提及的,这种设定可能引入过多的冗余参数。在这个案例中,作者应用所提出的ICR方法,进一步考虑多源异质性和模型参数的估计精度,针对存储在多个接口(客户端)中的银行网站日志数据进行分析。

图2: 47个URL接口中异常请求的比例

在本案例中,请求的类型是二元响应变量,只能取值为“正常”(标记为0)或“异常”(标记为1)。目的是根据日志内容区分异常请求和正常请求,因而构成了一个二元分类问题。该日志数据总共有 个URL接口(客户端),每个接口的样本量从60到25,552不等,总样本量为 ,其中异常请求的整体比例为21.6%。在123个接口中,76个接口的异常请求比例均为50%,其余47个接口的异常请求比例从1.2%到75.9%不等。图2展示了这47个URL接口的异常请求比例,这些接口之间异常比例的显著差异表明数据可能存在异质性。本案例收集的日志数据以字符串的形式呈现,属于典型的非结构化数据。具体而言,每个请求日志包含接口名称和两个来自“POST”和“GET”访问的提交参数。此外,来自POST或GET访问的每个参数由一系列用“&”分隔的键值对组成。初始请求日志记录的具体样式可见文章附录的表15,作者以如下的方式提取其中的统计特征。首先,作者生成变量Gnum和Pnum,分别定义为GET和POST键值对的数量。其次,作者生成两个变量Glen和Plen,分别定义为GET和POST参数的总长度。第三,作者根据GET和POST参数中某些键值对的长度生成一系列的变量,记作 ,分别定义为第(x+1)个键值对的长度。最后,作者根据GET和POST参数中某些键值对的类型生成一系列变量,记作 ,分别定义为第(x+1)个键值对的类型。键值对有三种类型,即“na”、“str”和“num”,分别表示键值对缺失、字符串和数字。 为了进一步提取字符串的内在信息,作者将 - - 拼接成一串字符串,并拟合Skip-gram模型(一种流行的word2vec模型),以获得80维的连续词向量特征,记作 。总而言之,作者从日志数据中提取了 个变量进行后续的建模分析。

表1: 各种方法的系数估计和变量选择结果

在正式分析之前,作者对105个连续变量进行了标准化,使其均值为0,方差为1。本文提出的ICR方法识别出了五个包含不止1个客户端的类别,将其表示为 ,其类别大小分别为37、30、11、7和4。此外,还有34个接口各自独立成类。表1呈现了ICR方法和四种对比方法(ICFL、SHIR、SMA和DLSA)所识别的重要变量,其中DLSA方法识别了另外46个重要变量(由于空间限制,这些变量未在表1中列出)。对于ICFL方法,作者预先设定聚类数量为5或10,其对应的估计量分别用ICFL(5)和ICFL(10)表示。此外,由于空间限制,作者仅呈现ICFL(5)方法中与5个聚类对应的聚类特定参数 (聚类大小为47、39、25、9和3)。根据表1的结果可以发现,不同方法识别的聚类结构和变量选择有很大差异。此外,为了在两个ICFL方法中获得稀疏估计,作者设定0.1作为硬阈值进行系数截断。首先,本文提出的ICR方法和ICFL的两个方法均形成了高度不平衡的聚类结构,这种现象部分归因于数据异质性。从表1中可以看出,在ICR方法中,







请到「今天看啥」查看全文