专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
软件定义世界(SDX)  ·  AI博士NeurIPS现场崩溃后悔读博,NY ... ·  2 天前  
天池大数据科研平台  ·  一行代码,我优化掉了1G内存占用 ·  2 天前  
数据派THU  ·  基于Huffman树的层次化Softmax: ... ·  4 天前  
IDC咨询  ·  发展不及预期,GenAI+Data市场趋势分 ... ·  4 天前  
IDC咨询  ·  发展不及预期,GenAI+Data市场趋势分 ... ·  4 天前  
51好读  ›  专栏  ›  数据派THU

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

数据派THU  · 公众号  · 大数据  · 2024-12-25 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

我们展示了M-GAM在准确度上与现有方法相当或更优,同时相对于填补方法或简单地将指示变量纳入模型,显著提高了稀疏性。


许多重要的数据集包含缺失一个或多个特征值的样本。在存在缺失数据的情况下,保持机器学习模型的可解释性是一项挑战。对缺失值进行单次或多次填补会使得模型从特征到标签的映射变得更加复杂。另一方面,基于表示缺失的指示变量进行推理会引入大量的额外项,从而牺牲了稀疏性。我们通过M-GAM解决了这些问题,M-GAM是一种稀疏的广义加性模型方法,它结合了缺失指示变量及其交互项,同时通过ℓ0正则化保持了稀疏性。我们展示了M-GAM在准确度上与现有方法相当或更优,同时相对于填补方法或简单地将指示变量纳入模型,显著提高了稀疏性。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU