【CMU博士论文】使用数据不确定解释的可信学习

数据派THU · 公众号 · 大数据 · 2024-11-20 17:10

正文

来源：专知
本文约1000字，建议阅读5分钟




    
我们提出并研究了一种对数值数据的不确定解释，并将其应用于基于树的模型，形成了一种新型模糊决策树，称为核密度决策树（KDDTs）。

受到人工智能（AI）在高成本和安全关键应用中的潜力，以及最近人工智能在我们日常生活中日益普及的影响，可信赖的人工智能作为一个广泛的研究领域日益受到重视，涵盖了可解释性、鲁棒性、可验证安全、公平性、隐私、问责等主题。这在简单、透明的模型与复杂、黑箱模型之间造成了一种紧张关系，前者具有固有的信任相关好处，而后者在许多任务上的表现则无与伦比。为了弥补这一差距，我们提出并研究了一种对数值数据的不确定解释，并将其应用于基于树的模型，形成了一种新型模糊决策树，称为核密度决策树（KDDTs），它具有更好的性能、增强的可信特性和更广泛的实用性，使得这些树可以应用于更广泛的领域。我们将本论文的贡献分为三大支柱。

第一支柱是鲁棒性和验证。不确定解释通过考虑数据中的不确定性，并更一般地作为对模型表示的函数的一种正则化，可以改善模型在各种鲁棒性概念方面的表现。我们展示了它在应对噪声特征和噪声标签方面的鲁棒性，这在现实世界数据中很常见。接下来，我们展示了如何通过随机平滑理论有效地实现可验证的对抗鲁棒性。最后，我们讨论了相关主题的验证，并提出了第一个模糊决策树的验证算法。

第二支柱是可解释性。虽然决策树普遍被认为是可解释的，但基于树的模型的良好性能通常仅限于表格数据，并且需要特征工程，这增加了设计工作量，同时集成方法则大大降低了相较于单棵树模型的可解释性。通过利用KDDTs的高效拟合和可微性，我们提出了一种学习参数化特征变换的系统。通过选择可解释的特征类并应用稀疏正则化，我们可以获得具有竞争性能的紧凑单树模型。我们展示了其在表格数据、时间序列和简单图像数据上的应用。

第三支柱是务实的进展。半监督学习（SSL）是由标签成本的高昂而驱动的，从混合的标记和未标记数据中学习。树的半监督学习通常仅限于黑箱包装方法，而这并不适合树。我们提出了一种基于我们对数据的不确定解释的新颖内在SSL方法。联邦学习（FL）是由数据共享限制驱动的，通过通信模型从分布式数据中学习。我们引入了一种基于函数空间正则化的新FL算法，它借用了我们不确定解释形式中的概念和方法。与先前的FL方法不同，它支持非参数模型，并在温和的假设下具有收敛保证。最后，我们展示了我们的FL算法还提供了一种简单的集成合并实用工具。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU