本文约1000字,建议阅读5分钟
我们提出并研究了一种对数值数据的不确定解释,并将其应用于基于树的模型,形成了一种新型模糊决策树,称为核密度决策树(KDDTs)。
受到人工智能(AI)在高成本和安全关键应用中的潜力,以及最近人工智能在我们日常生活中日益普及的影响,可信赖的人工智能作为一个广泛的研究领域日益受到重视,涵盖了可解释性、鲁棒性、可验证安全、公平性、隐私、问责等主题。这在简单、透明的模型与复杂、黑箱模型之间造成了一种紧张关系,前者具有固有的信任相关好处,而后者在许多任务上的表现则无与伦比。为了弥补这一差距,我们提出并研究了一种对数值数据的不确定解释,并将其应用于基于树的模型,形成了一种新型模糊决策树,称为核密度决策树(KDDTs),它具有更好的性能、增强的可信特性和更广泛的实用性,使得这些树可以应用于更广泛的领域。我们将本论文的贡献分为三大支柱。
第一支柱是鲁棒性和验证。不确定解释通过考虑数据中的不确定性,并更一般地作为对模型表示的函数的一种正则化,可以改善模型在各种鲁棒性概念方面的表现。我们展示了它在应对噪声特征和噪声标签方面的鲁棒性,这在现实世界数据中很常见。接下来,我们展示了如何通过随机平滑理论有效地实现可验证的对抗鲁棒性。最后,我们讨论了相关主题的验证,并提出了第一个模糊决策树的验证算法。
第二支柱是可解释性。虽然决策树普遍被认为是可解释的,但基于树的模型的良好性能通常仅限于表格数据,并且需要特征工程,这增加了设计工作量,同时集成方法则大大降低了相较于单棵树模型的可解释性。通过利用KDDTs的高效拟合和可微性,我们提出了一种学习参数化特征变换的系统。通过选择可解释的特征类并应用稀疏正则化,我们可以获得具有竞争性能的紧凑单树模型。我们展示了其在表格数据、时间序列和简单图像数据上的应用。
第三支柱是务实的进展。半监督学习(SSL)是由标签成本的高昂而驱动的,从混合的标记和未标记数据中学习。树的半监督学习通常仅限于黑箱包装方法,而这并不适合树。我们提出了一种基于我们对数据的不确定解释的新颖内在SSL方法。联邦学习(FL)是由数据共享限制驱动的,通过通信模型从分布式数据中学习。我们引入了一种基于函数空间正则化的新FL算法,它借用了我们不确定解释形式中的概念和方法。与先前的FL方法不同,它支持非参数模型,并在温和的假设下具有收敛保证。最后,我们展示了我们的FL算法还提供了一种简单的集成合并实用工具。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU