谈到数据挖掘,深度学习是一个绕不开的话题。作为大数据挖掘领域的顶级专家,美国德州农工大学数据挖掘实验室主任胡侠教授也分享了自己的最新研究成果。
胡侠教授谈到,深度学习的发展给各行各业的发展都带来了许多便利,但如果无法解决深度学习算法的可解释性问题,它的价值就会大大受限。
比如在医疗保险领域,小诊所的医生可能会和病人联合起来骗保,因此保险公司会用深度学习技术分析某一个理赔事件与其他理赔事件的差异。不过我们不能依据某一个理赔事件不同于其他事件就判定它是骗保,而是还要交由专家来复核。在保险行业,一桩理赔可能涉及上千页文档,复核起来难度非常大,因此算法必须将问题具体定位到某一页文档,这就涉及到算法的可解释性。
为了解决深度学习算法的可解释性问题,胡侠教授做了大量研究,并提出了三个建设性的解决方案:一是在深度学习算法的结构里加入一些可解释性的元素,这种方案允许用户根据自身业务灵活调整模型结构,但对模型设计能力的要求比较高;二是不改变模型的原有结构,重新建一个模型来对其进行检测;三是对模型预测的结果进行解释。
胡侠教授介绍,今年暑假之后他所在的实验室将推出一个名为XDeep的Python Package ,里面将包含以上三种深度学习可解释性方案的开源代码。
除了算法的可解释性,机器学习的自动化也至关重要。自动机器学习主要带来了两重价值:一是帮助没有很强数据科学背景的用户更好地利用AI这一工具;二是帮助专业的数据科学家提高效率,毕竟现实生活中千变万化,光靠科学家应付不过来。
胡侠教授团队在自动深度学习模型的生成过程中引入了贝叶斯优化技术,只需要极少量数据就能取得很好的效果;同时还开发了一个叫做Autokeras的自动深度学习系统。