专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

线上 | UCLA在读博士生赵洁玉：EMNLP2017最佳论文--减少机器学习模型的数据偏见问题

机器学习研究会 · 公众号 · AI · 2017-10-31 22:21

正文

11月2日（周四）中午1点，在将门技术社群，我们很开心邀请到自然语言处理顶会 EMNLP 2017 Best Paper的第一作者、UCLA在读博士生 赵洁玉 带来分享 如何减少机器学习模型的数据偏见问题 。主要通过结构化的预测模型来验证其中的性别歧视问题，并利用视觉语言相结合的任务进行具体的阐述。

温馨提示： 由于嘉宾人在美国，本次直播时间调整为北京时间 11月2日（周四） 中午1点 哦~

活动信息

▼

主题： EMNLP 2017 Best Paper ，减少机器学习模型数据偏见问题

时间：11月2 日（周四）13:00-14:30

地点：将门创投斗鱼直播间

分享提纲

▼

机器学习模型被广泛的用于信息提取等系统的构建中，在训练这些模型的过程中，我们所采用的数据集很可能包含某些偏见数据，在利用这些数据进行模型构建时，会带来模型自身的偏见。例如，人们发现在广告推荐以及信用积分的系统中都存在着性别歧视的例子。人们提出一些方法来来达到较公平的binary classification目标，对于结构化的预测模型，缺少类似的研究。模型的偏见问题现已成为一个较火热的研究题目，相信未来会有更多减少bias的有效方法。

本次分享主要通过结构化的预测模型来验证其中的性别歧视问题，并利用视觉语言相结合的任务进行具体的阐述，具体内容包括：

数据集上的性别歧视问题。利用两个vision-and-language任务来展示其中存在的性别歧视问题。提供一种刻画偏见的量化方法，验证了原始的数据集中存在着性别偏见问题，并且在该数据集上所训练出的CRF模型会更进一步扩大该偏见。
消除扩大的性别偏见。首先将原始的推断问题转化为整数线性规划问题，然后添加线性的限制条件，然后利用拉格朗日松弛算法求解。这种方法可以让我们保留原有的训练过程而不必提供新的训练方法，并且这是一种通用的框架可以用在其他的结构化预测模型中。