大数据文摘作品,转载要求见文末
编译 | 曹翔,沈爱群,寒小阳
------------------
【福利
】2017云栖大会深圳峰会
3月27-29日,
37场分论坛,100余嘉宾
阿里云总裁、CTO及首席科学家到场分享
涵盖全球技术热点
点击文末
阅读原文
免费限时报名
报名详情见文末
------------------
集成建模是提高个人机器学习模型能力的有效方法。如果你想在任何机器学习竞赛排行榜排名靠前,或者你想改进你正在构建的模型,那么集成建模就是你接下来要走的路。
下面这张图片总结了集成模型的力量:
考虑到集成建模的重要性,我们决定给出40道题目测试我们社区关于集成建模的问题。测试包括整体建模的基础及其实际应用。
总共有1411名参与者注册了技能测试。如果你错过了测试,这里你将有有机会看看你能答对多少问题。
↓↓↓继
续往下读!
以下哪个算法不是集成方法的示例?
A.额外树回归/ Extra Tree Regressor
B.随机森林
C.梯度增强
D.决策树
解析:(D)
选项D是正确答案。在决策树的情况下,我们构建单个树并且不需要任何集成。
以下哪一项关于集成分类器的说法是正确的?
1.更“肯定”的分类器可以更坚定的投票
2.分类器关于空间的某一特定部分可以更“确定”
3.大多数时候,它的性能优于单个分类器
A. 1和2
B. 1和3
C. 2和3
D.以上所有
解决方案:(D)
在集成模型中,我们给具有较高精度的分类器赋予较高的权重。也就是说,这些分类器有更确信的投票。另一方面,较弱的模型对问题的具体领域肯那个更“擅长”。 通过对较弱模型的集成,我们可以聚合他们的可靠部分的结果。
最终的结果将比单个较弱模型的结果好得多。
以下哪些有关集成建模的好处是正确的?
1.更好的表现
2.广义模型
3.更好的可解释性
A. 1和3
B. 2和3
C. 1和2
D. 1,2和3
解析:(C)
1和2是集成建模的好处。 选项3是不正确的,因为当我们集成多个模型时,我们就失去了模型的可解释性。
对于为一个集成学习挑选基础模型,以下哪项是正确的?
1.不同模型可能掌握相同算法并且不同超参数
2.不同模型可能掌握不同的算法
3.不同模型可能掌握不同的训练空间
A. 1
B. 2
C. 1和3
D. 1,2和3
解析:(D)
我们可以遵循上面提到的任何或者所有选项来创建一个集成,由此发现选项D是正确的。
【判断】集成学习只适用于监督式学习方法。
A.正确
B.错误
解析:(B)
通常,我们将集成技术用于监督式学习算法。但是,你可以将集成用于非监督式学习算法。
参考资料(https://en.wikipedia.org/wiki/Consensus_clustering)。
【判断】当模型中存在显著的多样性时,集成将产生坏的结果。
注意:所有独立的模型都有有意义的、良好的预测。
A.正确
B.错误
解析:(B)
集成是一门将多种学习者(个体模型)组合在一起以提高模型的稳定性和预测能力的学问。因此,创建多样化模型的集成是得到更好的结果的非常重要的一个因素。
下面哪些关于在集成建模中使用的较弱模型是正确的?
-
1. 他们有比较低的方差,而且他们通常不会过度拟合
-
2. 他们有很高的偏差,所以他们不能解决困难的学习问题
-
3. 他们有很大的差异,并且他们通常不会过度拟合
-
A. 1和2
-
B. 1和3
-
C. 2和3
-
D. 以上都不是
解析:(A)
能力较弱的学习者(模型)对于问题的某一特定部分都比较确定。因此,低方差和高偏差的能力较弱的学习者往往不会过度拟合。
【判断】分类器的集成可能或可能不比其中任何一个独立模型更准确。
A. 正确
B. 错误
解析:(A)
通常,集成将会改进模型,但它不一定百分百正确。 因此,选项A是正确的。
【判断】如果你使用一个不同基本模型的集成,是否有必要调整所有基本模型的超参数以提高整体表现?
A. 是
B. 否
C. 无法确定
解析:(B)
调整是不必要的。能力较弱的学习者(模型)的集成也可以产生一个好的模型。
一般来说,如果独立基本模型____________,集成方法的效果就更好。
注意:假设每个独立的基本模型有大于50%的精确度。
A.预测之间的相关性较低
B.预测之间的相关性较高
C.相关性对集成输出没有任何影响
D.以上都不对
解析:(A)
集成建模成员之间较低的相关性可以提高模型的误差校正能力。所有在集成建模时,优选使用具有低相关性的模型。
在选举中,N个候选人相互竞争,人们对候选人投票。选民投票时互不沟通。
下面的集成方法中哪一个类似于上面讨论的选举程序?
提示:人就像集成方法中的基本模型。
A.Bagging
B.提升/Boosting
C.A或B.
D.以上都不是
解析:(A)
在bagging集成中,各个模型的预测不会彼此依赖。所以A选项是正确的。
假设给你基于'n'个不同的模型(M1,M2,…, Mn)对测试数据给出'n'个预测。下列哪些方法可以用于组合对这些模型的预测?
注意:我们正在处理一个回归问题
1.中位数;2.产品;3.平均;4.加权总和;5.最小和最大;6.广义平均规则
A. 1,3和4
B. 1, 3和6
C. 1, 3, 4和6
D.以上所有
解析:(D)
所有上述选项都是用于聚合不同模型的结果的有效方法(在回归模型的情况下)。
假设,您正在处理一个二分类问题。并且有3个70%的精确度的模型。
如果你想使用多数表决方法来集成这些模型。那你能得到的最大精确度是多少?
A. 100%
B. 78.38%
C. 44%
D. 70
解析:(A)
参考下表列出的模型M1,M2和M3。
实际输出
|
M1
|
M2
|
M3
|
输出
|
1
|
1
|
0
|
1
|
1
|
1
|
1
|
0
|
1
|
1
|
1
|
1
|
0
|
1
|
1
|
1
|
0
|
1
|
1
|
1
|
1
|
0
|
1
|
1
|
1
|
1
|
0
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
0
|
1
|
1
|
1
|
1
|
0
|
1
|
1
|
1
|
1
|
0
|
1
|
如果你想使用多数表决来集成这些模型。你能得到的最小精确度是多少?
A.总是大于70%
B.总是大于等于70%
C.可能小于70%
D.以上都不是
解析:(C)
参考下表列出的模型M1,M2和M3。
实际输出
|
M1
|
M2
|
M3
|
输出
|
1
|
1
|
0
|
0
|
0
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
0
|
0
|
0
|
1
|
0
|
1
|
0
|
0
|
1
|
0
|
1
|
1
|
1
|
1
|
0
|
0
|
1
|
0
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
我们如何对一个集合中的不同模型的输出分配权重?
1.使用算法返回最佳权重;
2.使用交叉验证选择权重;3.给更精确的模型赋予高权重
A. 1和2
B. 1和3
C. 2和3
D.以上所有
解析:(D)
以上所有决定集成中单个模型的权重的选项都是正确的。
下列哪一个关于平均集成的选项是正确的?
A.它只能用于分类问题
B.它只能用于回归问题
C.它既可以用于分类问题也可以用于回归问题
D.以上都不是
解析:(C)
在分类和回归中都可以使用平均集成。在分类中,您可以对预测概率进行平均,而在回归中,您可以直接平均不同模型的预测。
假设你对5个测试观察给出了预测。
预测= [0.2,0.5,0.33,0.8]
以下哪项是这些预测的平均产出排序?
提示:您正在使用最小 - 最大缩放
A. [0.,0.66666667,0.333333333,1.1]
B. [0.1210,0.666666667,0.95,0.33333333]
C. [0.1210,0.666666667,0.333333333,0.95]
D.以上都不是
解析:(A)
可以应用以下步骤来获取选项A的结果
1.给出预测的排名
2.对这些排名使用最小最大缩放比例
你可以在python中运行以下代码来获得所需的结果。
在上述快照中,线A和B是关于2个模型(M1,M2)的预测。 现在,你想要应用一个集成,通过使用加权平均的方法聚合这两个模型的结果。如果你对模型M1和M2分别赋予0.7, 0.3的权重,那么下面的哪一条线更有可能是这个集成的输出。
A) A
B) B
C) C
D) D
E) E
解析:(C)
以下哪项关于加权多数投票的说法是正确的?
1.我们想给表现更好的模型赋予更高的权重;
2.如果对较差模型的集体加权投票高于最佳模型,那么较差的模型可以推翻最佳模型;
3.投票是加权投票的特殊情况
A. 1和3
B. 2和3
C. 1和2
D. 1,2和3
E. 以上均不
解决方案:(D)
所有的说法都是正确的。
假设在一个分类问题中,对于以下三个模型,你得到了以下概率:M1,对于测试数据集的五个观察结果。
M1
|
M2
|
M3
|
Output
|
.70
|
.80
|
.75
|
|
.50
|
.64
|
.80
|
|
.30
|
.20
|
.35
|
|
.49
|
.51
|
.50
|
|
.60
|
.80
|
.60
|
|
如果概率阈值大于或等于0.5归为类别“1”或者概率阈值小于0.5归为类别“0”,那么下列哪个将是这些观察的预测类别?
注意:你正在对三种模型应用平均方法来集成给定的预测。
A.
M1
|
M2
|
M3
|
Output
|
.70
|
.80
|
.75
|
1
|
.50
|
.64
|
.80
|
1
|
.30
|
.20
|
.35
|
0
|
.49
|
.51
|
.50
|
0
|
.60
|
.80
|
.60
|
1
|
B.
M1
|
M2
|
M3
|
Output
|
.70
|
.80
|
.75
|
1
|
.50
|
.64
|
.80
|
1
|
.30
|
.20
|
.35
|
0
|
.49
|
.51
|
.50
|
1
|
.60
|
.80
|
.60
|
1
|
C.
M1
|
M2
|
M3
|
Output
|
.70
|
.80
|
.75
|
1
|
.50
|
.64
|
.80
|
1
|
.30
|
.20
|
.35
|
1
|
.49
|
.51
|
.50
|
0
|
.60
|
.80
|
.60
|
0
|
D. None of these(以上都不是)
解析:(B)
取每个观察的每个模型的预测的平均值,然后应用阈值0.5就可以得到答案B。
例如,在模型(M1,M2和M3)的第一次观察中,输出是0.70,0.80,0.75,取这三个数的平均值得到0.75,这大于0.5,意味着该观察属于类别1。
如果概率阈值大于或等于0.5归为类别“1”或者概率阈值小于0.5归为类别“0”,那么下列哪个将是这些观察的预测类别?
A.
M1
|
M2
|
M3
|
Output
|
.70
|
.80
|
.75
|
1
|
.50
|
.64
|
.80
|
1
|
.30
|
.20
|
.35
|
0
|
.49
|
.51
|
.50
|
0
|
.60
|
.80
|
.60
|
1
|
B.
M1
|
M2
|
M3
|
Output
|
.70
|
.80
|
.75
|
1
|
.50
|
.64
|
.80
|
1
|
.30
|
.20
|
.35
|
0
|
.49
|
.51
|
.50
|
1
|
.60
|
.80
|