栗子 李根 假装发自 卢日尼基
量子位 出品 | 公众号 QbitAI
可能是由于人类(包括球王)预测不靠谱,前几届世界杯预测战况和冠军的任务,常常交给动物完成。
比如,章鱼哥保罗。
如果保罗活到现在,应该惊喜的发现,它的工作,现在有人工智能系统可以代替了。
这不,在2018俄罗斯世界杯马上开打之际,德国4位科学家联手打造了一个世界杯AI预测模型。
综合各种应有尽有的因素:国际足联排名、平均年龄、顶级联赛球员数量、国家人口比率、GDP、教练国籍等等,真真AI建模、大数据应用,云计算加持。轻轻松松,当前准确率不知比博彩公司高到哪里去。
最后他们郑重其事地推出结论:
西班牙胜率最大
。
只是万万没想到,比赛尚未开始,人类就给了AI意想不到的一击。正所谓人算不如云计算,云计算难料人使绊。就在世界杯开战前24小时,西班牙炒掉了带队2年的不败战绩主教练。
AI看了都傻眼。
不过这个AI模型就这样了吗?拿衣服。
这4位严谨德国科学家自然考虑到了可能存在的变量,在10万次比赛模拟后,他们认为:如果德国人打入四分之一决赛,那西班牙就呵呵了。
好一个神奇的AI。
讲科学
一般而言,大数据预测为导向的AI,最常使用的方法有泊松回归、排序算法以及随机森林,都old school,都比较经典。
而这次在综合比较了几种方法后,4位德国科学家决定主采用
随机森林
建模,该方法诞生于2001年,比起传统的回归和排序,思路新得一比,预测效果也更胜一筹。
更重要的是,随机森林附上排序算法里的一个协变量,再经过
合体进化
,就能变成更加强大的算法,甚至比博彩公司预测的还要准。
具体如何实现?
数据准备
要搞出这个AI,首先要来到
数据篇
,往届世界杯对战数据自然是题中之义,但光有比赛维度的数据又怎么够?
所以这个AI还把经济因素、球队实力、主场优势、球队结构,教练因素等纳入其中。
经济因素
参考人口和人均GDP 。前者参考各国人口数据,并与全球总人口对比 ,看球队所属国对全球人口增长的贡献。人均GDP则重在增长,用球队所属国的人均GDP,以及全球平均的人均GDP,来看2002至2014年的经济增长情况。
球队实力
也从两方面考量。一是历史进程,使用国际足联排名,可管窥球队过去4年的核心表现;二是博彩赔率,把博彩公司ODDSET提供的赔率,转换为球队胜率纳入模型。
主场优势
则有玄学意味。一看是否东道主(比如在韩国举办),二看是否与东道主来自同一大陆,三看属于国际足联六大足球协会 (CAF,AFC,UEFA,CONCACAF,OFC,CONMEBOL) 中的哪一个。
球队结构
重点针对默契度。共4项:1)最大队友数:每支国家队,在同一个俱乐部效力的队员最多和第二多的人数;2)平均年龄:每支国家队里,所有队员的平均年龄;3)欧冠队员数:每支国家队,进入欧冠或欧洲联盟杯半决赛的人数;4)海外队员数:每支国家队,在国外俱乐部效力的人数。
最后是
教练因素
。比如教练的年龄,以及在本队职教时间的长短,都被计算在内。另外,教练的国籍是否与职教的国家队归属一致,也是接近玄学的考量——但肯定没想过会有临阵换帅的情况。
综上,差不多每只参赛球队都会有16个维度的变量。
然后就可以进入竞技演化篇了。
算法模型
就像开头所言,这个预测AI核心主打算法模型是
随机森林
。
这种方法是Breiman在2001年提出的,如今已成了统计学模型和机器学习之间的桥梁。
法如其名,随机森林需要建起许多的决策树 (Decision Trees) ,让它们来预测每场比赛双方的进球数。
当然,系统要服用上文提到的所有变量。
然后,先让每一棵树都独立生长。
再把所有树的判断集合到一起,进而随机森林再做出的预测,这样就不容易有太多偏见。
其间关键所在,是把树与树之间的相关性降到最低——
第一,树并不是种在原始样本上,而是在有放回抽样 (BootStrap Sample) 的基础上生长的。
第二,在每一个节点,所有变量中,一个随机子集被提取出来,用于分出最完美的树杈。
有了这两步,每棵树之间的相关性就变得很弱,随机森林的不变性 (invariance)就比一棵树更强了。
另外,除了进球数,随机森林也可以给出胜、平、负这样的结果。
紧接着进入
算法融合
阶段。
虽然一开始所说的泊松回归模型,以及排序算法,德国科学家认为没有随机森林的预测效果那么好。
但他们觉得,这些算法身上依然有随机森林可以汲取的营养。毕竟预测胜负和预测进球数,是两项不同的任务。
于是,数据篇说到的新变量,在这里登场——
△
r
i
,r
j
,来自排序算法
之前排序算法里用到的、谜一般的
球队实力
参数,就在合体过程中以新变量的身份出现了。
如此融合进化完成后,再拿几种方法出来测一下,新算法显得更优秀——预测的准确度,已超过了博彩公司。
如果更早一点推出,这个AI估计能赚不少钱。
不过现在也为时未晚,2018世界杯已开盘等你。
实战预测
拿2018世界杯演练,这个AI结果如何?
这是AI给出的结果,前三名的球队 (抛开顺序) 和许多其他算法的预测也是一致的。
它觉得,西班牙和德国的夺冠概率相差不大,不过还是更偏爱西班牙一点点。
此外,这里不光有每支球队的夺冠概率,还有每一轮的晋级可能性。
有趣的是,西班牙和德意志,小组赛晋级概率非常接近,但八分之一决赛的胜率就有点拉开了。
德国科学家们说,这是因为从分组来看,德国队更有可能在八分之一决赛遭遇劲旅,比如巴西,但西班牙更轻松一些。
另外,论文还给出了小组出线可能性最大的组合——
还需要指出的是,如果用每场比赛的胜负概率排列出结果,最后赢得金杯的将是德国人。
在这个维度里,之前夺冠概率最大的西班牙,不幸止步于半决赛。
也就是说,这个AI给出的终极结果是:西班牙胜率最大,但只要德国进8强,呵呵。
所以你听懂德国科学家们的潜台词了吗?
无独有偶,足球世界也一直流传着这样一句话:足球是22个人90分钟的比赛,但最后赢得胜利的always是德国人。