专栏名称: 陈三公子和他的朋友们
这里是盛大创始人、连尚网络创始人兼CEO陈大年,和他的朋友们共同交流、提供干货分享的地方。
51好读  ›  专栏  ›  陈三公子和他的朋友们

如何“训练”出一个范冰冰做女朋友——谈机器学习泛化

陈三公子和他的朋友们  · 公众号  · 科技自媒体  · 2017-11-13 12:04

正文


作者简介

张圭煜( Julian Kuiyu CHANG ), 连尚新加坡首席科学家,带领位置营销新加坡R&D团队。此前曾担任新加坡Fyreflyz公司CTO与新加坡南洋理工大学计算机工程学院教授一职,曾为新加坡、东南亚以及中国等公司提供数据挖掘与开源软件咨询。



许多爱美的女孩子会拿着范冰冰的照片为模板要求整容,或者喟叹要是我长了一张这样的一张脸该多好呀。然而改变的代价总是巨大的,今天我们可以通过另一种方式实现!用算法“训练”出一个范冰冰。


图片来源于网络如有侵权请私信删除

假设给你100张范冰冰的照片,用这组照片的子集学习并整容出一个山寨范冰冰来。如何衡量你“成品”的优劣?最简单的方式就是让你的山寨范冰冰和真人相比,但是现实中并不允许,退而求其次只能上网找出更多范冰冰的照片然后对比你的成品与这些照片的吻合度,这称之为泛化表现(generalization performance)。


机器学习理论里,我们把泛化误差(generalization error)定义为由三个部分形成。

  • 数据误差:即你学习的照片(由于角度、灯光、假发、等)与范冰冰真人的差异;

  • 模型偏差(model bias):即你选择的原始整容模型与范冰冰不可通过整容缩小的差异;

  • 方差(variance):你根据不同照片子集整出来的每一个山寨范冰冰版本之间的差异。


举个例子:


如果你选择一只猴子为原始模型(model),model bias 就是你的原型(猴子)与目标(范冰冰)整不出的天然差距,例如:身高、手脚的长短比例、五官比例、头骨大小等。猴子的model bias很大,因为无论你如何为这只猴子整容(常规市场上提供的整容手术),整容后的猴子最后与范冰冰的差别还是很大。但是也由于猴子的可塑性相对有限(头毛全剃掉,整眼睛、鼻子、嘴巴、颚骨),所以每一次根据你所看到的照片子集修改猴子整容方差(variance)也相对小,即:每一个整出的猴子范冰冰版本都差不多。[摊手]


图片来源于网络如有侵权请私信删除

反之,你若找一个相对复杂的model模型,如凤姐,那么model bias就会相对比较低,但可以调整的参数(parameters)就比猴子大多了,比如说:眼睫毛、眼睛的颜色、眼影、口红、粉底、发型、等等。但是由于参数多了(取决于你每次看到的照片子集)变化也多了。比如说,有些照片子集里范冰冰化浓妆,为了近似那些照片里的范冰冰,你就会更改各种化妆策略。这个相对复杂的模型一般会有更高的variance,即:每一个版本差异会大些。








请到「今天看啥」查看全文