对事件做出预测相对容易,但分析因果关系则是一件很困难的事。就像路上很多人带着雨伞,代表可能 会下雨,但雨伞不是下雨的原因。而当你想改变事件的结果时,了解因果关系就变得十分重要了,比如要阻止一场雨,不可能让所有人都不带雨伞。
美国一家公司 Via Science,就希望能通过其专利性的因果分析技术,帮助电力、能源等公司找到电力系统中的风险所在。
公司 CEO Colin Gounden 向雷锋网展示的下图,是对美国麻省周围各医院出现电力故障的分析。系统会分析电力路线、植被、海拔、天气、地理人口信息、金融市场等各类信息,得出风险值,并展示可能的原因所在。
经过一百多年的发展,电力系统已经是不可或缺的基础设施,而且形成了极其复杂的网络。电力公司想要的不仅是预测什么时候出现故障,更是想防止意外出现,这就需要找到导致电力事故的原因。
Gounden 告诉雷锋网,公司的技术核心是因果分析平台 Focus™,它应用了 UCLA 教授 Judea Pearl 发明的贝叶斯网络,用于理解数据之间的关系。Pearl 教授是 2011 年图灵奖得主。
简单来说,贝叶斯网络会引入更多变量来创造一个图(Graph),从而看这些变量之间的相互关系以及如何改变。比如展示雨、雨伞与天色的关系,会看到灰色的天空与下雨有关系,也会看到下雨时没有雨伞 这个变量出现,但仍会出现灰色的天空。然后比较两种场景就会发现,灰沉的天空与下雨的关系更强,也就是它出现的原因。
Gounden 表示,贝叶斯网络的优势是用到了图论(Graph Theory),相比于神经网络,其运作过程有透明性,不是黑盒子。
他告诉雷锋网,贝叶斯网络两个特点:一是能让人类了解到底发生了什么;二是由于知道发生了什么, 就可以做出改变。而深度学习网络可以重新训练,但不能改变网络模型。
改变网络的理由是,可以让它的效果更好。比如,如果已经知道了天气会影响能源供给和购物的状况,就可以直接告诉计算机这种结果,而不用让它自己找到这种联系。把这些规则输入网络,可以节省计算时间。
另外一个理由是,可以在虚拟中模拟可能发生的情况,模拟某个变量可能产生什么样的结果。比如,在 现实中可能想了解,如果稍微改变电路,某片楼宇中的电力状况会发生什么变化?但不能真的这么做,用户不会想承受这种试验的结果,而在计算机中可以做这种模拟。
Gounden 毕业于哈佛大学,是一位连续创业者,他曾创立了两家公司并成功退出,其中一家在 1999 年以 9800 万美元的价格被收购。他在 2000 年联合成立 GNS Healthcare 公司,也是用因果贝叶斯网络分析基因等健康数据。再后来,他们开始寻找其它同样可以应用机器学习的行业,并在去年 8 月成立了 Via Science。
从健康到能源行业,跨度不可谓不大。不过他告诉雷锋网 (公众号:雷锋网),两者有不少共性。
一是,考虑到从基因到蛋白质再到细胞的整个过程,它与能源从产生到经过复杂的网络再抵达终端用户,整个过程十分相似,有相似的架构。
二是两者很复杂,有成千上万的变量。人体与电力网络的复杂性是一样的,在规模上与复杂性上很相似。
三是问题的重要性。对人体来说,你不可能想做什么实验就做什么,临床试验的成本很高。电力系统也一样,不可能直接关掉某个地方的电源,看看会发生什么变化。而对于某地区是否应该新建发电厂这样的问题, 由于建厂需要数年的时间,不可能等几年再看看到底会有什么影响,这需要事先模拟。
对于新领域,数据是一个难点。机器学习需要的数据,但没有成功的案例也就没有数据。所以 Via Science 的做法是不要求用户提供数据,而是使用公开数据。公开数据的丰富程度,也是他们考虑新应用的重要标准。
Gounden 告诉雷锋网,如果想知道接下来的几分钟哪里可能断电,这需要实时的数据;但如果想知道未来几年中,电力设施会出现哪些风险,这就不需要实时数据,而是需要趋势数据,比如天气、人口、地 域等。
他们的系统中会用到了卫星图数据,无人机测绘数据。这样可以看到建筑物、电力设施都在哪,而这些 数据不需要获得授权。
当然,如果有员工工作年限、专家评估和设备状况等企业内部数据,模型会更准确。他表示,在通过公开 数据建模,证明了效果后,再让企业提供一些较隐私的数据就容易得多。
由于能源公司很保守,不到万不得已不会改变,所以 Gounden 和同事们首先瞄准的是联邦政府部门。因着与政府不错的关系,他们首先申请了小范围的试验,由于对电力系统改善的效果不错,也因此得到了政府的推荐。
Via Science 也在考虑将同样的技术用于中国市场。正如 Gounden 所说,各地电力系统的运作方式都一样。而看中中国市场的另一个原因是,国内的电力公司,如上海电力,同时在印度、巴基斯坦等地也有项目,所以他们可以服务更广泛的市场。