本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第十一回。在这一回中,陈宗周先生将为我们解密数据科学。数据科学不但能穿透历史看到过去,也能高屋建瓴,远望未来。这门年轻的科学,是如何改变世界的?
陈宗周是《环球科学》杂志社社长,《电脑报》创始人。
2017年3月,全球金融中心华尔街,一场没有硝烟的大战打响。交战双方争夺的,是一件没有任何重量却价值无穷的虚拟物品——数据。参战的一方是华尔街金融巨头们的联合体,包括摩根大通、花旗、高盛和电子交易商Virtu Financial、KCG Holdings Inc等等,而另一方则是同样赫赫有名的纽约证券交易所(简称纽交所)。
这场被称为“华尔街数据大争夺”的宫斗戏上演,是因为金融巨头要顽强阻击纽交所进一步控制交易市场的数据。争议围绕名为“纽约证券交易所主用户协议”的新合约展开,争议焦点是:券商在买卖股票时提交给交易所的数据,到底归谁所有?新合约规定纽交所享有这些数据的所有权,而券商和大型交易公司则大声喊冤,认为数据由他们产生,理所当然属于他们。
纽交所与金融巨头们围绕数据所有权已经缠斗了很久,券商抱怨说,像纽交所这样的交易所,直到2006年还是一个非营利组织,变成了营利性公司后,在增加数据费用上变得十分激进。纽交所的交易数据由金融公司等交易者的交易活动产生,但纽交所汇集这些数据后,以高价出售,而买家往往正是这些产生交易活动数据的金融公司。近年来,这些数据已成为纽交所收入的重要增长来源。纽交所的拥有者——洲际交易所公司(ICE)2016年44%的净收入,来自市场数据销售和相关收入,而在2011年,这一数据仅为9%。所以,华尔街的金融公司们群情激愤,认为纽交所过度收费了。电子交易商Virtu的首席执行官厉声斥责说:“一个政府挂牌的机构可以这样肆无忌惮地拿走你的知识财产,再肆意以虚高的价格卖给你。”美国证券业及金融市场协会也尖锐指出,证券交易所正在“滥用其垄断市场数据的地位”。而享受着数据带来巨大利益的纽交所,则断然否定这一切的指控。
华尔街的这场数据争夺战现在仍在进行,争论可能永远不会平息。争论的背后,是金融数据的关键作用与价值。不仅是在金融领域,随着AI应用的深入,数据在一切领域都在扮演不可或缺的重要角色。
历史研究,一直是历史学家的专属花园。现在,AI科学家闯了进来。英国布里斯托大学科学家内罗·克里斯蒂亚尼尼(Nello Cristianini)与历史学家合作,用AI的数据挖掘技术,从旧报纸堆里发现了可能比历史书更准确的英国现代史。
没有一位历史学家能够阅读跨越一个多世纪英国历史的数千万份报纸,而AI可以。它积累了1800年至1950年间的3500万份英国地区新闻报道数据(占该时期英国地区报刊总量的14%),分析了286亿个词汇。不妨对比一下:成年人平均阅读速度大约为每分钟300字,按这样的速度,一个人如果一刻也不休息地昼夜连续阅读,需要180年来完成上述阅读;而AI用了大约8周。然后,它给出了自己独到的分析,让人们重新认识19世纪到20世纪上半叶150年的英国历史,发现了历史学家用传统方法无法找到的历史事件。
例如,技术兴起这样的不太明显的历史进程,历史学家往往难以判定准确时间,AI则可以。电力什么时候超越了蒸汽?AI的回答是1898年。因为在这一年,电在新闻中出现的频率开始超过蒸汽,电取代了蒸汽。又如,历史书都记载,火车时代开始于19世纪40年代,那时英国开始发展国家铁路系统。但AI从新闻报道数据中准确地进一步分析出,火车实际上要在半个多世纪后才变得比马车更重要。
还有,“经济”什么时候成为日常用语?AI发现,在20世纪之前, “政治经济”一直是比“经济”更为常用的术语。直到1900年左右,这两个词的用法变得模糊。20世纪头十年,这两个术语使用频率大致相似。之后,“经济”开始成为更受欢迎的用语,使用频率开始稳步上升,远远把“政治经济”抛到后面。
这是AI眼中的英国历史,数据分析穿透历史迷雾,在纷乱复杂的历史事件和记录中理清头绪,发现了历史学家都难以发现的历史现象。
数据科学不但能穿透历史看到过去,也能高屋建瓴,远望未来。我们在本专栏第一回看到的连续四次正确预测美国大选结果的MogAI智能系统,依靠的同样是数据分析。而2009年H1N1甲型流感暴发前几周,Google通过对用户网上搜索记录的分析,作出了比疾控中心更及时的疫情预测,准确性与官方数据相差无几。这也是数据分析预测的结果。
关于数据的故事还很多。由著名演员布拉德·皮特 (Brad Pitt )主演的好莱坞影片《点球成金》,可以说是一段亦真亦幻的数据传奇。在美国职业棒球联盟比赛中,经费捉襟见肘的奥克兰运动家队败给了财大气粗的纽约扬基队,赛季前途渺茫。总经理比利焦头烂额之中,偶然认识了耶鲁大学经济学硕士彼得。彼得用数据分析的方法,挖掘毛病多、评价过低,但上垒率奇高的潜在明星,低价打造出一支棒球强队,在新赛季取得二十连胜的辉煌战绩……电影根据纪实小说改编,虽然有虚构的成分,但在现实中,深度的数据分析不仅已成为棒球运动中的标准,而且在英超足球联赛等其他体育项目中早已广泛使用,成为球队获得好成绩的技术支撑之一。
电影《点球成金》剧照
图片来源:
http://www.sfs-cn.com/node3/ypjs/node22782/node22787/u1a1474707.html
这些故事,还只是数据应用案例的九牛一毛。今天,数据技术广泛应用于大至政治、军事、经济、教育、科研、医疗、金融,小至企业市场销售、个人健康管理等一切领域。数据科学像一支魔杖,指向之处就会出现神奇;数据又像一只魔方,在数据科学家手里玩出绚烂多彩的万千花样。
什么是数据?数据为什么有如此魔力?
数据看起来平淡无奇。声音、图像、文本、数字……自然界和人类社会的一切信息,都可以看成数据。数据虽然无处不在,普通平凡,但是在AI时代,它已成为虚拟世界的基础和中心。曾经的经典说法是,真实世界(物质世界)的基础是原子,虚拟世界(数字世界)的基础是比特(bit,位)。而今天,可以更精确地说,虚拟世界的基础是数据,bit和byte(字节),不过是数据的计量单位。虚拟世界是数字世界,更是数据世界。
数据其实一直都存在,造就神奇的,是数据科学,有了数据科学,数据才变得不平凡。
数据科学(Data Science)是一门年轻但发展非常迅猛的学科。数据、数据库、数据分析、数据处理这些概念很早就出现了,但直到1996年,在国际分类协会联盟(IFCS)在日本神户举行的双年会上,数据科学这个术语才首次出现在会议文件的标题中。这一年,被看作是数据科学诞生之年。之后,在统计等学科领域里从事数据工作的人开始被改称为数据科学家,数据科学快速发展。
简单地说,数据科学是研究从数据中获取知识的科学理论和方法,目标是从数据中提取出有价值的信息。数据科学是融合统计学、机器学习、高性能计算、数据挖掘、数据仓库、数据可视化等多领域中理论和技术的一门AI新兴学科。数据库大师、1998年图灵奖得主吉姆·格雷(Jim Gray)把数据喻为科学的“第四范式”,与经验、理论、计算相提并论,断言未来任何领域的科学问题都将由数据驱动解决。他虽于2007年因海难意外逝世,但对数据和数据科学重要性的预言,在今天正在变为现实。
虽然数据如此重要,也一直得到广泛应用,但数据和数据科学真正成为公众关注热点,还是要等到2011年——在这一年,大数据(Big Data)热潮掀起。5月,权威咨询公司麦肯锡全球研究院发表了一份重要报告《大数据:创新、竞争力和生产力的下一个新领域》。这是专业机构第一次全面介绍和展望大数据。报告指出,大数据已经渗透到当今的每一个行业和业务领域,成为重要的生产因素。
紧接着,在2012年1月的达沃斯论坛上,大数据成了主题之一。会上发布的报告《大数据,大影响》(Big Data, Big Impact)宣称,数据已经成为一种新的经济资产,就像货币或黄金一样。
同年3月,奥巴马政府发布了《大数据研究和发展倡议》,标志着大数据已经具有重要的时代特征。奥巴马政府还将数据定义为“未来的新石油”,甚至还把对数据的占有和控制,提升到国家数字主权的高度。
数据热潮的掀起,有一个深刻的背景,那就是,人类社会的数据积累量,已经达到非常惊人的程度,大规模和深度的数据应用,已经成为必需和可能。
随着互联网、移动互联网、物联网的发展,天罗地网般遍布世界每个角落的信息设备如电脑、手机、传感器、照相机、摄像头、麦克风、射频识别(RFID)读取器、汽车电子设备等等,每时每刻都在产生几乎是无穷无尽的数据,到2012年,全球每天会产生2.5EB(B,Byte,即字节)数据。
EB是多少?这先要先温习和扩展一下数据计量单位的知识。我们熟悉的M、G甚至T,已远远不能描述数据的爆炸性增长,更大的计量单位开始使用。数据计量单位代表的数量,从Byte(字节)开始,从小到大依次增加大约1000倍:Byte、KB(103)、MB(106)、GB(109)、TB(1012)、PB(1015)、EB(1018)、ZB(1021)、YB(1024)。YB之后还有DB、NB、CB。这些天文数字般的计量单位,人类很快也将遇到。
2.5EB的数据,意味着需要250万块1TB硬盘来存储。那还是2012年一天的数据。2016年全球数据总量为10ZB,能想象10ZB数据有多大吗?会存满100亿块1TB硬盘!
这还没完。我国网民数量居世界之首,每天产生的数据量也名列前茅。淘宝网站每天有数千万笔交易,单日数据产生量超过50TB,存储量40PB;百度公司目前每天大约要处理60亿次搜索请求,产生数十PB的数据。而一个高清摄像头一小时能产生3.6GB数据,一个城市若有几十万个摄像头,每月产生数据将达到几十PB……现在,全球数据仍然在以每年40%、两年翻一番的速度增长,预计到2025年,全球数据将超过160 ZB,之后,就要向YB迈进了。
数据浩如烟海,只是大数据的特征之一,全面的特征要用 4V来描述——Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据是人类社会的无尽财富,同时又对数据科学提出无穷挑战。
从各种数据采集器汹涌而来的数据,首先要经过预处理,将非结构化数据转化为机器能处理的结构化数据,为数据建模作最重要的准备。所谓数据的结构化,就是要对数据标注出特征属性。比如对语音,需要将声音波形转化为说话内容、说话人性别、年龄、情绪、周围噪声环境等属性信息。对图像,需要转化为人脸五官位置、年龄、情绪等属性信息。对文本,需要将文字做自然语言理解处理,标注出名词、主语、分词等属性信息。这样对数据进行结构化预处理、标注出信息属性的工作,叫数据标注,是数据处理的一项重要的基础性工作。
数据标注是一项繁重的工作,以前主要靠人工进行,现在开始用机器辅助人工进行。像国外的“亚马逊土耳其机器人”和国内的“魔方众标乐”,便是能够帮助人工进行数据结构化处理的高效众包处理平台。前者长于图像数据标注,后者长于语音数据标注。
大数据技术有一个重要的思路,就是不进行数据抽样,而是进行全数据处理。这样,对数据结构化工作提出了更高的要求,自动化数据预处理将是打开数据处理效率瓶颈的钥匙,使数据质量的提升和数据处理的速度最终能够跟上AI发展的步伐。而一旦数据标注效率的瓶颈打开,手握优质结构化数据的数据科学家,就会用各种各样精巧的模型和算法,进行数据挖掘和分析,创造出奇迹。
数据可视化,是数据科学创造的神奇之一,近些年来,数据可视化异军突起,受到高度关注。
数据可视化(Data Visualization)使人们不再面对枯燥的数据,而是以直观的、交互式的甚至有美感的方式,从不同的维度看到数据及其结构关系,这样,极大提升了数据应用的价值。电子地图,是数据可视化的一个典型例子。数据库里的地理信息数据,通过可视化技术,在我们面前呈现出一幅直观生动的地图。而且,随着数据不断增多和更新,电子地图的功能也不断丰富,成为我们重要的生活助手。
数据可视化正在高速发展。城市数据可视化、科学可视化、可视化人机交互、可视化分析、高维数据可视化、数据叙事等应用领域不断开拓。数据可视化还与AR/VR结合,增强数据的表现力和影响力。
数据可视化,常常能达到出人意料的效果。2010年10月,英国《卫报》发布了《维基百科伊拉克战争日志:每一次死亡地图》的可视化数据新闻。用来自维基解密的数据和谷歌地图的免费软件Googlefushion,制作出一幅点图,将伊拉克战争中所有人员伤亡情况标注于地图之上。地图上的每一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。学者的评价是,“新闻工作者富于人性的思索,通过精准的数据和适当的技术传播出来”。这一地图上遍布血淋林红点的可视化数据新闻,不仅让《卫报》一鸣惊人,也因为直观和交互性地揭示出战争的残酷与血腥,极大震撼和影响了英国公众,一定程度上推动了英国最终作出从伊拉克撤军的决定。
图片来源:http://chuansong.me/n/1728163?jdfwkey=zkp8b
数据的魔力正在重塑世界,但硬币的另一面也显露出来。数据安全事件频发,数据泄露往往造成严重恶果,已经成为社会一大公害。《纽约时报》曾经有这样的比喻,与400年前出现的观察和测量微小事物的显微镜相比,我们现在正面对一台“测量数据”的显微镜。这台显微镜无比巨大而精细,我们的一切行为与隐私,都在这台数据显微镜下暴露无遗。问题是,除了合法的观看者之外,还有大量善意和恶意的非法观看者,时时刻刻想偷窥这台数据显微镜。这就是我们面临的数据隐私安全的严峻问题。为了解决这一难题,掌握数据的政府、企业等机构要负起责任,从法律和管理上发力;我们公众要提高数据安全意识;数据科学家和数据工程师,则要从技术上贡献智慧。全社会一起努力,才能构筑起坚强的数据安全保护屏障。
由于数据科学任重道远,数据人才长期热门而紧俏。麦肯锡公司预测美国到2018年需要深度数据分析人才44万~49万,缺口14万~19万人;同时,既熟悉本行业务又了解大数据应用的管理者,需求量达到150万人,缺口更大。数据科学家、数据工程师已经成为AI行业中抢手而高薪的一群人。《哈佛商业评论》称他们的工作,是21世纪最性感的职业。
中国是经济高速发展的人口大国,数据应用前景应该更加广阔,人才也会更加短缺。2017年春天,教育部新批准32所高校开设“数据科学与大数据技术专业”,加上之前批准的三所,开设数据本科专业的高校一下子增加到35所。中国大学数据人才的培养,步伐很快。同样的,中国也应该加强面向普通人的数据知识普及,提高数据技术应用的意识和能力。
数据魔方在高速转动,数据洪流滚滚而来,数据弄潮儿应站立潮头。
AI传奇专栏回顾:
第十回 | 机器神医创造的精准医学奇迹
第九回 | AI掀起教育史上一场数字海啸
第八回 | 他为人类开启第二双眼睛
第七回 | 机器翻译为人类重建巴别塔
第六回 | 语音合成,在校生书写讯飞传奇
第五回 | 深度学习登台语音识别
第四回 | 助飞的双翼
第三回 | “深度学习之父”杰夫·欣顿
第二回 | AI的酷暑与寒冬
第一回 | 2016,AI春暖花开