专栏名称: 互联网金融
互联网金融与金融互联网、互联网等模式,主要包括(p2p网贷、虚拟货币、众筹模式、第三方支付、互联网银行、电商小贷、金融服务等)进行研究与分析。发布的内容也请转发到朋友圈。本账号编辑转载目的在于传递信息对真实性不负责,版权及观点归原作者所有。
目录
相关文章推荐
51好读  ›  专栏  ›  互联网金融

【行业报告】2017年全球大数据产业报告之海外篇

互联网金融  · 公众号  · 互联网金融  · 2017-07-19 08:00

正文

作者:吴极

来源:星河融快(rongkuai888)公众号


人人都在谈论大数据,可大数据究竟是一个噱头还是能够实实在在提供价值的珍贵资源?

前不久腾讯云和中国电信先后在厦门及辽阳的政务信息云系统投标中,以0.01元的价格中标预算数百万元的项目引发了热烈的讨论,有分析认为腾讯与电信是希望通过价格优势顺利拿到项目,从而接触到具备更高价值的民生与政务大数据及其算法,而我们认为 通过免费模式先入局,再通过增值服务获取长期合作下的利益,这种互联网公司惯用的方法,对于那些想快速获取大量数据的科技巨头来说非常实用 ,比如他们的对手阿里云就早已经免费向12306网站提供技术协助了。

国内大数据资源的争夺已经在具备前瞻眼光的巨头们之间展开,围绕大数据的庞大产业链条也在逐渐发展成熟,然而大数据能够带来的价值远非百万级别可以衡量,而且不得不承认,相比于国外市场,国内在大数据资源的运营及价值提取方面依然有一定的差距,因此我们与星河研究院此次对海外的大数据公司做了一次系统性的盘点,希望能够从数据分析方法、商业模式、应用案例等角度阐述出一个海外大数据产业的全景图,提供给这一行业的创业者、投资人,及大数据行业的爱好者一个客观全面的参考,并期待能够带给大家一些启发。

1

大数据技术是如何产生的?

01
大数据的技术基础

早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为 “第三次浪潮的华彩乐章”,这标志着人们首次对海量数据所能够产生的价值有了初步的了解。

但由于连接方式的局限,长期以来人们对于数据的应用大多以企业内部的商业智能为主,随着互联网、移动互联网的普及,企业终于能够直接与用户产生链接并获得大量的用户行为与消费等数据,大数据产业应用的轮廓才渐渐清晰。

2000年初Google为了实现对大量网页的信息抓取、存储,并完成索引的建立及排序功能,同时又希望降低硬件采购成本而逐渐摸索出了利用普通物理机实现的分布式存储、计算体系。这一技术以MapReduce及GFS而为人所熟知,借此大数据得以分布存储在多个数据库中,并进行大规模并发处理,解决了以往单一计算机存储能力不够,计算时间过长而不具备实用性的问题。

依据2003年底Google所发布的论文,前雅虎工程师开发出了类似的分布式存储计算技术Hadoop,随后围绕Hadoop产生了庞大的生态体系,逐渐使大数据基础架构日臻完善。

Hadoop功能包括从数据采集、存储、分析、转运、再到页面展示,完整涵盖了整个流程。例如HDFS实现了数据的分布式存储,HBase负责实现数据库的功能,Flume执行对数据的收集,Sqoop能够对数据进行转移、治理, MapReduce可以通过算法实现分布式计算,Hive则做数据仓库,Pig做数据流处理,Zookeeper实现了各节点间的反馈收集与负载平衡服务,Ambari能够让管理员了解架构整体的工作运行情况。

Hadoop生态技术架构

而随着技术的发展,一些适应独特应用场景的数据库、计算处理等软件也越发丰富,例如非结构化数据库MongoDB就因为其较为强大的条件查询功能以及灵活的数据结构获得了广泛的应用;Spark则将Hadoop中的存储介质替换为闪存,而获得了百倍处理速度的增长,Databricks Cloud就是这一架构下的产品化服务。

除此之外大数据生态中还存在着很多的技术发展路径,其中MPP技术主要还是以关系型数据库为主和Hadoop技术目标类似,都为了将数据切分、独立计算后再汇总。相对于SQL on Hadoop,MPP具有数据优化程度高、计算速度快,擅长被用于进行交叉分析等优点,适合企业进行数据分析使用,但其扩展性相对Hadoop来说较弱,一般在10个节点以上便丧失了计算优势,并且由于非开源架构导致其对特定硬件依赖程度较高。

采用MPP存储模式的表性公司有Teradata,能够通过进行企业数据分析帮助员工减轻大数据处理的精力消耗与费用成本,使企业能够更加专注于业务运营。在传统数据库公司与意图进入数据库市场的企业服务公司(例如SAP)掀起的收购热潮中,Teradata是目前市场仅存的几家大型独立数据分析公司之一。


02
大数据的数据来源

2011年麦肯锡发布了一份题为“Big Data: The Next Frontier for Innovation, Competition and Productivity”的报告,里面提到美国拥有1000人以上规模的公司平均存储了超过200T的数据,如果对数据进行价值挖掘将激发很多行业及公司的潜力,这一报告标志了商业领域大数据热潮的开端,也使企业服务软件成为了大数据最初的数据源。


随着存储及计算能力的加强和国内大数据产业的兴起,部分从业者在看到行业巨大前景的同时也意识到了国内数据资源的缺乏,由于 民生、电信、交通、电力等具有很高价值的数据都掌握在政府及大型国企中并不开放 ,如何获取数据源成为了比如何提升数据处理方法更大的问题。

目前国内能够进行脱敏并使用的市场数据的来源主要还是集中在手机、PC等单一渠道与场景中 ,TalkingData、友盟,以及艾瑞、易观等数据分析及咨询机构很大程度上依赖着这些资源,却也被这些资源所局限。而由于政府数据的敏感性,仅有少数机构能够对接政府数据资源。因此 预计随着对数据需求的日益强烈以及数据资源价值被渐渐接受,政府数据资源将会成为数据源的重要组成部分。

更大范围的数据采集工作将会依托于物联网领域 预计2020年我们将会被281亿个传感器包围,上月27号中国联通也宣布截至目前其物联网联通数量已超过5000万个。可以预见的是,在消费者视角内,未来衣食住行等方方面面都将会配备物联网设备实时采集数据,而采集来的数据将会让商家提供更优质、甚至是定制化的服务,形成双赢。而在工业领域,物联网所采集的大数据也将发挥很大的作用,形成良性循环。

同样随着数据样本与采集渠道的丰富,针对数据采集过程、数据转换与传送和数据存储环节的服务也已经有了很大的发展,Informatica及Mulesoft就是多渠道数据的集成与数据治理行业中的代表性企业。


03
大数据的分析及可视化

在有了足够的存储与计算能力,并获得了大量的数据后,数据分析产业的发展水到渠成。目前 通用性的数据分析行业,主要有数据分析、数据分析可视化、大数据检索,以及延伸出的数据服务平台、商业智能分析及大数据预测与咨询这6大类业务。

大数据分析的出现,对企业而言最大的价值就是能够 将大量沉淀的用户行为数据、消费数据、企业服务软件中的数据进行整合,并通过对这些数据的分析来优化产品设计、价格的制定和销售方法的提升,同时降低企业内部运转的成本提高运营效率 ,例如Pentho通过抓取企业服务软件(主要为SAP)中的各类数据并挖掘及分析,最终能够帮助企业节约大量的报表制作时间,并让管理者能够实时看到企业的运行情况。

同样对于电信、电力以及交通等专业领域的企业来说,通过收集用户数据,可以分析并预测未来的需求,提前对价格进行实时智能调节,并合理分配负载,从而实现利润的最大化并保证运行的安全。

而对舆情数据的分析能够帮助企业及时了解市场情绪,并快速迭代自己的产品与服务,对于金融企业来说也可以快速获知最新动态避免因为信息不对称而暴露于风险中。例如Datameer提供的数据分析引擎就能够实时监测公共消息,检测其语言和传播方式,使用户能够早于媒体报道获得最新资讯,并通过可视化的方式使用户轻松快速上手。

大数据可视化,则是建立在大数据分析之上的,让人们能够更加便捷的理解数据分析结果的手段。大多数提供数据可视化业务的公司都将其作为对数据分析的延伸业务,例如Bottlenose 在进行数据分析自动化业务的同时,提供对社交媒体分析的“声纳图”,能够让用户对复杂的关系及逻辑线条一目了然,提升了用户对其数据分析业务的采纳程度。

预计随着数据分析手段与方法的不断升级,数据的可视化工作将成为重点方向,将日益复杂化的数据分析结果与人相连接将会面临技术不断的挑战。


04
大数据的行业应用

大数据技术已经被视为了未来经济生活中的基础设施,这意味着几乎全部行业都能够在大数据分析技术之上获得经济效率的提升。

在销售行业中,通过输入客户的性格、穿搭习惯、所处行业及历史销售数据等信息,销售员将会被大数据分析告知,何时给哪一位客户打电话获得订单的概率最高;在品牌形象建立中,Persado能够依据市场情绪的分析,写出与用户能够产生共鸣的文案从而获取消费者好感;法律行业中Ravel能够“阅读”过去数十万判决案例,针对用户输入的案件给出判决概率预测,帮助律师制定辩护策略,而长期来看法律大数据企业很有可能取代大部分初级律师;同样在零售、广告、医疗等诸多领域,大数据技术都能通过分析数据内在的关系而帮助用户实现购买预测、受众精准投放以及病情辅助判断等功能。大数据的行业应用精彩纷呈,远不止上文所提到的这些,接下来的文章中我们会逐一展现大数据应用的神奇。


05
大数据成为AI产业的燃料

人工智能技术一直是科学家与技术人员的追求,但其发展并不是一帆风顺。例如最初的自然语言识别技术中,科学家希望通过语法规则使计算机理解语义从而实现智能化,但显示证明这一路径并不可行,其后依据大量数据样本的统计方法才有效的提升了自然语言处理的准确度并逐渐达到可用水平。

如今随着计算技术与数据量的提升,大数据能够带给我们的福利已经不仅限于资料的查找,识别语言、视觉的AI技术提供给我们的,除了经常看到的“个人助理”和动态美颜等功能外,仿照大脑结构进行写作、自动记录会议纪要、情绪识别与性格分析,甚至是视频内容的搜索等功能都能够对商业及产业起到较大的推动作用。


2

海外大数据分析行业

01
大数据分析领域

大部分大数据分析企业的现状,可以说是将数据的分析、可视化及数据的采集、治理、集成进行了一体化,以大数据的分析平台形式存在。例如Fractal Analytics除了具备数据分析功能外,还提供自动化数据清理及验证服务,能够返回标准化的结构化数据; Voyager Labs则能够实时采集、分析遍布世界各地的数十亿个数据点,帮助用户进行预测。

上述典型公司主要面向大型企业进行定制化全流程服务,客单价有时高达千万美元级别,例如Fractal Analytics的客户就包括飞利浦、金佰利等大型公司,其高昂的价格及服务令小型企业望尘莫及。

但随着大数据技术的逐渐普及,SaaS化的大数据分析服务将是一个明确的发展方向,而其使用门槛也将大幅降低,从而将大数据分析的能力逐步赋予给中小企业,以真正的实现其基础资源的价值。同时确保企业数据安全的数据脱敏、数据保护市场也会随着SaaS化的到来而逐步拓展出新的市场空间。

目前大数据技术简化、低成本、易用的趋势已经在部分公司的产品策略上有所体现,例如大数据分析公司Domino的产品让数据科学家只需专注于自己的分析工作,而不用关注软硬件基础设施的建立及维护,Datameer更进一步开发出的产品屏蔽了复杂的大数据分析底层技术,通过类似电子表格的可视化数据分析用户界面,让企业的员工能够快速上手使用,RapidMiner Studio可零代码操作客户端,实现机器学习、数据挖掘、文本挖掘、预测性分析等功能。

在大数据分析能力普及的同时,提升数据分析性能、优化数据分析结果的技术研发也在快速进展中。例如SigOpt通过自主开发的贝叶斯优化(Bayesian Optimization)算法来调整模型的参数,获得了比常见的网格搜索(grid searching technique)解决方案更快、更稳定、更易于使用的结果,目前SigOpt 的产品不仅可以让用户测试不同变量,还能够提供下一步的测试建议,以帮助用户持续优化改善数据分析结果。

令人感到欣喜的是,在大数据分析领域还存在着一些颠覆了传统数据分析理论,采用独特方式方法进行数据分析的公司。这类公司的技术对传统数据分析方法进行了很好的补充,在特定领域有着成功的应用。

这类公司中的典型之一是由三位全球顶尖的数学家创立的Ayasdi,它利用拓扑数据分析技术和上百种机器学习的算法来处理复杂的数据集,不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类,这种方法目前在基因与癌症研究领域大显身手,例如一位医生利用Ayasdi的数据分析技术发现了乳腺癌的14个变种,如今Ayasdi已经在金融服务和医疗保健行业中获得了相当数量的客户。


02
可视化技术


大数据可视化是连接数据分析结果与人脑的最好途径,因此可视化技术的高低也成为了左右大数据企业获客能力的重要因素。目前可视化的发展方向同大数据分析一致,都是朝着简单、自动化、智能的方向在努力。

典型企业如Alteryx是一个提供一站式数据分析平台的初创公司,旨在让用户在同一个平台上完成数据输入、建模以及数据图形化等操作,将数据运算与精美的图像完美地嫁接在一起,并能够和SAS和R语言一样进行数据的统计和分析。

通过可视化帮助用户实现真正的管理能力提升也是重要的功能之一,德国大数据公司Celonis通过流程挖掘技术,从日常记录中提取数据、发现关键因素,并最终揭示公司在业务中的执行情况,能够帮助客户公司提高30%的工作效率。

发展到如今,可视化技术已经不局限于传统的分析结果展示,而是能够直接转换文本、图片等非结构化的数据并直观展现,例如Quid利用机器智能读取大量文本,然后将该数据转换为交互式视觉地图,以节约过去通常会耗费在阅读检索中的大量时间。Origami帮助营销人员将CRM、社交媒体、邮件营销和调查报告等跨平台的数据整合并进行有效分析,使其简单化、直观化、视觉化,人人都能够高效实用。

同时数据分析及可视化对硬件应用的革新也在进行中, 开发GPU关系数据库服务的Kinetica获得了5000万美元A轮融资,采用同一技术路线的MapD也已经能够做到比传统计算内核快100倍的速度对大数据进行查询与可视化。


03
BI技术


BI技术的发展已经有了较长的历史,但由于技术因素此前一直被限制于企业内部采集与应用,实际发挥的效果有限并且使用率不高。如今在数据采集与应用范围普及与大数据分析、可视化技术的推动下,通过数据仪表板、智能决策等方式提升企业运营效率利器的BI再次获得了资本市场的青睐,Tableau作为BI的代表性企业已经顺利IPO目前市值超过48亿美元,另一家代表性企业DOMO估值也达到20亿美元,成长速度远超传统商业软件公司。

相比于可视化技术,BI更偏重于实际的应用,通过模板化、SaaS化及去代码等方式,BI应用范围不再局限于数据科学家及企业高管,可预见未来企业内部每个员工都可以通过BI工具获知自己及所处部门的各项数据,并能够有针对性的改进工作方式与方向。

已经累计融资1.77亿美元的Looker令用户能够使用自然语言进行查询,降低了查询大型数据集的门槛;GoodData为企业提供大数据分析SaaS服务,其所有的数据分析服务实现了100%云化,企业可以将公司已有数据导入GoodData的云平台,再对数据做跟踪、切分、可视化、分析等处理。

BI领域一个有意思的应用案例是Qlik公司的产品受到了中国海关总署的高度赞扬。海关总署每天都需要进行庞大的数据分析, Qlik则通过图形化数据展示,使海关管理人员不再受平台和时间的限制,能够多视角长跨度的分析,实现了对于现有海量数据的业务的快速展示,极大地促进了稽查效果。


04
企业大数据检索

移动互联网的普及与SaaS服务的兴起令企业沉淀的数据量呈指数级上升,但目前对企业数据价值的挖掘仅仅停留在较浅层面,真正的大数据分析能力还尚未应用。因此如何做好企业内部数据信息价值的发掘成为了关键的第一步。

提升企业数据挖掘检索能力,并将检索的技术门槛降低的典型企业有Algolia,目前其产品具备关键字输入智能容错功能,并提供搜索排名配置,能够让普通员工也能按需要找到自己所需的数据信息。同时Algolia还为移动设备提供了离线搜索引擎,其C++ SDK可以嵌入到应用服务器端,这样即便没有网络连接应用也能提供搜索功能,适用范围很广。

而在SaaS化服务兴起的同时,企业采用多种软件导致内部数据不联通而形成了数据孤岛。前不久星河研究院文章中就提到,根据互联网女皇Mary Meeker的分析,不同行业的公司平均使用SaaS服务的数量从最低25个至高达91个,需要跨平台数据检索分析服务。Maana开发的数据搜索和发现平台Maana Knowledge Graph,其长处便是收集来自多个系统或者"孤岛"的数据,并将其转换为运营建议,可广泛应用于多个行业。


05
产品大数据分析


产品大数据分析相对其他应用来说关注度稍低,但其能够发挥的功能并不少。通过收集用户的浏览、点击、购买等行为,不单从宏观上能够察觉用户群体的喜好变化提前应对,微观上还能够构建用户画像,从而做到定制的产品推荐与营销,能够有效的提升用户的消费水平与满意程度。

Mixpanel便是一家提供类似产品的公司,其让企业用户跟踪用户的使用习惯提供实时分析,其产品有用户动态分析(Trends)、行为漏斗模型(Funnels)、用户活跃度(Cohorts)及单用户行为分析(People)等几个模块,全面的覆盖了可能发生的用户行为与场景。


06
大数据咨询预测


如今大数据技术的发展为事件分析和预测提供了可能,并且准确度和处理速度已经具备了很大竞争力,传统咨询公司的处境类似于现在面对AI威胁的华尔街分析师,或许不久之后就将会被替代。因此随着逐渐出现大数据咨询公司的同时,传统咨询企业也纷纷与大数据技术公司合作,甚至成立了自己的数据业务部门。

Opera Solutions便是一家依托大数据分析的咨询公司,其创始人是咨询行业资深人士,曾创办了商业咨询公司Mitchell Madison和Zeborg。

目前Opera致力于金融领域的数据分析类咨询,通过建模、定量分析给客户提供建议,解决客户的商业问题。例如其计算机系统可以一次性采集数十亿条数据,包含从房产和汽车价格到经纪账户和供应链的实时数据等,通过分析从中获得有关消费者、市场和整个经济体系将如何行动的信号或见解。其客户包含了咨询机构及花旗银行等公司,最近还为摩根士丹利提供了帮助经纪人团队给其客户提供投资建议的业务。

新技术、机器学习与咨询预测行业的结合,相比于仅使用大数据分析技术能够获得更好的效果,也成为了行业内的一个小热点。例如基于社会物理学原理的Endor能够依托少量数据生成统一的人类行为数据集,并比传统海量数据分析方式更早的做出模式识别与判断。在甄别facebook上受ISIS控制的账号的实验中,根据已知少量ISIS账号特性,Endor高效分辨出了新的ISIS疑似账号并且准确度令人满意。


07
大数据服务支撑平台


目前围绕着大数据技术与大数据产业生态链发展的,还有许多是平台服务型的公司,这类公司具备一定的技术水平,但主要通过服务大数据技术公司及科研人员而存在,是技术生态中不可或缺的一环。

Dataiku创建了一个云平台,旨在使数据科学家和普通员工更容易获得公司收集的大数据,并通过机器学习库缩短了专家以及数据分析师所需要的时间。

Algorithmia的平台上提供包括机器学习、语义分析、文本分析等通用性算法,一旦用户找到想用的算法,只需添加几行简单的算法查询代码到应用中,Algorithmia的服务器就会与应用连接,避免了开发者的重复劳动。

目前部分向开发者社区业务发展过渡的平台型企业,因其资源已经得到行业巨头的青睐,被Google收购的Kaggle便是一例,通过举办数据科学周边的线上竞赛,Kaggle吸引了大量数据科学家、机器学习开发者的参与,为各类现实中的商业难题寻找基于数据的算法解决方案。同时Kaggle为其社区提供了一整套服务,包括知名的招聘服务以及代码分享工具Kernels。


08
机器学习


机器学习,是模式识别、统计学习、数据挖掘的技术手段,也是计算机视觉、语音识别、自然语言处理等领域的底层技术,在附件的介绍中大家可以看到,微软Azure、Google云平台及AWS都推出了自己的机器学习产品,而众多的机器学习创业公司则通过提供有特色的技术或服务进行差异化竞争。

已累计获得了7900万美元融资的Attivio专注于利用机器学习技术通过文本进行情绪分析,提供有监督的机器学习与无监督机器学习两种技术,帮助企业通过识别企业语料库中的文档进行情绪建模与分析。思科通过Attivio的智能系统令销售人员能够在与客户合作时依据对方的情绪、消费能力等数据推荐合适产品,从而节省了数百万的销售运营费用,同时节约了销售团队15-25%的时间。







请到「今天看啥」查看全文