大数据与人工智能是当今信息技术领域最热门的两个技术名词,也是各领域智能化解决方案的关键技术。近年来,随着数据的爆炸式增长、大数据技术的不断演化及人工智能算法的突破,大数据与人工智能技术呈现出融合趋势。
大数据技术演化的总体目标是高效收集、存储、处理与分析大规模、多源数据,并满足业务需求。近年来,大数据技术路线从批处理架构,逐渐演化为内存计算架构、流处理架构、批流融合处理架构、图数据处理架构等。
人工智能关注的技术重点是人工智能算法,即如何通过大数据构建机器学习模型,如何高效训练、评估、测试人工智能模型,并解决人工智能的应用问题。具体而言,包括算法的技术突破、算法的性能和效率等等。
从输入数据来看,不同于大数据系统输入的单源或多源原始数据,人工智能算法的输入数据通常是经过大数据平台“清洗”,即已经完成了聚合,并删除了重复的、无关的、异常的数据。
(1)大数据为人工智能的应用提供了大规模、多源、异构的数据
在大数据时代,人工智能使用的不再是样本数据,而可以使用全量数据。有价值的数据量越大,人工智能预测就越准确,对人类思维模拟程度就越高。
正是有了大数据的数据规模,人工智能才有了质的突破。同时,人工智能的应用也反哺大数据平台更多的“新鲜”数据,并通过新数据的进一步训练,再次提高人工智能系统的智能化程度,形成良性循环。
(2)统一的数据分析与人工智能平台成为趋势
传统的大数据平台主要提供基于CPU与内存的分布式数据处理架构,近年来随着人工智能技术与应用的快速发展,新型大数据平台开始支持GPU、GPU/CPU混合计算等新的计算架构及TensorFlow、PyTorch等人工智能编程框架。
统一数据分析与人工智能平台已成为技术趋势,如Intel推出了面向Apache Spark的统一数据分析与人工智能平台Analytics Zoo;Databricks联合Microsoft推出了MLFLOW,方便用户在大数据平台上快速开发、验证、部署人工智能应用。
(3)大数据与人工智能技术上的关联与融合
大数据分析的核心技术包括SQL、统计分析、图分析与机器学习,而人工智能的核心技术则包括以深度学习为代表的机器学习、知识图谱、逻辑规划和专家系统等。从大数据与人工智能核心技术的关联图(图1)可以看出,两者在技术上已充分融合,比如都需要用到机器学习技术、人工智能知识图谱需要用到大数据的图分析技术等。
(4)人工智能拓宽了大数据的应用场景
传统大数据分析的主要是结构化、半结构化数据,缺乏对图像、视频、语音等非结构化数据的处理能力。数据驱动的人工智能技术,提供了分析高维非结构化数据的能力。如Google公司最初的大数据分析平台主要用于构建网页的倒排索引为核心搜索业务,目前提出的AI First战略则用AI技术重构搜索系统、广告系统、多语种翻译等核心业务,最初的大数据团队也已整合到人工智能团队(Google Brain)。
从Gartner数据分析成熟度模型(图2)也可以看出,传统的数据分析实现了描述性分析、诊断性分析,而融合人工智能技术的大数据分析可以实现更智能化的预测性分析与处方式分析。
众所周知,本轮人工智能浪潮得益于大数据。“如何从数据中学习”,是两者共同关心的问题。大数据领域需要将人工智能技术融入大数据的处理、分析流程,人工智能领域也需要如何利用大规模数据构建更精准、更智能化的AI算法。
利用大数据平台收集、处理数据,从而构建高效、可靠、可解释的智能化解决方案,将加速推进大数据与人工智能技术深度融合,这种融合已经成为未来信息技术发展的趋势,并将成为新一轮数字经济的核心驱动力。
陈敏刚,上海计算机软件技术开发中心/上海市计算机软件评测重点实验室副研究员,国家信标委大数据标准工作组成员、上海市科技进步奖获得者。
参加2018世界人工智能大会有感 ——趋势已定,未来还没来
人工智能与实体经济融合的讯号?——关于工信部2018年人工智能与实体经济深入融合创新项目的几点分析