大数据与人工智能蓬勃发展的时代,数据科学让我们身处技术剧变的大潮之中,它改造着我们的社会组织方式。我们必须掌握它,驾驭它,使之最大化发挥效力。
有一种说法:2016年我们产生的数据量,和人类自诞生之日直至2015年的整段历史的数据量相同。这些数据中包含的信息能揭示我们的思考方式和感受方式。根据预测,10年之后,全球会有1500亿个联网的测量传感器,比地球上的人类总数还要多20倍。接着,每过12小时,数据总量就会翻番。如今,包括政府在内的各领域都试图运用数据科学,将数据转化成财富。所有的一切都将变得数据化。
作为颠覆性技术学科,数据科学将驱动新一轮科技创新和经济增长——大数据与人工智能的结合,将克服人类在交通、环境、健康医疗等领域面临的一系列发展困境,从而开创经济社会发展的全新范式。
大数据作为新一代基础性战略资源,影响了不同行业的方方面面。数据科学作为大数据应用落地的一门技术学科,同样在不同行业进行着运用与实践。
在人工智能领域,以数据科学为基础的机器学习是人工智能的核心,是计算机智能化的基础,其应用遍及人工智能的各个领域,如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
机器学习可以帮助机器从现有的复杂数据中学习规律,以预测未来的行为结果和趋势。在某一行业智慧化应用中,用机器学习的方法对数据进行分析建模,最为关键。特别是在庞大的数据面前,如何将数据进行重组、整合、分析,进而转化为人工智能产品,是行业迈向进智能化的重要挑战。
以近年来农业部门相关智能建设为例,其与九次方大数据合作,利用九次方神算子平台提供的机器学习算法快速搭建和训练模型,将基于20年农产品批发市场日度交易数据,进行数据挖掘与可视化,进行预测分析。包括:
价格波动分析
——挖掘长期趋势、季节波动、短期波动特征
价格品种间相关分析
——挖掘品种间传导关系、相关性
价格空间关联分析
——挖掘地区间价格相关性
价格与销售量综合分析
——挖掘需求价格弹性特征
同时,通过建立空间特征矩阵,采用计算空间自相关性,对批发市场农产品价格的时间-空间特征进行建模与分析。发现农产品价格政策在不同区域的落实情况,识别农产品集散区域,分析潜在产地或枢纽区域。
除了农业相关部门,目前,国家电网也正在加速智能化建设。其与九次方大数据合作,以神算子平台为基础,进行了智能化应用与改善。
电费回收是中国电网智能建设中重要的一环,神算子平台根据电网营销系统的历史数据,提取欠费用户的关键特征指标,如用电量大小、销户记录、违约金起算时间、缴费渠道、结算方式等,使用神算子平台封装的机器学习的方法,学习欠费用户的属性与行为特征,对用户的欠费回收风险进行评估与预警。
另外,平台还建立用户窃电识别模型,从用户属性、历史用地等方面,按数据,并结合线损、天气、季节、节假日等维度,识别用电异常行为,建立窃电的判别规则和窃电识别模型。
同时,建立用户信用评价模型,基于电费回收风险和用户窃电行为的研究,从多个维度对客户信用进行评价。
目前,各行各业向大数据化迈进,最为先进的办法正是采用大数据建模平台来降低工作门槛,简化建模过程,缩短模型训练的时间,通过简洁的
可视化界面操作
即可完成复杂的机器学习任务。
以上述提到的九次方大数据神算子平台为例,作为国内首个成熟的商用人工智能全流程平台,其正是具备了
低门槛、高性能、全方位可视化
三大特色。
所谓
低门槛
,神算子平台将原本需要多年研究习得的机器学习算法和繁琐的数据处理步骤流程化、组件化,极大降低了学习门槛。平台提供已成型的业务方案,以模板的形式让用户一键上手。同时,数据科学家们根据经验和世间持续系统内算法,使模型达到智能化,不断提高模型的效率。
高性能
是指,神算子平台内置了大数据科学院独有知识产权的高维度模型算法和特征工程算法,结合自主研发的高性能的分布式计算框架,在大数据和海量特征的场景下有很好的计算性能和计算效果。