每天,我们走在大街上,都能听见人们在谈论人工智能。一边是专业的科研机构、高科技公司在谈论人工智能,另一边,银行、保险、能源、家电等传统行业也都忙不迭地把“AI”或者“AI+”的标签贴在自己身上。
据最新数据统计,人工智能的创业公司平均每10.9个小时就会诞生一家,并且每周都会有重磅消息发出(以下为最近一周,人工智能的3件大事)。
1. 10月18日,党的报告中提出,加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合。
2. 10月18日,DeepMind团队公布了最强版AlphaGo ,代号AlphaGo Zero。它的独门秘籍,是“自学成才”,在短短3天内,成为顶级高手。
3. 10月20日,人工智能初创企业地平线,在美国旧金山举办的英特尔投资 CEO 会议上,正式宣布成功获得来自英特尔投资的注资。地平线预期于年底前完成总额近亿美元的 A+轮融资。
2000年之后,数据量的上涨、运算力的提升和机器学习新算法的出现极大促进了人工智能行业的发展。数据、计算力和算法,也并称为人工智能时代发展的三大驱动力。
1. 数据
数据和算法可以分别比作人工智能的燃料和发动机。算法是计算机基于所训练的数据集归纳出的识别逻辑,好的算法模型可以提升任务的精准度。数据集的丰富性和大规模性对算法训练尤为重要。据中国互联网数据中心IDC显示,从2011 年起,全球所产生的数据量已达到ZB级别(1ZB约为10亿GB ),并且每年数据量呈现指数型增长。
虽然数据在快速产生,但用于算法训练的标注数据,依然是各大企业亟待解决的问题。我们以当下最火热的无人驾驶为例,无人驾驶集成了多项计算机视觉关键技术,比如行人检测、车辆检测、车道线检测、交通标志识别等,每一项技术都需要大量的标注图片,用于机器学习模型的训练(模型准确率往往随着训练数据的增多而增加)。
鉴于上述企业刚需,仅训练数据的标注工作,国内目前至少有上千家,这些企业的员工通常为大专生,不需要高深的知识技术,只需要耐心和细心即可。标注公司的熟练员工平均一天可以标注40张图片,前提是只需要为图片中的物体打框、标注类别和前后关系。如果涉及到刻画建筑物边缘、地图的道路提取等复杂细节,一天标注10张已是极限。标注公司每次接到的任务,其数据订单往往以「万」为单位。
2. 计算力
人工智能算法的处理需要大量的矩阵计算操作,因此特别适合使用并行运算芯片进行数据处理。而传统的CPU一次只能同时做一两个加减法运算,无法满足并行运算的需求。目前,出现了GPU、NPU、FPGA和各种各样的AI-PU专用芯片。而其中, 出现最早的GPU为人工智能的发展做出了巨大的贡献。
在GPU出现之前,算法运行的速度是很慢的,即使是一个简单的神经网络数据的培训,也得花费几天、甚至几周的时间。 1999 年,Nvidia 公司在推销Geforce 256 芯片时,提出了GPU( 图像处理器) 概念。GPU是专为执行复杂的数学和集合计算而设计的数据处理芯片。它的出现让并行计算成为可能,对数据处理规模、数据运算速度带来了指数级的增长,极大的促进人工智能行业,尤其计算机视觉领域的发展。
目前的趋势是,随着对人工智能各类应用需求的不断增强,专门用于加速人工智能应用的AI-PU或将成为计算机另一个标配组件。
3. 算法
作为人工智能的发动机,机器学习算法已经被广泛应用于人工智能的各个分支,如专家系统、自然语言处理、计算机视觉、智能机器人等领域。20世纪80年代,机器学习作为一门独立的学科发展至今,诞生了诸多经典的机器学习算法,比如支持向量机SVM、Adaboost算法、流行学习、稀疏学习以及近几年最火的深度学习。
进入21世纪,纵观机器学习发展历程,研究热点可以简单总结为2000-2006年的流形学习、2006年-2011年的稀疏学习、2012年至今的深度学习和强化学习。未来哪种机器学习算法会成为热点呢?NIPS 2016上,深度学习三大巨头之一吴恩达表示,“在继深度学习之后,迁移学习将引领下一波机器学习技术”。
每个时代,机器学习都会有研究热点,我们不能盲目地认为深度学习就是人工智能的未来。恰恰,深度学习的大量训练数据等弊端,并非模拟人脑结构,充其量是从生命的生物机理中获得灵感。举个例子,给一位三四岁的孩子看一辆自行车之后,再见到哪怕外观完全不同的自行车,小孩子也十有八九能做出'那是一辆自行车'的判断。也就是说,人类的学习过程往往不需要大规模的训练数据,人类有卓越的抽象能力,仅凭少数个例,就归纳出可以举一反三的规则、原理,甚至更高层次上的思维模式、哲学内涵等。
人工智能时代,机器学习算法不断迭代,今年深度学习火,说不定明年迁移学习或者某某学习会火。如果真正希望在这个时代建立自己的优势,还是要踏踏实实了解机器学习整个发展脉络,掌握机器学习经典的、主流的算法,对于今后深度学习或者其它学习的了解、掌握和改进,都会有促进作用。
为此,中科院自动化所博士毕业团队,联合一线科研青年教师推出《机器学习:从理论到实践》在线直播课程。课程体系设置充分结合理论与实践,PPT以及代码均会提供给学员,并为学员搭建跟老师微信群即时交流的平台。
1. 数学基础(预习PPT)
1.1 矩阵论基础知识
1.2 概率论基础知识
1.3 优化基础知识
2. 机器学习算法:从理论到实践(20学时)
2.1 机器学习概述:机器学习方法分类以及基础知识介绍
2.2 KNN算法:概述、理论详解、相关应用
2.3 贝叶斯分类:朴素贝叶斯、贝叶斯决策论等
2.4 回归与分类:曲线拟合、线性回归、logistic回归
2.5 支持向量机:线性支持向量机、非线性支持向量机、核方法
2.6 聚类:K均值聚类、层次聚类等
2.7 数据降维:线性降维、非线性降维
2.8 EM算法:EM算法基础、多高斯参数估计以及相关应用
2.9 Adaboost算法:独立于算法的机器学习、Adaboost算法等
2.10 隐马尔科夫模型:马尔科夫、隐马尔科夫模型以及相关应用
邵老师,现任副教授、硕士生导师,中科院自动化所博士毕业,具有两年教学授课经验。主要研究方向包括机器学习、模式识别与图像处理,作为项目负责人承担国家自然科学基金,在国际主流期刊和会议上发表论文数篇。
霍老师,西安电子科技大学博士毕业生,研究方向为图像处理,主持和参与多项国家自然科学基金,以第一作者在相关领域期刊以及会议上发表论文多篇。
本期课程限报 300人,报满为止。课程价格为 499元,前 100 名报名者,直接优惠 100 元,并可领取 1200G 人工智能资料。仅剩 80 个名额!
1. 11月30日-12月21日每周四、六、日晚7点-9点,在线直播授课;
2. 课程一年内可实时查看视频回放;
3. 课程PPT和源程序,会提前公开给学员;
4. 课前、课中和课后,微信群均可答疑。
请添加助教微信领取优惠券