干货 | 算法到实战，如何零基础入门计算机视觉领域

雷峰网 · 公众号 · 科技媒体 · 2017-12-11 15:30

正文

重磅推荐

上海交大CV博士团队《计算机视觉基础入门课程（从算法到实战应用）》即将上线AI慕课学院！！

目前，早鸟优惠火热进行中...

你还在等什么，赶紧加上课程助教慕慕（微信：AI-MOOCXM），带你从算法进阶深度学习实战应用。

计算机视觉是一门研究如何使机器“看”的科学，掌握解决具体计算机视觉任务的方法则会帮助我们解决大规模系统的复杂问题，其应用相当广泛，包括并不限于：图像分类，人脸识别；车辆检测，行人检测；语义分割，实例分割；目标跟踪，视频分割；图像生成，视频生成。

为了让大家更好的理解计算机视觉在人工智能领域的强大应用，12月7日晚，上海交通大学卢宪凯博士受AI慕课学院邀请，开展了一场主题为《计算机视觉概述和深度学习简介》的公开课，卢博士在公开课中给大家介绍了计算机视觉的定义、研究方法和应用举例，重点介绍深度学习发展历史，常见深度学习网络介绍和开发平台，帮助计算机视觉入门者和从业者进行有效的基础夯实和系统梳理。

今天，小编就来带大家一起来回顾本节课程中卢博士的精彩分享内容。

计算机视觉定义

首先先讲一下计算机视觉的定义，计算机视觉指的是从图像和视频中提出数值或符号信息的一个计算。形象点说的话就是计算机视觉是让计算机具备像人一样的眼睛去看到图像，并且理解图像。

在这里举了一个特别简单的例子，就是微软亚洲研究院之前开发了一个系统叫how-old.net，当你在这个系统输入一张图片进去，一个成年人一个小孩的图片都可以，它就会给你检测出这个人的性别以及年龄，像左边这个图，输入的是林志颖和郭德纲的，我们看到它的结果还是比较可靠的，虽然因为林志颖比较特殊（这个大家都知道的）。

再看右边这张图，其实就是蛮准的，它首先检测到了有两个人脸，一个小女孩的，一个baby的脸，它首先判断出他们的性别，还把他们的年龄判断出来，还是挺准的。所以举例子就是想说计算机视觉它和人理解外面的世界是有点像的，就是要看到图像，而且能够理解它。

从获取图像到读懂图像

从人类的视觉来看的话，我们看到一幅图片，首先是经过眼睛来看到图片，然后经过大脑来理解图片，比如说看到左边这个图像的话，大脑中会出现它的一个解释：这可能是一个花园，可能是春天的花园，里面有桥有水有树，有花，是一个绿色的背景等等。

对于计算机来说，它首先会通过一个相机或者一个摄像头，获取这张图片，会用计算机它自己的一些算法来看图片，并用预算法来理解，它也想能够从图片中读出：这是一个花园，这是一个春天这些有桥有水之类的信息。

计算机视觉就是最核心的这一步就是要理解它，理解的过程就是：

第一步先提供给它数据，数据的话其实有静态的图片，也有一些视频。

第二步就是要设计算法，靠人的大脑那样去理解它，过程中需要机器学习的算法，或者是最近非常热的深度学习的方法。

计算机视觉归根结底的话，其实就是在做一个回归或者分类的问题，所以后面讲到的大部分的关于计算机视觉的任务，都可以用一个回归或者一个分类的问题来对它进行建模。这就是关于计算机视觉的一个核心的定义。

计算机视觉的重要性

计算机视觉其实无论是在学术界还是在日常生活中，抑或在工业界都已经有了非常非常多的关注，大家都在研究、应用。

因为这节公开课只是第一节课，所以给大家是从一个更广泛的一个面上来讲，它在日常生活中的一些应用，包括在学术上的一些研究。

第一个计算机视觉非常重要的应用就是图像识别或者叫图像分类。大家知道最近谷歌有一个学术的大牛加入，就是李飞飞教授，李飞飞教授他们组织了一个叫IM GENET的分类比赛，比赛已经持续了很多年，主要是要求进行一千多类的生活中常见目标的分类，包括人、背包、交通信号灯、游泳、动物、火柴、打网球等等。

比赛就是要设计一种计算机视觉的算法，能够不断的提升在IM GENET数据集上分类的精度。当然大家后来也看到一些新闻，是说现在基于深度学习的方法，在数据集上其实已经能够超越人类了。所以数据集是非常有意义的，它推动了计算机视觉的发展，也让大家更理解到了计算机视觉识别其实对我们生活将是非常重要的一个改变。

图像识别是计算机视觉里面的基石。在后续的课程中也会着重的讲一下图像识别：到底计算机是怎么能够区分人、书包、交通信号灯这些信息，是怎么判断出人在游泳之类的东西。

除了图像识别任务的话，计算机视觉里面还有一个是任务就是精细的识别，就是说除了广义上常见的识别书包或者海报、建筑这种，其实在工业界的应用就是特定目标的识别，比如说车牌的识别，其实就已经被应用起来了，就是在高速公路上过ETC的车道的话，你不需要经过个人工收费口，它就会拍你的车牌，把你的车牌的信息识别出来，就对应着它的收费情况。

还有一个就是个人脸识别，包括之前支付宝的人脸支付等等应用也说明了，其实计算机视觉已经非常广泛的应用到了日常的生活中，像右边图的话就非常有意思，它属于人脸识别精细的一种识别，就是它不仅要识别出它的属性，比如说人的年龄大约是多少？

像奥巴马这张图的话，它就是不仅要识别出它是奥巴马本人，它要知道奥巴马的年龄，它的性别，它有没有戴眼镜，它的嘴唇是什么样的，还有表情的识别，就是它的情绪是什么样的，因为表情识别也是一个非常关键的，对于这种文化体育类娱乐休闲产品来说，能够更好地识别交互，特别是人机交互过程中的话，人的表情是非常重要的，最后的三个参数就是表示要对它进行一定的校正的话，需要的参数。

干货 | 算法到实战，如何零基础入门计算机视觉领域

正文

请到「今天看啥」查看全文