通过机器的眼睛看
通过计算机或手机等机器观察周围环境的方法称为计算机视觉。模拟人眼的严峻工作可以追溯到50年代,我们已经在这个领域走了很长一段路。计算机视觉已经通过不同的电子商务或相机应用进入到了我们的手机。
当机器拥有像人一样的眼睛,机器将会做更多的事情。人眼有着复杂的结构,而通过眼睛观察来理解环境是一个更加复杂的现象。以类似的方式,使机器能够看到事物并使其具有足够的能力以理解它们所看到的内容并进一步对其进行分类,仍然是一项艰巨的工作。
使用计算机视觉等效于眨眼间就可以进行数百万次计算,其准确性几乎与人眼相同。
这不仅涉及将图片转换为像素,然后尝试通过这些像素了解图片中的内容,也将不得不首先了解如何从这些像素中提取信息并了解其代表的内容。
1、理解如何通过机器看
A.用数字表示颜色:
在计算机科学中,每种颜色都由指定的十六进制值表示。这就是机器理解图像像素组成颜色的一种编码方式。而作为人类,我们拥有能力根据深浅来区分不同的颜色。
B.图像分割:
计算机被用来识别相似的颜色组,然后分割图像,即将前景与背景区分开。颜色渐变技术用于查找不同对象的边缘。
C.查找角点:
分割后,然后查找图像中的某些特定的特征,也可被称为角点。简而言之,算法会搜索以一定角度相交的线,并以一种颜色的阴影覆盖图像的特定部分。特征(也称为角点)像是积木,可帮助查找图像中包含的更详细的信息。
D.查找纹理:
正确识别图像的另一个重要方面是区分图像中的纹理。两个对象之间的纹理差异使机器更容易正确地对对象进行分类。
E.做出猜测:
执行上述步骤后,机器需要做出大概率正确的猜测,并将图像与数据库中存在的图像进行匹配。
F.最后看大图:
最后,一台机器会看到更大,更清晰的画面,并根据所提供的算法说明检查是否正确识别了该画面。在过去的几年中准确性得到了很大的提高,但是当机器要求处理带有混合物体的图像时,机器仍然会犯错误。
美国大学:
卡内基梅隆大学机器人学院
加州大学洛杉矶分校
北卡罗来纳大学教堂山分校
华盛顿大学
加州大学伯克利分校
斯坦福大学
麻省理工学院
康奈尔大学
宾夕法尼亚大学
加州大学尔湾分校
哥伦比亚大学
伊利诺伊大学香槟分校
南加州大学
密西根大学
普林斯顿大学
罗切斯特大学
德克萨斯大学奥斯汀分校
马里兰大学学院公园
布朗大学
中央佛罗里达大学
纽约大学
密西根州立大学
麻省大学,阿默斯特
西北大学
加州大学圣地亚哥分校
加拿大大学:
艾伯塔大学
多伦多大学
不列颠哥伦比亚大学
西蒙弗雷泽大学
欧洲大学:
INRIA法国
牛津大学(http://www.robots.ox.ac.uk/~vgg/)
苏黎世联邦理工学院
德国马克斯·普朗克研究所
爱丁堡大学
萨里大学
弗莱堡大学
瑞典KTH
德累斯顿大学
达姆施塔特工业大学
瑞士EPFL
鲁汶大学
巴塞罗那计算机视觉中心
瑞士IDIAP
伦敦帝国理工学院
海德堡国际机场
曼彻斯特大学
波恩大学
亚琛工业大学
阿姆斯特丹大学
慕尼黑工业大学
捷克技术大学
剑桥大学
格拉茨
IST奥地利
伦敦玛丽皇后大学
苏黎世大学
代尔夫特大学
利兹大学
伯尔尼大学
隆德大学
特伦托大学,意大利
意大利佛罗伦萨大学
斯图加特大学
萨尔大学
巴黎中央学校
巴黎理工学院
奥卢大学
卡尔斯鲁厄理工学院
3.如果是计算机视觉领域的新手,可以在下面找到一个必须了解的详尽主题列表。
A.初学者水平
数学:
-
线性代数
-
奇异值分解
-
入门级模式识别
-
主成分分析
-
卡尔曼滤波
-
傅里叶变换
-
小波
图像处理:
-
杜克大学在Coursera上提供的在线课程
-
冈萨雷斯和伍兹的数字图像处理
B.
高级
-
线性判别分析
-
概率,贝叶斯规则,最大似然,MAP
-
混合物和期望最大化算法
-
入门级统计学习
-
支持向量机
-
遗传算法
-
隐马尔可夫模型
-
贝叶斯网络
要获得有关事物如何工作(尤其是算法)的实践知识,需要从计算机视觉的角度开始学习OpenCV:
-
学习OpenCV:使用OpenCV库的计算机视觉
-
Tombone的计算机视觉博客
提示:
使用C,C ++,Python进行编程时,我们可以使用OpenCV库实现计算机视觉相关操作。在使用MATLAB进行编程时,我们可以使用
计算机视觉系统工具箱
。同样,如果使用其他语言进行编程,则还有更多的开源库。
我们还应该了解该领域的一些关键词和关键工作,在这里我们可以从中学习到它们中的一些:
-
SIFT
:通用视觉的经典描述符
-
HOG
:众所周知的描述符,特别适合人类检测
-
Viola-Jones:伟大的人脸检测器
-
Shape Contexts
-
Deformable Part Models
必读书籍清单包括:
入门级:
1. 计算机视觉:算法与应用
2. 计算机视觉:现代方法David A. Forsyth,Jean Ponce
3. 计算机视觉中的多视图几何 作者:Richard Hartley,Andrew Zisserman
这里当也少不了我们小白老师的书啦~
4.OpenCV4快速入门(购买链接如下哦~)
高级水平—走
向深度学习:
4. Michael Nielsen的“神经网络和深度学习”在线书;这是一个很棒的,温和的介绍:神经网络和深度学习
5. Ian Goodfellow,Yoshua Bengio和Aaron Courville撰写的深度学习书
TED观看谈话:
1.李飞飞:我们如何教计算机理解图片
2.
BlaiseAgüera和Arcas:PhotoSynth如何连接世界图像
3.
浅川千惠子:新技术如何帮助盲人探索世界
4.
詹妮弗·希利:如果汽车可以
说话,事故是可以避免的
5. 戈兰·莱文(Golan Levin):回望你的艺术
6. Paul Debevec:制作真实照片的数字脸动画
在线课程:
-
Udacity:计算机视觉概论
-
斯坦福大学的CS231n:用于视觉识别的卷积神经网络
-
中央佛罗里达大学-Mubarak Shah教授的视频讲座