专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

4位谷歌工程师8分钟视频，带你了解计算机视觉(有字幕)

量子位 · 公众号 · AI · 2017-05-14 12:20

正文

到底什么是计算机视觉？

计算机视觉离我们并不遥远。我们经常挂在嘴边的AR、自动驾驶、人脸识别都是计算机视觉的一部分应用。但这样说来可能又太宽泛了。量子位找到一个视频，里面是一组来自Google的研究人员，一起谈计算机视觉的历史、现在和将来。

虽然都属于计算机视觉领域的专家，但这段视频里的被采访者来自谷歌不同的部门：

Serge Belongie分管移动端视觉；Bill Freeman主要研究PC端视觉；Julian Ibarz和Vincent Vanhoucle这两个小伙，则是机器人技术研究人员。

视频如下。量子位空耳听译，配好了字幕。

另外，量子位从中截图了一部分内容。

Serge Belongie认为，计算机视觉主要包括四个方面，概括起来就是四个Re-开头的单词。首先需要让计算机学会识别（Recognition）图像，在此期间需要为计算机输入大量的被标记图像内容。

之后，需要进行图像重建（Reconstruction）,我们输入的图像信息是二维的，但可以利用算法将之变成三维立体图形。

变成三维模型后，就需要进行图像配准（Registration）了。图像配准是一个比较专业的词汇，是指将不同时间、不同传感器(成像设备)或不同条件下(天候、照度、摄像位置和角度等)获取的两幅或多幅图像进行匹配、叠加的过程。

Serge认为这其实是教会计算机追踪图像，无论是道路上的行人，还是自动驾驶时追踪的车道、甚至是你自拍时的美颜相机，都是在进行图形配准。

最后，我们需要对图像进行重组（Reorganization）。在此阶段需要进行大量的无监督学习。就像小孩子在没有被告知的情况下认识这个世界一样，计算机需要在无标记信息的情况下重组图像。

如同最后Bill Freeman总结的那样，计算机视觉如此迷人就在于它那点让你惊奇的发现。我们看到的计算机眼中的世界，又何尝不是一种动人心魄的美呢。

【完】

量子位正在招募编辑记者、运营、产品等岗位，工作地点在北京中关村。相关细节，请在公众号对话界面，回复：“招聘”。

推荐文章

新智元 · 抛弃OpenAI，Figure亮王牌：史上首次两个机器人「共脑」，网友直呼太恐怖！

昨天

爱可可-爱生活 · 【R1-Nature：在小模型上复现R1推理能力，探索强推理的核-20250220140907

昨天

人工智能那点事 · 罗福莉深夜发声：我不是天才少女，请收手吧！

2 天前

爱可可-爱生活 · 【[812星]SkyReels-V1：开源的人中心视频基础模型，-20250219193135

2 天前

爱可可-爱生活 · 【[370星]simple_GRPO：一个简单的 GRPO（Ge-20250219193305

2 天前

佳木斯日报 · 【当心】上门推销胶管、安装燃气报警器——有人冒充中燃公司上门收费

8 年前

萌宠萌 · 为了让喵不要太胖，主人竟然......

7 年前

摄脉 · 正式开始招生！「风光摄影全程班第2期」

7 年前

食尚知味 · 2017年工资5000元左右的，你就等着面对现实吧！

7 年前

温馨爸妈读物 · 一个人的涵养有多高，看看细节就知道

7 年前