专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  通俗版解读 查看图片-20250212073826 ·  昨天  
爱可可-爱生活  ·  【[470星]ggh:让你轻松回忆和管理SS ... ·  2 天前  
爱可可-爱生活  ·  【DeepSeek ... ·  2 天前  
爱可可-爱生活  ·  【[28星]Pippo:从一张照片生成高清多 ... ·  2 天前  
爱可可-爱生活  ·  【学AI怎么打好数学基础?】机器学习的数学基 ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

观点 | 论文连中两大CV顶会,这位博士生分享了自己在谷歌实习的研究心得

AI科技评论  · 公众号  · AI  · 2017-08-31 13:36

正文

AI 科技评论按 :近日,谷歌专为学生群体开设的谷歌学生博客(Google Student Blog)上发出了一篇采访,采访对象是在谷歌做研究实习的博士生 Philip Haeusser。Philip Haeusser 在这段谷歌实习经历中受益匪浅,他也详细分享了自己的感受。AI 科技评论把这篇采访编译如下。

先介绍一下你的博士论文题目吧

大家好!我是 Philip,我的学校是慕尼黑工业大学(TU Munich),目前是计算机科学专业博士三年级,我的导师是 Daniel Cremers。我的研究方向是计算机视觉,就是要让计算机理解图像和视频。对计算机来说,图像和视频仅仅是一大堆没什么含义的数字而已。不过如果用颜色把他们表示出来,人类就可以马上分辨出来图像中有什么内容。

为了让计算机也能做到这样的事情,我的方法是训练神经网络;这是一大类模型,它们可以看作是“迷你视觉皮层”的一种实例。训练的目标是把组成图像的那些数字映射更成有意义的东西,就比如“猫”这样的类别标签。神经网络在这种任务上的表现非常好。我研究过的问题包括 光流 optical flow (“视频中一帧到下一帧之间发生了什么?”)、 领域适应 (“如何让一个领域的知识/标签在另一个领域发挥作用,比如让手写图像的标签在谷歌街景的门牌号识别任务中发挥作用”)。

(AI 科技评论注:光流论文地址

https://vision.in.tum.de/_media/spezial/bib/flownet-iccv-15.pdf

领域适应论文地址:

https://vision.in.tum.de/_media/spezial/bib/haeusser_iccv_17.pdf)

在做研究之外,我还有一个 YouTube 频道“ Pill's Physics ”(https://youtube.com/philsphysics),里面的内容是我做一些科学实验、讨论一些科学知识。

你是如何选择做这个方向的?

2014年的时候,我刚刚在美国加州大学圣克鲁兹分校拿到物理学硕士学位。那时候我在一个研究如何给盲人移植视网膜的跨学科小组里面,有一次实验中我们需要处理一些采集起来非常费钱的数据,然而我们又没法充分利用这些数据,因为我们的数据处理程序过于简单了。所以我就开始自学机器学习和神经网络。我很快就对这东西着迷了,然后开始联系在这个领域做研究的教授们。Daniel Cremers 邀请我过去展示我的工作成果,我觉得非常荣幸,后来他也就成为了我的博士导师。

你选择来谷歌实习的原因是什么?你的导师起到的帮助大吗?

深度学习领域的进步速度非常快。几乎每周都有人发表突破性的新神经网络或者训练方法。很多时候,论文作者都是来自谷歌的。这就让我非常好奇谷歌在这个领域都做了些什么样的研究。在一个夏令营中,我遇到了 Olivier Bousquet,他做了一个关于谷歌大脑团队的演讲,讲得非常棒。他给我介绍了谷歌研究实习生的事情,我就很快发了申请。我的博士导师也很支持我,因为接触新的观点、跟别人接触、跟别人交换意见永远是好事,尤其是在深度学习这样的新领域中。而且,谷歌有很多的资源可以用于研究,很多大学里没有条件计算的实验都可以在这里完成。

你实习期间做的是什么项目?

我很荣幸可以和 Alexander Mordvintsev 一同工作,他是 DeepDream 的创始人之一。我们做的项目是关于一种用无标签数据和半监督学习训练神经网络的新方法的。

我们开发出的新方法叫“从联想中学习(Learning by Association)”。它的思路和“联想游戏”很像,给你一个单词,然后你要回答你联想到的第一个东西。几轮联想下来,一般都会形成很好玩的联想链。

我们做的事情就跟这个很类似:我们首先训练一个能够生成表征(神经激活模式)的神经网络,这样的表征也可以用来做联想。这样的联想就可以把有标签数据和无标签数据联系起来。假设我们能够生成一条有标签数据和无标签数据之间的联想链,然后就可以从无标签数据进行第二次联想,再联想到有标签数据。这样就形成了一个“联想循环”。那么,你就可以把这个循环开头的那个标签和最后联想到的标签做对比。我们的目标是建立连续的联想循环,意思就是说循环中的标签都是相同的。我们给这个过程建立了一个损失函数,然后通过实验表明了这个方法可以极其有效地用更少的数据训练分类神经网络。

你在谷歌实习期间有发表论文吗?

有的,我写了一篇论文并且提交到了CVPR,这是世界上最大的计算机视觉会议;我还在CVPR 2017现场展示了这篇论文。出席大会的旅费也是谷歌出的,所以这段实习经历不仅给我带来了很多业界公司的经验,而且也让我发表了一篇引以为豪的论文。

你在实习期间所做的研究和你的博士研究题目联系紧密吗?

刚开始的时候,我和谷歌大脑团队的人一起探索了很多不同的题目,最后选中的这个和我的博士研究题目配合得非常完美。另外,即便做一个和博士研究题目完全没有关系的项目也会有很大帮助,比如在编程和项目管理技能方面。

你自己写代码了吗?

写了好多呢!我尤其要感谢谷歌的代码审查,让我的代码质量提高了很多,而且让我对代码风格和可拓展性也做了很多思考。谷歌允许代码开源的这一点也让我很高兴,这就跟研究领域的惯例是一样的。这样一来,我在谷歌之外也可以继续研究这个题目,并和全世界的研究人员一起共享这些代码。我还写了一篇后续论文“ 联想领域适应(Associative Domain Adaptation) ”,刚刚也被 ICCV 接收了。

现在你在谷歌实习已经是第二次了,你回到谷歌有哪些原因?

谷歌里面有趣的研究项目太多了,一次实习经历怎么能够呢?哈哈,不开玩笑了,Sylvain Gelly 团队有一个非常有趣的项目邀请我参加。去年我就和他和他的同事碰过面,他们人都很棒,我不想错过这个和他们一起工作的机会。

在谷歌的这段时间里,你都学到了哪些关键技能?

我的代码质量提高了很多。在谷歌有机会跟着有很多经验而且非常聪明的编程人员身上学习,他们写的代码完善、快速,而且他们还能教你如何写出这样的代码。我还和谷歌中很多不同团队、不同背景的人都建立了联系;我遇到了一些优秀的产品经理,给我讲了他们设计成功的产品的时候都有哪些深入的见解。我甚至还跟他们一起开发了一个新的YouTube功能,因为我刚好是一个YouTube内容开发者。其实还有很多,我最后再说一点,我在谷歌内部的健身中心里加入了一个“最强泥人”团队,经过锻炼以后我的身体素质也有提升。

这段实习经历对你的博士学业有哪些影响?

现在回头来看的话,这段实习经历是我博士期间重要的里程碑。我申请实习的时候其实没有期待它会帮我改变一切,但是我觉得自己结束实习的时候是带着满脑子的新点子和浑身的动力回到学校的。







请到「今天看啥」查看全文