编者按:
Johannes Gehrke 博士是微软技术院士,也是微软智能通信和对话云组的架构和机器学习负责人。事实上,他的工作正在为我们所有人服务。在这期播客中,他将介绍微软 Teams 如何在快节奏的商业世界中满足我们实时决策和协作的需求,以及结合了云和 AI 力量的生产力套件如何帮助大家随时随地完成任务。
图1:微软技术院士、微软智能通信和对话云组的架构和机器学习负责人 Johannes Gehrke
采访音频:
主持人:
您是微软体验及设备部门“智能通信和对话云”组的首席架构师和机器学习主管。
您既在产品领域工作,又有深厚的研究基础。
您的主要工作是什么?
Johannes Gehrke:
我主要负责两件事,第一是架构,我在智能通信和对话云组的任务就是支持微软的 Teams。我们之前已经有一些聊天工具,但它们有些过时,我们正在设计新的聊天服务。此外,我还负责人工智能和机器学习,将一系列已有的代码升级为新的模型。这两项工作都能为客户创造更好更新的体验。而且,我有机会和
微软研究院
不同的人进行合作,包括微软在雷德蒙、印度的研究院,还有微软亚洲研究院等等。
主持人:
您所在的部门叫“体验及设备”部门,这个概念几乎能包含所有与计算有关的内容,您能具体解释一下吗?
Johannes Gehrke:
简单来说,这个部门结合了 Windows、Office、设备和浏览器这四项微软利器,但真正的核心是 Microsoft 365,它是涵盖工作和生活的生产力云。具体来说,
Microsoft 365
是一个面向所有客户的协作平台,它可将业务流程直接整合起来,并为设备和应用程序提供安全保障。同时,它还是一个大型、全面、高效的解决方案。如今,我们的观念也发生了变化,从以应用为中心转变为以消费者为中心,让人成为这一套件的核心。我们现在有跨越不同设备和应用程序的工作流,我们所作的每一件事都是为了让用户能够利用微软的产品流畅地完成工作。当你需要完成什么任务的时候,你手边就有所有你需要的数字工具。
主持人:
如果我是客户,我习惯了一个以应用程序为中心的世界,觉得为了某项特定的任务,必须得有一个对应的应用。
微软将如何改变我的体验?
Johannes Gehrke:
我们的套件拥有非常强大的功能,能让工作流在不同的软件和功能之间无缝衔接。比如说,你正在使用 Outlook,要添加一个文档附件,当你点击“附件”按钮的时候,我们就会向你展示最近使用的文档(Most Recently Used Files,MRU)的目录。你可以想象这样一个场景,你刚刚在 SharePoint 上编辑完一个文档,你可能想和他人分享这个文档,那么发送邮件时,就应该将这个文件送到你眼前。
主持人:
如果要向我展示最近使用的文档,需要涉及什么样的技术?
Johannes Gehrke:
这正是云发挥作用的地方。前几代的软件都是在本地运行,它们并不能把数据很好地运用起来。但现在,我们有了云的力量,基本上系统和微软产品的每一次交互都能被记录下来。当然,微软对用户隐私有非常严格的控制,我们现在可以充分利用小部分数据来构建有趣的应用。比如计算出和你协作紧密的人,包括经常互发邮件的人,经常分享文档的人,经常在 Teams 中和你聊天的人。
主持人:
这很有趣。
从更广阔的视角来看,很多软件也在做类似的事,比如社交媒体平台。
我们知道,Snapchat 会算出和你拍照最多的人,这样即使你朋友的 ID 是 Z 开头,你也不用费劲翻列表去找到他。
Johannes Gehrke:
是的,我觉得很像。但不同之处在于,微软的这一套工具并不是试图让你更多地停留在我们的应用中。我们明白,你使用微软产品是为了完成工作,而不是花更多时间在应用上。技术应该帮助工作提高效率。
主持人:
我很高兴,我意识到你是在为我的日常体验而工作。
让我们回到你所在的“智能通信与对话云”组,向我们介绍一下它吧。
Johannes Gehrke:
随着商业的转型和更加分散化,决策流程变得越来越快,即时通信和协作就变得越来越重要。这就是微软 Teams 的意义所在。Teams 的视频会议功能非常好用,即使我们不在同一个办公室,依然可以用 Teams 看到彼此并直接合作;还有在线协作功能,任何能在 Office 中完成的任务都可以在 Teams 中直接完成,比如在 Teams 里共同编辑一个 Word 文档。它还整合了第三方的业务,比如内置的 Planner、GitHub,和许多其他的应用程序,都可以直接连接到 Teams 中,所有的工作流,都在你的手边。
主持人:
大家现在都非常关注隐私问题。
你能不能告诉我们,我需要给你哪些信息,你才能帮我工作?
Johannes Gehrke:
这是个非常好的问题,我认为有两种不同的情况。一种是你掌控自己的数据,另一种情况,通常是在工作中,你的雇主拥有所有的数据。我刚来微软的时候,印象最深的就是
微软对于工程师能够获取的客户数据有多么严格的控制。
事实上,在微软工作的这段时间里,我从未见过任何的客户数据。微软通过非常严格的控制来保护客户和企业的隐私。
主持人:
研究人员会想,“如果我有这些数据,我能把产品做得更好”。
而微软却说:
“不行”!
Johannes Gehrke:
没错。这之间存在一种有趣的张力。举例来说,我们在尝试大量使用像强化学习这样的机制,在某种意义上,模型是自行调整的,我们只是稍微施加一点控制让模型不至于跑偏。我们其实是在训练一些从未见过的模型——我们只能看到用户的信号,却从未见过任何纯文本。我们只看到一些对模型性能的评价指标,比如说,在 Delve 中我们能计算出关系最密切的人员排名,但如果你总是点击第 15 个人而不是前 14 个人,这就给我传递了一个信号,这个排名需要修正。
主持人:
在播客中,我经常问大家“是什么让你夜不能寐”,比如研究的某个关键部分。那么有什么问题让您夜不能寐呢?
Johannes Gehrke:
现在我是产品组的一员,我必须确保我们的服务 24/7 地运转。我一直对微软云的专业性印象深刻,而为客户提供全天候的服务就是其中很重要的一环。我偶尔会担任故障经理。也许有人不太理解 24/7 的服务意味着什么,团队中的每个人都可能成为故障经理,必要的时候我半夜也会爬起来。但另一方面,它展示了我们的工具有多好,因为即使发生了故障,工程师也能够迅速地恢复它。
主持人:
您的一大研究兴趣是数据库系统,曾和其他学者合著了《数据库管理系统原理与设计》,它一直是数据库课程的重要教材。
在这本书 2002 年出了第三版后,这一领域似乎已经有了很大的变化。
图2:Johannes Gehrke博士编写的数据库“红宝书”
Johannes Gehrke:
这本书的第一版是我的导师 Raghu Ramakrishnan 写的。读博士的时候,我们就聊到了不少与这本书相关的话题,我参加了第二版的编写,后来我们又写了第三版。这本书深入介绍了一些关系数据库系统。但我认为现在的数据库系统已经发生了巨大的变化,尤其是云。我认为大家对云的一个误解是,认为它不过是节约成本、拥有多租户和灵活性而已,
但真正重要的是,它能让我们站在巨人的肩膀上,比如有人做了很棒的东西,每个人都可以使用它。
这也是数据库社区正在发生的事情,人们已经开始着手构建一些本地的云数据库,这和传统的关系数据库非常不同。其它方面也发生了变化,比如分布和广域可用性变得更加重要。我还记得万亿字节(TB)被人们称为“恐怖攻击(terror bite)”的时候,现在艾字节(EB)、泽字节(ZB)的数据都出现了。过去二十年发生了太多变化,这本书已经有些过时了。
Johannes Gehrke:
是的,每年我和 Raghu 都会坐下来沉思,考虑推出一个新版本。我想还有一点变化是,过去十年,数据库的概念也发生了很大的变化。我们还处于理解什么是下一代数据库的持久性原则的早期阶段。以前你需要学习关系代数等理论知识。而在云端,一切都变了。我们正在探索下一代数据库系统和它所需的基础。
主持人:
我希望你能顺利完成,这不仅涉及到很多具体工作,还有概念性的东西要搭建。
最后,对于学术研究中的“发表还是毁灭”(publish or perish),你的观点是什么?
我们应该让一千朵花盛开,还是少做点事,然后把它们做得更好?(注: