来源:灯塔大数据
概要:过去一年中,我们听到不少公司在谈到未来的时候都会谈到一个词,叫做「All In AI」,腾讯在 AI 方面的战略也用一个词概括,那就是「AI In All」。
「过去一年中,我们听到不少公司在谈到未来的时候都会谈到一个词,叫做「All In AI」,腾讯在 AI 方面的战略也用一个词概括,那就是「AI In All」,希望我们研发的 AI 技术并不是关起门来服务自己的产品,而是开放出来,分享给全行业,真正和各行各业的实际应用结合,从而让 AI 得到实际价值的发挥。」11 月 8 日,腾讯 2017 年全球合作伙伴大会在成都举办,腾讯 COO 任宇昕在演讲中提到。
那么,腾讯如何 AI In All?
答案是:以「基础研究、场景共建、AI 开放」为战略层层递进。在基础研究方面,据腾讯 AI Lab 主任、杰出科学家张潼介绍,腾讯将着重于语音识别、自然语言处理、计算机视觉、机器学习这四大领域。而 AI Lab 自成立以来,至今为止共发表论文 81 篇,目前在 CVPR、ACL、ICML 共入选论文量 21 篇,NIPS 发表 1 篇。
场景共建
在场景共建层面上,游戏、社交和内容作为腾讯的三大核心优势,自然会首先使用到 AI 技术。
1. 游戏场景
在此前的演讲中,张潼曾经提到游戏与 AI 的结合,他认为,游戏场景能够积累决策系统、增强学习等一系列基础技术,而这些基础技术的积累,除了能在游戏场景中发挥作用之外,也可以在无人车等领域得以使用。
在腾讯合作伙伴大会 11 月 8 日的「创想·人工智能」论坛中,腾讯 AI Lab 机器学习中心负责人刘晗发表《游戏 AI:虚拟世界对物理世界的赋能》演讲时表示,游戏 AI 是人工智能与博弈论的一个交叉领域。从小的方面来说,游戏 AI 研究如何用人工智能技术来提升人类玩游戏的体验。从大的方面来说,游戏 AI 研究人,智能体,以及环境之间的复杂交互关系,而这远不止于游戏本身。
对于腾讯来说,则对游戏研究的三个核心能力感兴趣。第一是感知的能力,第二是对话的能力,第三是决策的能力。刘晗认为,这相当于人类大脑的三个不同区域。比如说,决策相当于左脑,对话能力相当于右脑,而感知相当于人类大脑的后脑那一部分。
具体来说,涉及对外界环境的感知,根据状态做出的决策,人与智能体之间的对话。比如,围棋中的游戏场景,可以通过感知棋盘的全局表达状态决定在哪里落子。现实中的无人车,同样可以通过视觉,激光雷达的感知对方向盘,刹车等动作做出决策。
「这是一个富有挑战而令人振奋的研究课题,研究当中累积的经验、方法与结论,能在更广大深远的范围被利用。」刘晗认为,首先能够打通虚拟与现实世界的藩篱,从而赋能物理世界,比如无人车和机器人的发展;其次,游戏中对话智能的研究,或能成为通向强人工智能的重要路径;第三,研究游戏中人、智能体和环境的交互,能让智慧城市这样复杂而意义深远的项目受益。
但是,刘晗认为,研究游戏 AI 挑战很大。
一,游戏的状态空间过大。比如很多战略型游戏的状态空间是无穷维,远大于围棋空间。因此,腾讯研发了机器人大脑,这是整合了模型、算法与计算体系结构的解决方案,整个系统的核心是使用深度神经网络来建模超大规模的状态空间。
二,大量复杂的多玩家游戏需要多个智能体协调操作。然而,刘晗指出,目前还缺乏这方面的理论支持。而要设计出一个完善的多智能体 AI,将强化学习的价值网络与描述宏观战略的行为树进行互操作,并使其融合是核心问题所在。
三,绝大部分游戏 AI 是用模拟器在一个理想化的虚拟世界中开发。如何打通虚拟与现实,同样是一个核心挑战。腾讯的解决方案结合反向强化学习及动态探索机制,对游戏 AI 中的参数进行贝叶斯升级。以此保证在现实世界花最小的成本来成功部署。
「这一套感知、对话与决策模块,形成了一套通用系统,未来有望在现实中被应用到更多场景中,这就是我们说的虚拟对现实的赋能。」刘晗在演讲中总结道。
2. 社交场景
社交方面,张潼在此前曾表示,他们主要关注对自然语言的理解、语音识别、智能家居的交互,例如语音识别和机器翻译,还有智能助手、聊天机器人、人机对话的开发。
同样是在「创想·人工智能」论坛中,腾讯 AI Lab 机器翻译平台侧负责人杨月奎则带来了他们在机器翻译中的最新进展,而在现场,他的演讲内容同样进行了实时翻译。
然而,杨月奎认为实时翻译,并不容易。尽管因为神经网络机器翻译(NMT)的出现,错误率大幅下降,但杨月奎认为,依然面临众多挑战。比如,会面临译文忠实度的问题,很有可能译文丢失或跑飞。对此,他们则使用交互式的 Attention 模型来增强 Attention 机制,利用重构模型加强翻译完整性的学习,利用 Rerank 模型选取更优的译文。
而有一些低频词,训练难度也更大,有些实体词很可能翻译不出来。为了加强对低频词的训练,引入子词模型。
此外,对训练数据的规模,也有着更高的要求。因此,为了提升训练效率,他们采取并行训练框架,支持多机多卡并行训练。除此之外,还加入了深层网络、残差网络和模型融合等技术。
据介绍,目前他们已支持中文、英语、粤语、日语、韩语、法语、德语、西班牙、越南语等多种语言。
对于社交 AI 的研究,张潼则表示,下一个社交是基于人机对话的涉及,语音识别,会持续下去。会跟业务部分合作,也会有一些新的产品推出。
3. 内容场景
「分析内容、理解内容、理解用户,更好的匹配,更好的搜索推荐是我们在研究的重点。」张潼说。
多媒体则是其中重要的部分。「我们正在进入一个「多媒体内容消费」的时代,每个中国人每天都在消费大量的多媒体内容,也在提供大量的多媒体数据。在 AI 领域,多媒体 AI 将赋予计算机处理、识别、理解内容的综合能力。从图像到多媒体,数据维度大大提升,我们希望走出一条自主的创新之路,因此发展了三个基础 AI 能力:处理、识别、理解。」腾讯 AI Lab 计算机视觉中心负责人刘威在「创想·人工智能」论坛中发表以《多媒体 AI:睁开机器之眼》为主题的演讲时说。
刘威介绍,在这些方面,他们取得了一些科研成果。比如在 OCR(Optical Character Recognition,译为光学字符识别)任务中取得六个第一,其中三项是针对网络图片文本,另外三项是针对聚焦场景文本。
另外,由于视频人脸检测和识别需要克服视频中人脸的低分辨率、姿态、遮挡、表情、妆容、光照等挑战。在这方面,他们也取得了比较好的结果。
此外,还有图像描述生成技术。「图像识别,是计算机识别目前最有挑战的课题之一。因为要进行图像到文本之间的有机过度。要全局和局部表示,图像和文本之间用原创的机制连接它们,整个架构进行端对端的训练,最后才能得到一个很好的模型。」刘威说。
「我们对整个深度学习架构(包括卷积神经网、长短时记忆网、多阶段注意力)进行端对端的训练,实现图像到文本的有机过渡,得到一个很好的模型。这项技术目前在最权威的 MS COCO 数据集上排名第一。」刘威表示。
基于这项技术,他们开发出了一个中文图标生成的系统,「每个人上传一张图片到 QQ 空间,我们都知道这些图片在说什么。同时可以对图像文本进行一个对话,对于可视的内容进行交互。如果残障人士看不到这个图像,这个系统可以告诉他图像里面是什么。」刘威介绍道。
而在 7 月,腾讯 QQ 上线了视频滤镜的功能。据刘威介绍,这个需要深度网络保持时空的一致性,高效实现渲染后的视频。
「这里面有很多层技术,我们有一系列 3D 图象算法,这个定位都是实时运行,当你的手机动的时候,我的算法仍然在跑,能够永远的知道你这个 3D 的东西在什么地方?我们的视觉算法是实时的运行。有很多运营的场景。包括我们的游戏娱乐,包括场景呈现与机器人识别都有。」刘威表示,他们的目标是打造最高级的技术,最好的技术,希望建立一个非常好的技术矩阵,涵盖多种处理视频分发,最后能够覆盖整个 AI,并将这些技术持续开发输出给合作伙伴。
作为一个 AI 实验室,张潼表示,在跟腾讯内部的应用场景合作时,AI Lab 会把自己的成果展示给业务部门,比如在人脸识别技术上,腾讯在评测的数据上拿到了两项第一,而人脸识别的多处研究就是如何把模型做得更强以便提升人脸识别效果,而有了这个模型之后,业务部门就会找上门来,比如视频部门,会来咨询如何识别观众关心的明星,以提高用户体验。
探索AI与传统行业
除了将 AI 技术应用于内部的产品之外,腾讯还积极探索 AI 与传统行业的结合,「腾讯觅影」就在这样的背景下推出。它由腾讯互联网+合作事业部牵头,聚合了 AI Lab、优图实验室、架构平台部,融合了图像识别、深度学习等技术的医疗应用。
据介绍,「腾讯觅影」每个月能够处理上百万张医学影像,而食管癌、肺癌、糖尿病三个病种的筛查,已经进入临床预试验。「腾讯觅影」对食管癌早筛的准确率超过 90%,肺结节早筛系统准确率超过 95%,可检测 3 毫米及以上的微小结节,糖网病变识别准确率更高达 97%。
除了食管癌、肺结节和糖网病变外,「腾讯觅影」还将进军乳腺癌、宫颈癌等病种的筛查。
除了医疗之外,据介绍,腾讯 AI 在金融、零售、其他商业方面还将有大量应用案例,接下来腾讯将借助腾讯云和 AI 开放平台,为「AI in all」战略服务。
开放AI能力
「过去一年多公司在全世界请了很多科学家,提高 AI 研发能力,腾讯有很多游戏音乐等场景可以 AI 化,外界的很多传统行业需要 AI 改造,要打造生态平台。」腾讯开放平台副总经理王兰在演讲中表示。
在平台层上,则将以腾讯开放平台为载体,从扶持合作伙伴、AI 人才引进、项目打造,降低 AI 创新创业门槛,使腾讯 AI 与行业协同发展,「下一年要开放腾讯的 AI 能力,比如腾讯开放平台,但是明年希望给大家更多的服务。这里面会做一系列平台型的工作,对于开发者中小企业自己做不了的事情,可以利用开放平台增加自己的能力。」张潼说。
腾讯AI Lab除了研究AI基础能力和探索应用场景之外,跟高校合作培养AI人才,也是他们的一个计划
目前,在腾讯 AI 能力对外开放上,腾讯开放平台已推出了人工智能站点 AI.QQ.COM 和腾讯 AI 加速器。前者会接入腾讯的情感分析、智能闲聊、机器翻译、自然语言处理、语音识别、语音合成、声纹识别等 AI 能力。而后者自 2017 年腾讯发布 AI 加速器计划之后,从全球 1000 个项目中挑选了 25 家进行合作,入驻腾讯 AI 加速器的公司不仅可以获得资源等方面的支持,AI.QQ.COM 的 AI 能力也正在向他们开放。