7月12日-7月14日,2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7月14日下午,在「智慧城市·视觉智能」专场上,腾讯优图实验室联合负责人,腾讯杰出科学家,香港中文大学终身教授贾佳亚作为开场嘉宾,率先分享。
甫一亮相,他便提出了一个终极命题,“人工智能的终极应用距离我们到底还有多久?” 他给出的答案是:可能还需要50-100年的发展路径。
贾佳亚教授认为,人工智能学科发展与人类智能差距之一就是“多模态信息的智能化理解”,视觉、声音、符号语言、嗅觉和触觉等信息,具有无限多样性。
而多模态人工智能还存在不少技术难点:第一是数据模态多种多样,包括2D图像、3D模型、结构化信息、文本、声音及更多无法量化的数据;
第二是多模态数据的不对应,如从图像到文字,从文字到图像,都是“一对多”的过程,会有多种的描述和呈现;
第三是多模态数据的融合,一个软件或算法的进步较为容易,但多个算法叠加在一起,难度将几何级上升,如“告诉机器人拿桌子左边的瓶子”,会经过语言模型、三维建模、自动寻路、图像分析等步骤;
第四是多模态监督,“如何告诉机器人拿错了”“哪一个步骤拿错了”也是目前的难点。
而要解决这些多模态信息的难题,贾佳亚教授提出要更好研究嗅觉、味觉、触觉、心理学等难以量化的信号问题,通过多模态数据使得计算成为可能,进行协同学习、用一个资源丰富的模态信息辅助另一个资源贫瘠的模态。
多模态人工智能问题的解决,就会是人工智能更多落地的未来。
以下是贾佳亚教授大会现场全部演讲内容,雷锋网作了不改变原意的整理及编辑:
贾佳亚:大家好,今天来到这里非常开心,因为近期工作繁忙,较少出席外部大会,现在恰逢暑假期间,可能各位同学或者科研爱好者希望外出学学东西,我也在想,CCF-GAIR可能会是一个比较好的机会。
今天我会向大家展示一些新方向的研究。首先给大家抛点砖以引玉,看看人工智能领域学科发展的现状。