今天,猎云网2017人工智能产业创业创新峰会在北京四季酒店隆重召开。此次峰会的主题为“精·识·致·用”,分别诠释为精准大数据,智能识别,产业结合,生活应用。上百位人工智能领域著名学者、顶级专家和知名投资人参与,共同探讨当今AI的发展创新与变革,将产业与人们的实际应用相结合,为人工智能的普及奠定可行性的基础。
从一个工具发展到一个系统,成立六年时间的图灵机器人又开始把精力放在了应用。在今天的峰会上,图灵机器人郭家为创业者和人工智能爱好者们分享了以《机器人操作系统,多模态语义和人工智能的新趋势》为主题的演讲。
其中提到深度学习,机器人交互的应用等。并提出算法+数据=模型。指出AI 的算法上图灵会贡献自己的算法到社区上,另外国外的一些数据也会分享出来。因此算法大家都可以找到,所以区别在于算法。
会上,郭家用两个例子讲述了消费级机器人可以做什么?其中一个是美国的BLUE RIVER公司,他们所设计的机器人是一个放在拖拉机后面的注射器,这样既能够帮助人工处理杂草,又可以辅助农作物生长的更好。另一个是日本的叫做TWENDY ONE公司,其造价之高,但是功能却只是帮助老人捡起掉在地上的吸管,在使用功能和造价上并不匹配。
因此,图灵要做的是有感情的机器人,机器人是用手和头来表达感情的,用眼睛的颜色表达情绪。通过语义来传达感情,以硬件的形式表达出来。也就是说,消费级机器人是应该更加具有实用性和情感的传达。
最后,郭家还详细讲述了家庭机器人、教育机器人的研发和生活场景的应用。以下是郭家的演讲实录,猎云网(微信:ilieyun)整理删改:
今天我给大家分享的是AI的其中一个领域,就是多模态交互。因为我们都知道AI是一个很大的范畴,里面很多学科,大家现在说的比较多比较流行的是机器学习、深度学习,深度学习是算法+数据等于模型,然后训练各种各样的场景。我们做的场景主要是机器人交互这一块。图灵公司一直专注于做语义技术,我们的理念就是让机器理解世界。国内大家知道聊天机器人做的最好的是图灵,如果有一个人说图灵的东西是因为算法好,我只能说他们没有找到专业的人。现在的领域所有的算法或者95%以上的算法,我们大部分都会找到。怎么找?我们自己贡献很多算法到开源社区,国外国内很多学者高校,斯坦福MIT他们也会把最新的算法分享出来。
大家说算法都可以找到,区别在哪儿?我认为区别主要是在数据。刚才讲到算法+数据等于模型。我们的图灵机器人其实从2010年开始积累这些数据,到2014年我们正式开放出来,面对企企业面对开发者,从2014年年底到现在有40多万的开发者,他们源源不断给我们贡献数据,他们是我们的合作伙伴。这类数据对我们来说有特殊意义,因为我们主要做语义,我们积累的数据就是语料库、知识库,这是我们用来训练我们的语义模型的东西。
我们应用在一个场景下,消费机器人,那么消费机器人可以做什么?我为什么放这样一个图?我们说人和动物的最大区别是什么?初中历史书上学过,人和动物的最大区别是人可以制造工具,人的双手和动物产生最大区别。为什么人直立行走?因为人的双手制造工具而不是像动物一样去爬行。我们放在机器人身上思考机器人的双手可以做什么?我们找了很多场景和案例。
这个公司叫BlueRiver,是我喜欢的创业公司。这个公司特别有意思,说我的机器人很简单是一个注射器,这个注射器放在拖拉机后面,这个机器人可以自动帮助人去完成对杂草的处理,怎么处理?就是把肥料注射在杂草上,可以干掉杂草,这个理念又环保又省人力。他说去年的目标做生菜,今年的目标是做番茄和土豆,这就是这个公司自己定义的机器人的模样。
下面这个例子是日本的养老机器人Twendy One,这个机器人售价一百万人民币左右。它贵在什么地方?我们看到底盘是轮式的,主要是上面的机械结构,从传感器到各个部位,这是最贵的地方。这个机器人是一个反例,首先太贵了,其次它的机械臂的使用价值非常少。这个宣传片里它可以做什么?老人喝饮料的吸管掉地上,它可以捡起来,也可以把老人从床上扶起来,但是这些应用场景不是很实用,这个价钱来说作用不是特别大。
所以回到刚才那个问题,消费机器人可以做什么?如果人和动物的区别是制造工具,那么机器人的双臂目前在我们看来,好像做不了什么有价值的事情。在消费级领域,机械臂的造价过于高能完成的事情过于少,所以我们有了这样新的思考。这是我们和富士康合作的机器人Robohon,这个视频是两个机器人聊天对话,它们聊天对话的过程中它们的手和头是用来表达它们的感情,然后它们的眼睛的颜色是表达它们的情绪。我们在语义过程中,把我们识别出来的情感还有我们想表达的动作,传给富士康的机器人让它传达出来。
我们发现另外一个事情,机器人的双臂还有一个很重要的作用就是表达,表达情感。因为我们知道人类的手,比如我现在讲话的时候我的手会做这样的动作,我为什么做这样的动作?其实跟语义相关。比如现在说我有一个月饼,切一半,你一半我一半,我每一个动作从月饼到切一半,这几个动作跟语言直接相关。动作表达最基础的就是理解这句话的含义。
这是梅拉比安模型,我们可以看到大部分是靠肢体和声音传达,而不是靠语言,如果靠语言是非常累的。记者有一次采访Robohon的发明者,记者说你觉得机器人和人的最大特点是什么?他说机器人会讲话,记者说手机还有Siri,他说你见过人和金鱼讲话吗?和乌龟讲话吗?和手机讲话吗?他看来我们为什么跟动物交流?比如养狗为什么和它交流?它不会说人话,主要是用肢体动作。
这是一个数据统计,白色部分是创新的家用消费级机器人,这个机器人现在还没有发售,另外是我们和奥飞合作的机器人超级飞侠,这两个机器人给用户体验,有动作表情的交互次数和喜爱程度高很多。目前从多模态交互的技术来讲,图灵也是国内唯一一个提供这种技术的公司,我们一直在做语义,做语义的过程中发现语义可以这样用可以这样传达,不用语言传达用动作表情传达。这是另外一个应用场景,我们跟腾讯的合作3月份刚刚上线。大家现在打开QQ群,如果群主开启一个功能聊天机器人功能,你只要关联一个机器人,就是图灵机器人做的。
这个英文场景是什么?我们跟明星或者跟一些有IP形象的,比如孙悟空、爱因斯坦,我们跟他们合作,怎么合作?我们做一个以他们的性格为内容的交互机器人。目前我们也正在跟几个明星合作,做一个符合他们性格的机器人。当然这个机器人聊的内容可能和其他的机器人不太一样,因为它面向粉丝。所以粉丝一般问的问题是,周杰伦在家穿什么颜色的拖鞋?或者你喜欢狗吗?或者你觉得蔡依林怎样?这是粉丝问的问题,这是跟刚才讲的实际机器人它的作用是不一样的。
另外一个应用场景是教育机器人,这是耶鲁大学的调研报告。我们可以看到左边第一张图是让一个小朋友玩一个,或者说去边学边答题,学单词的游戏。第二个是在屏幕上放一个小鸭子,黄色小鸭子,这个小鸭子可以发出声音,就是在他学习的过程中答对了小鸭子给鼓励,答错了小鸭子告诉他这个题怎么做。最后一个是实体的鸭子,这个鸭子不但会语音,还可以动,还可以给他反馈。
最终从学习效果角度来,最后一个我们可以看到机器人的方式是学习效率最高的。我们一开始很多人不理解,包括很多家长不理解,说我很难允许孩子学习的时候,放一个好玩的东西在他身边。但是耶鲁大学的报告让我们看到不一样的结果。这就是动态交互的力量。我的分享就这些,谢谢大家!
[猎云网所有原创及编译文章不可随意转载,白名单授权请联系微信号:lieyunwang(备注“转载+你的公众号名称+文章关键字”),回复关键词“转载”看具体要求]