结合音频和生命体征数据,AI深度学习系统不仅将可能成为焦虑人群的“社交教练”,而且有望在未来能够研发出“情感智能”,大大改善人们的社交质量。
有一个不争的事实,那就是人们对某一次对话内容可以有迥然不同的理解方式。举例而言,对于焦虑人群而言,这会使他们的社会交往变得极具挑战。但是,如果有一套客观的方法来测度和理解我们交流时所流露出的情绪,情况是否会变得不同?
麻省理工学院计算机科学与人工智能实验室(CSAIL)和医学工程与科学研究所(IMES)的研究人员已近乎给出我们一个潜在的解决方案:一种可穿戴式AI系统,根据人的讲话方式和生命体征来预测交谈是快乐的、悲伤的还是中性的。
Tuka Alhanai是该团队主要成员之一,他也将出席下星期在旧金山举行的国际人工智能协会(AAAI)第31届大会。他表示:“想象一下,在对话结束时,你可以像倒带一样,重现令你周围人感到最焦虑的时刻。而我们的研究只是朝这个方向迈出了一小步,但也表明,人们离出门时随身装一个AI社交教练的时代可能不远了。”
当参与者讲述一个故事时,系统开始对音频、音频的文本转录和身体信号进行分析,并对故事整体基调做判定,准确率达到了83%。使用深度学习技术,该系统还能为会话内的每个五秒间隔打出“情绪分数”。
研究团队的另外一位核心成员MohammadGhassemi表示:“据我们所知,这是第一个以被动但可靠的方式收集对话者身体数据和语音数据的实验,即使受试者进行自然的、非结构化的对话,而我们的研究结果表明,利用收集到的数据为对话的情绪语调进行实时分类是可行的。”
研究人员还表示,若能在多人对话情境中,使用装有这一系统的智能穿戴设备,比如智能手表,从而能够产生更多可供系统算法分析的数据,将有助于系统性能的进一步提高。
德国帕绍大学教授兼复合智能系统主席BjörnSchuller虽没有参与本研究,但他这样评价此项成果:“该团队使用面向消费者的可穿戴设备收集生理数据和语音数据,显示出我们在日常设备中拥有这种工具即将成为现实。技术本身很快会显得更加情感智能,甚至成为“情感智能”。
背后的工作原理
许多情绪检测研究是让参与者观看“快乐”和“悲伤”的视频,或要求他们人为地表现出特定的情感状态。但该研究团队为了努力引出更多的情绪,要求受试者讲一个他们自选的或快乐、或悲伤的故事。
受试者佩戴装有本系统的三星Simband智能腕带——这是一种能捕捉高分辨率生理波形以测量运动、心率、血压、血流量和皮肤温度等体征的研究设备。系统则捕获音频数据和文本转录,从而分析说话者的语气、音调、精力和词汇。
以三星智能腕带对31组持续数分钟的不同对话收集的数据为材料,研究人员对两个算法进行了训练:一种只将会话的总体性质分辨成“快乐”或“悲伤”;第二种则是将每段会话按5秒间隔标记为“正”、“负”或“中性”。
Alhanai指出,在传统的神经网络中,数据的所有特征都被提供给基于网络的算法进行分析。与此相反,他们团队发现,对网络的不同层次组织不同的特征可以提高算法性能。
“系统在不断学习——例如,文本转录中表达的情绪远比原始加速器数据抽象得多。Al在研究人员没有进行有效输入时,机器可以模仿我们人类感知这些交流中包含的感情色彩,这绝对是意义非凡的事情。”
持续开发出能够准确把握人类情绪脉搏的技术
事实是,该算法得到的结果与我们人类可能期望观察到的结果高度匹配。例如,长时间的停顿和单调的声调与悲伤的故事有关,而精力充沛、变化的讲话方式则与快乐的故事有关。在身体语言方面,烦躁不安和心血管活动的增加,以及某些姿势,如一个人把手放在脸上,往往与悲伤的故事密切相关。
平均来说,该模型对每五秒间隔的情绪分类有18%以上的准确度,比现有的方法高出7.5%。
目前,算法虽然还不能可靠到成为一名称职的社交教练,但Alhanai表示,他们正积极地朝着这个目标努力。对于未来的工作,研究团队计划扩大数据的收集规模,考虑使用商业设备,如Apple Watch,让全世界的人们都能更容易地用上这一系统。
“我们的下一步是改进算法在辨别对话情绪方面的准确度,使其能准确辨别诸如无聊、紧张和激动等情绪,而不是仅仅将其标记为‘正’或‘负’。”Alhanai说, “开发能够准确把握人类情绪脉搏的技术,有可能大大改善我们的社交质量。”
这项研究部分由三星战略与创新中心完成。
编辑:杨力
欢迎关注DT君的科幻电影公众号:
招聘
编辑、视觉设计、视频策划及后期
地点:北京
联系:[email protected]
MIT Technology Review 中国唯一版权合作方,任何机构及个人未经许可,不得擅自转载及翻译。
分享至朋友圈才是义举