本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处
本文
共
2256字
,建议阅读
6分钟
。
本文为你介绍AI判断人物社交关系的原理、方法和效果。
人类,天生就有八卦嗅觉。
比如匡扶正义的侦探组合:
就非要YY成CP。
明明是亚瑟王和梅林大法师的中古传奇:
还是要YY成忠仆小法师保护二缺王子的基情故事。
明明是江户时代正经武士:
还是要臆测人家的性取向。
可能是遗传了人类父母的八卦天分,机器们也学会八卦了。一项中山大学人机物智能融合实验室与商汤科技合作的研究,就让机器学会了判断照片中人物的社交关系。
换句话说,把你和你基友或女友的合照拿给AI看,它就可以判断出:
这两个人,关系不一般呦。
同学哪个班的?早恋要叫家长的哦
比如下面这张图:
这三个男人是什么关系?
他们系着领带,旁边摆放着书籍资料,一侧还有电脑的键盘,中间那位笑的那么不自信,
肯定是传说中的乙方跪舔甲方了
。
AI没有那么加戏,淡定的说:professional,职业关系。
毕竟,万一它把老板认错了,那就十分尴尬了。
而在这幅照片中,AI发现主角是两女一男,他们面前有酒瓶,有酒杯,仿佛是朋友在聊天。
但后面不同了,背景居然是一张大床,看来,三位主角是在卧室旁边的阳台上了。
所以AI很淡定的给出了判断:family。
无知者无畏,也不知道这两位女士和一位男士组成了怎样的一个family。不过,AI同学开放的心态值得我们这些车技不好的人类学习。
数据集:人类社交启蒙
既然要让机器理解人类的“基情”,首先就需要一位启蒙者告诉机器:
什么是基情?
鉴于这是一个让人十分难以开口的哲♂学问题,那我们就把这个问题交给数据集老师,反正它们没有意识,下限比较低。
所幸的是,在这项研究之前,就有许多AI和心理学界的老司机对“人与人的关系”这一话题进行过探讨,给我们留下了许多充斥着哲♂理的社交关系探讨,还有成千上万的数据。
比如,心理学研究者Daphne Blunt Bugental在2000年就将人与人的社会关系分为了五个大类和16种关系,并且贡献了社交关系数据集
PIPA,
请注意,是PIPA,不是papi酱。
在后来研究者们的努力后,PIPA有了26915个带注释的人物关系数据。
除了PIPA之外,另一个主要的数据集叫
PISC
,这可是上世纪的祖传数据集了,是一位名叫艾伦·菲斯克的心理学家,在1992年根据人类的社会层级写了一本书,叫做《社会性的四种基本形式:统一的社会关系理论框架》。
书中定义了3种粗略的社会关系和6种细分的社会关系,作者还顺便搞了PISC数据集,包含22670个图像,标注了覆盖以上九种社交关系的96568对社交关系数据。
感谢这些心理学前辈,让可爱的数据们“教坏”懵懂的AI。
读懂关系:GRM+GGNN
现在,就该模型与神经网络登场了。
研究者们训练了一个
图推理模型
(Graph Reasoning Model,GRM),由该模型结合
门控图神经网络
(Gated Graph Neural Network,GGNN)对社会关系进行处理。
研究者们设计了这样一个流程:
GRM根据图上人物区域的特征来初始化关系节点,然后用预先训练的Faster-RCNN探测器搜索图像中的语义对象,并提取其特征,初始化相应的对象节点;
之后GGNN负责计算节点特征,通过图传播节点消息以充分探索人与上下文对象的交互,并采用图注意机制自适应地选择信息量最大的节点,以通过测量每个对象节点的重要性来促进识别。
把物品和关系编织在知识图谱上
最终的研究成果需要变成知识图谱上的结构化数据。
这份知识图谱需要包含两种内容:
社交节点,即酒瓶、床、书籍有社交场景意义的道具;还有社交关系,家人、朋友、同事还是情侣。
通过特征向量计算后,逐步优化,在PISC数据集的基础上,研究者得出了类似下面这样知识图谱:
可以看得出,该示例中的社交关系主要涵盖夫妻/情侣、家庭、朋友、职场四种,而照片中可能出现的不同物品则对应着不同的社交关系,比如:
当烤箱出现,那八成是家庭关系;
当键盘出现,那肯定是在办公室;
当汪星人出现,那要么是一家人一起遛狗,要么就是和朋友一起撸狗了;
……
效果
准备好了知识图谱,就可以开始测试研究成果了。
这张图上我们可以看到,人们身边有电脑、水杯、背包、桌椅等物品;
经过知识图谱判断,电脑和背包两个物品十分强烈的指向了工作场景,因此这张图上人们的社交关系被判定为prefessional,像是年轻人像年长的专家请教问题。
而下面这张图上,儿童与成人之间放满了披萨和碗碟,虽然也有水杯、桌椅、书籍这些非明显家庭特征的物品存在,但凭借披萨和碗碟,还有桌子上的肥宅快乐水,图上的三个人这么能吃,一定是一家人。