专栏名称: AI数据派
THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。
目录
相关文章推荐
练瑜伽  ·  贾玲消失在各大春晚,她做错了什么? ·  3 天前  
大树乡谈  ·  闲聊三五句 ·  3 天前  
時間的玩家TimeIsArt  ·  每日临在 | 2025.02.21 ·  3 天前  
時間的玩家TimeIsArt  ·  每日临在 | 2025.02.21 ·  3 天前  
51好读  ›  专栏  ›  AI数据派

一文读懂AI如何判断照片中人物的社交关系

AI数据派  · 公众号  ·  · 2018-07-10 07:30

正文

本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处

本文 2256字 ,建议阅读 6分钟

本文为你介绍AI判断人物社交关系的原理、方法和效果。


人类,天生就有八卦嗅觉。


比如匡扶正义的侦探组合:


 


就非要YY成CP。


明明是亚瑟王和梅林大法师的中古传奇:


 


还是要YY成忠仆小法师保护二缺王子的基情故事。


明明是江户时代正经武士:


 


还是要臆测人家的性取向。


可能是遗传了人类父母的八卦天分,机器们也学会八卦了。一项中山大学人机物智能融合实验室与商汤科技合作的研究,就让机器学会了判断照片中人物的社交关系。


换句话说,把你和你基友或女友的合照拿给AI看,它就可以判断出:


这两个人,关系不一般呦。


 

同学哪个班的?早恋要叫家长的哦


比如下面这张图:


 


这三个男人是什么关系?


他们系着领带,旁边摆放着书籍资料,一侧还有电脑的键盘,中间那位笑的那么不自信, 肯定是传说中的乙方跪舔甲方了


AI没有那么加戏,淡定的说:professional,职业关系。


毕竟,万一它把老板认错了,那就十分尴尬了。

 

而在这幅照片中,AI发现主角是两女一男,他们面前有酒瓶,有酒杯,仿佛是朋友在聊天。


但后面不同了,背景居然是一张大床,看来,三位主角是在卧室旁边的阳台上了。


所以AI很淡定的给出了判断:family。


无知者无畏,也不知道这两位女士和一位男士组成了怎样的一个family。不过,AI同学开放的心态值得我们这些车技不好的人类学习。


数据集:人类社交启蒙


既然要让机器理解人类的“基情”,首先就需要一位启蒙者告诉机器:


什么是基情?


 


鉴于这是一个让人十分难以开口的哲♂学问题,那我们就把这个问题交给数据集老师,反正它们没有意识,下限比较低。


所幸的是,在这项研究之前,就有许多AI和心理学界的老司机对“人与人的关系”这一话题进行过探讨,给我们留下了许多充斥着哲♂理的社交关系探讨,还有成千上万的数据。


比如,心理学研究者Daphne Blunt Bugental在2000年就将人与人的社会关系分为了五个大类和16种关系,并且贡献了社交关系数据集 PIPA, 请注意,是PIPA,不是papi酱。


在后来研究者们的努力后,PIPA有了26915个带注释的人物关系数据。


除了PIPA之外,另一个主要的数据集叫 PISC ,这可是上世纪的祖传数据集了,是一位名叫艾伦·菲斯克的心理学家,在1992年根据人类的社会层级写了一本书,叫做《社会性的四种基本形式:统一的社会关系理论框架》。


书中定义了3种粗略的社会关系和6种细分的社会关系,作者还顺便搞了PISC数据集,包含22670个图像,标注了覆盖以上九种社交关系的96568对社交关系数据。


感谢这些心理学前辈,让可爱的数据们“教坏”懵懂的AI。


读懂关系:GRM+GGNN


现在,就该模型与神经网络登场了。


研究者们训练了一个 图推理模型 (Graph Reasoning Model,GRM),由该模型结合 门控图神经网络 (Gated Graph Neural Network,GGNN)对社会关系进行处理。


 


研究者们设计了这样一个流程:


GRM根据图上人物区域的特征来初始化关系节点,然后用预先训练的Faster-RCNN探测器搜索图像中的语义对象,并提取其特征,初始化相应的对象节点;


之后GGNN负责计算节点特征,通过图传播节点消息以充分探索人与上下文对象的交互,并采用图注意机制自适应地选择信息量最大的节点,以通过测量每个对象节点的重要性来促进识别。


把物品和关系编织在知识图谱上


最终的研究成果需要变成知识图谱上的结构化数据。


这份知识图谱需要包含两种内容:


社交节点,即酒瓶、床、书籍有社交场景意义的道具;还有社交关系,家人、朋友、同事还是情侣。


通过特征向量计算后,逐步优化,在PISC数据集的基础上,研究者得出了类似下面这样知识图谱:


 

可以看得出,该示例中的社交关系主要涵盖夫妻/情侣、家庭、朋友、职场四种,而照片中可能出现的不同物品则对应着不同的社交关系,比如:


当烤箱出现,那八成是家庭关系;


当键盘出现,那肯定是在办公室;


当汪星人出现,那要么是一家人一起遛狗,要么就是和朋友一起撸狗了;

……


效果


准备好了知识图谱,就可以开始测试研究成果了。


 


这张图上我们可以看到,人们身边有电脑、水杯、背包、桌椅等物品;


 


经过知识图谱判断,电脑和背包两个物品十分强烈的指向了工作场景,因此这张图上人们的社交关系被判定为prefessional,像是年轻人像年长的专家请教问题。


 

 


而下面这张图上,儿童与成人之间放满了披萨和碗碟,虽然也有水杯、桌椅、书籍这些非明显家庭特征的物品存在,但凭借披萨和碗碟,还有桌子上的肥宅快乐水,图上的三个人这么能吃,一定是一家人。







请到「今天看啥」查看全文