职位:人工智能编辑记者(全职 & 深圳)
1.文字功底好,学习和沟通能力强,对 AI 行业有一定的认知。
2.英语 6 级及以上的英语水平,计算机科学、电子信息工程、传媒类专业加分。
在这里,你可以亲密接触之前只能在书上看到的国内外人工智能大牛、拿到不亚于工程师水平的薪水,经常漂洋过海参加国际顶级大会……
简历投递:[email protected] (如果有作品,请附上大作)
12 月 5 日,亚马逊发布 Amazon Go 震惊业界。雷锋网第一时间研究了专利文件,并采访资深计算机视觉算法工程师,最终出文
从2份专利文件,一窥Amazon Go到底藏了什么AI黑科技?
今天雷锋网特地采访了无人零售商店创业者陈维龙为大家更加详细地解读 Amazon Go 以及无人零售商店项目。陈维龙毕业于中山大学,曾亲自参与并实施过多套类似的无人零售解决方案系统,对整个项目的流程化体系有着较深的认知和实践经验。
Amazon Go 系统构成
陈维龙把 Amazon Go 系统“拆分”为三部分:人/货架/进出口。其中硬件软件构成如下表:
|
人
|
货架
|
进出口
|
硬件
|
手机
|
摄像头/压力/红外/体积位传感器/光幕
|
二维码识别器/自动门
|
软件
|
专门应用
|
库存管理系统
|
定制系统
|
布局如下图所示:
货架墙壁上安装多个摄像头,多种传感器埋在每层货架的底部或顶部。摄像头负责拍照,光幕/红外传感器负责制造一个水平面,如果用户的手穿过此面表示用户开始实施某种动作,提高图像分析效率。压力/红外传感器用来表示商品的位置和状态,为用户的行为提供数据。
利用这些数据进行深度学习,建立商品—动作—人的判别模型,提高系统反作弊/识别能力。
Amazon Go 的核心技术是什么?
陈维龙向雷锋网透露,
其实 Amazon Go 的核心技术是反作弊/识别系统
,不管它能提供多强大的商业功能,作为无人超市系统,反作弊/识别是它存在的第一要素。
在现有超市,通过便衣巡逻和监控摄像头识别顾客行为是否合法,例如是放在购物袋/车还是放在衣服里,将用户的行为规范到指定的范围,最后通过收银员识别商品和顾客的对应关系,成功解决了谁对什么商品干了什么,从而达成交易。
其中人防和机防是反作弊系统,负责解释顾客行为,从而保证商品与顾客的关系,而收银员负责确认商品和顾客关系。在 Amazon Go 中,系统也要解决谁对什么商品干了什么的问题。
接下来的内容分为大三块,详解 Amazon Go 是如何做的。
一、如何检测和识别顾客的行为:拿走或放回?
陈维龙指出,顾客购物行为非常丰富,从货架的角度来看,核心动作只有拿走或放回两种。
不论如何,商品被从货架拿走了,最大的可能就是被买走了,而被放回来就是你不需要了。如果能识别拿走或放回,那么就解决了核心问题。根据 Amazon Go 专利显示,它是这样做的:
-
采集用户的手进入货架平面前的图像。
-
采集用户的手离开货架平面后的图像。
-
两者对比,可以知道是拿出货物还是放入货物。
如果是拿起,进入前的手和进入后的手及手中的物品等特征是可区分的,这个特征与放入是相反的。简单说,如果是拿起,进入之前手是空的,没有商品的,离开后是手里有物品的。放入则相反。那么如何识别手呢?从形状和图片颜色(肤色)可以辨别。在货架前利用光幕或者红外形成一个平面,就可以知道用户的手到了那里。
除了图片分析,传感器也可以提供这样的数据。多种数据结合,可判断用户行为是拿走还是放回。
二、如何准确识别出被拿走的物品和被放回的物品?
我们知道,有了顾客动作,还要识别动作承受的商品,不然会出现张冠李戴的现象。陈维龙继续解释到,这部分分成两个步骤来处理:识别被拿走的物品和识别放回的物品。
识别被拿走的物品
-
因为物品是被雇员人工放置的,所以该物品可以直接标记到系统中,因此不用图像识别是何种物品(它已经被人工识别了)。用传感器表示它被拿走即可。
-
在某些情况下,商品可能没有被提起设置或者设置后被混乱了,那么此时需要图像识别该位置现有的商品与应该有的商品是否一致。例如,物品 A 被放在 B 物品处,如果只有上面提到的那种方式处理,就会被当成物品 B,不过这种情况较少。
-
如果是高置信度事件,可直接确认,更新(增加)物品清单,否则还有顾客协作确认的环节。
识别被放回的物品
-
在放回物品前,可以通过物品清单确定用户与物品的关系,这些物品的图片被储存在系统内。
-
检索图片,与被放回物品进行比较,识别物品。
-
高置信度即可判断物品正确,更新(删除)物品清单,否则还有顾客协作确认的环节。
-
被放回的物品会存在错放位置的情况,识别后通知雇员整理。
-
不管是拿走还是放回,如果是低置信度事件,会被系统记录分析。
对于正常的购物,在固定区域的商品种类单一,容易识别。对于被错放的物品,因为概率较少识别难度和计算量不会显著增加。但是对于故意作弊的行为,需要极大的计算资源识别。这个问题后面讨论。
三、对某商品进行了某动作的人是谁?