专栏名称: AI掘金志
雷锋网《AI掘金志》频道:只做计算机视觉 +「安防、医学影像、零售」三大传统领域的深度采访报道。
目录
相关文章推荐
51好读  ›  专栏  ›  AI掘金志

为什么商品视觉识别公司最后都去做了智能货柜?

AI掘金志  · 公众号  ·  · 2019-06-20 19:28

正文

虽然商品视觉识别的想象空间很大,但前提是能识别足够多的SKU,而这在当前的技术条件下还很难做到。相比之下,智能货柜等相对封闭且SKU数量有限的场景,可能更适合这项技术的落地。

作者 | 刘伟



近两年广受追捧的计算机视觉在应用上有几个重要的分支——识人、识车和识物。


其中,应用最广泛的人脸识别几乎已经渗透到了我们生活的方方面面,包括根据用户年龄和长相推荐商品、刷脸支付、人脸抓逃等等。车辆识别技术也已经在交通卡口、停车场、收费站等场景相继落地。


奇怪的是,虽然基于视觉的商品识别技术理论上有非常广泛的应用场景,比如拍照购、货架陈列分析、流行趋势预测等等,但这个领域的企业不管从哪个方向切入,最后似乎都落在了智能货柜这个点上。海深科技就是其中之一。


第一次转型:从技术到产品

海深科技的创始人兼CEO戴剑彬在创立这家企业之前,跟零售行业并没有太多交集。毕业于清华大学的他在美国佐治亚理工学院获得了博士学位,研究方向为人工智能的核心领域——深度学习以及优化算法。博士毕业后他曾先后任职Oracle、Yahoo!等国际知名企业,负责基于大数据的广告等相关业务。


戴剑彬创立海深科技,更多是源自于他2013年加入百度后的职业经历。任职百度期间他发现,百度有很多的图片资源,也做了以图搜图等创新尝试,但却一直没有找到好的变现模式。于是他开始思考能否让图片直接链接到商品,用户拍摄照片或上传图片,就可自动识别图片中的鞋子、包、衣服等商品,并显示商品购买链接。


在这个想法的驱动下,2017年7月海深科技推出了商品图像识别搜索引擎GEEWOO极物,并获得了第一个客户——小红书。随后,2017年9月海深科技从众多竞标商中以识别率高出第二名50%的绝对优势脱颖而出,与京东合作推出京东拍照购,正式打开局面。


但瓶颈也随之而来,戴剑彬很快发现, 电商是一个很小的市场,大大小小的平台加起来就那么多。而且有些平台——比如阿里,自己也在做以图搜商品方面的技术研发。 海深科技要获得更大的发展,就必须突破自己的业务边界。


在做了货架陈列分析等尝试之后,戴剑彬意识到, 虽然商品视觉识别的想象空间很大,但前提是能识别足够多的SKU,而这在当前的技术条件下还很难做到。相比之下,智能货柜等相对封闭且SKU数量有限的场景,可能更适合这项技术的落地。


恰好这时智能货柜正处在风口上,产品供不应求。许多客户找到海深科技,希望它们能够提供相关的技术。内部讨论后,戴剑彬觉得这是个不错的方向,于是和澳柯玛合作在2018年初推出了自己的第一款智能货柜产品G-BOX。海深科技也就此完成了从技术到产品的第一次转型。


现阶段静态识别仍是最佳方案

海深科技的这次转型可以说是顺风顺水,继澳柯玛之后,今年一月份海深科技又和海信集团建立战略合作,获得了后者硬件生产和渠道能力的加持。


今年2月底,海深科技发布G-BOX二代,将可以售卖的产品扩展到了包括生鲜水果、乳制品、烘焙在内的全品类;在保证识别准确率不低于99.8%的前提下,可以做到一秒内完成识别,五秒内回传账单。而这款产品也在海信集团内部获得了立项批准,将作为其正式产品对外推广销售,这对于海深科技来说无疑是如虎添翼。


戴剑彬介绍,G-BOX二代采用的仍然是静态识别方案。他表示, 虽然理论上动态识别具有非常多的优势,比如空间利用率更高、对商品摆放的限制更少,但实施起来也非常困难。动态识别本质上是对视频流的分析,当前4G网络下的网速和带宽难以支持将视频流上传至云端分析。如果在本地分析,则对货柜的算力提出了很高的要求,且不说最后准确率如何,光成本就令商家望而却步了。 比如,YI-Tunnel和深兰科技研究的动态识别智能货柜,价格都在一万元以上。


“虽然有些公司号称几千块就能做出一台动态识别货柜,但我是存疑的,它很可能是靠人工来解决的”,戴剑彬说道。


其实,过去几年在市场和资本的推动下,行业里诞生了不少这样“走捷径”的公司。它们号称人工智能,但实际上只有“人工”没有“智能”。 如果你去逛一些智能货柜的展会,会发现有些货柜的账单回传时间特别长,或者忽快忽蛮,这类产品基本都是背后靠人工来审核的。这在圈子里已经不算秘密了。


利好消息是, 随着5G商用的到来,其强大的网速和低时延等特性允许智能货柜将更多的算力放到云端,让终端在更轻量化的同时还能执行更复杂的任务,未来动态识别货柜的成本有望大幅下降。 戴剑彬表示,海深科技目前也在探索动态识别方案,不过5G网络的普及还要多长时间,目前还很难说。综合方方面面来看,静态识别或许仍然是目前的最佳解决方案。


第二次转型:从产品到运营







请到「今天看啥」查看全文