专栏名称: 硅谷密探
硅谷第一科技媒体, 为你带来最生动的产品报道和推荐、独家的硅谷创业公司访谈,链接中美创业者与投资人。读硅谷,看硅谷,去硅谷!
目录
相关文章推荐
36氪  ·  那个要挑战GPT的00后清华男孩|WAVES ·  2 天前  
新浪科技  ·  【#Switch2掌机第三方效果图曝光#】据 ... ·  4 天前  
36氪  ·  中国「午睡第一省」,不想睡了 ·  1 周前  
51好读  ›  专栏  ›  硅谷密探

苹果农村包围城市或成深度学习最大赢家,以及两个价值百万的idea | AI严肃说

硅谷密探  · 公众号  · 科技媒体  · 2016-12-24 10:14

正文


今年的NIPS大会上,Google不但作为铂金赞助商强势占位,而且携28篇论文亮相,不可不谓风头无二。 据悉Google搞深度学习的不下500人,也发布了TensorFlow等一系列有影响力的开源框架。


苹果则在深度学习领域似乎动作缓慢,人工智能界著名的大(peng)嘴(zi) ,Facebook人工智能实验室总监LeCun也怒喷苹果在人工智能学术圈根本没有一席之地。(当然被他喷过的人很多,以后有机会再八)



不过LeCun万万没想到,苹果却很可能走上了一条农村包围城市的道路,默默在憋大招,搞了一套叫Metal的深度学习框架,让所有程序员都可以轻轻松松的使用深度学习。深度学习有望在苹果的带领下发扬光大,让其他竞争对手陷入人民战争的汪洋大海中...


另外,文末有两个价值百万的idea!!!



先来看一个演示:



这是利用苹果的深度学习开发包Metal调用CNN做的图像识别的演示,可以看到它能在手机上实时的识别出笔记本,iPod,或者是遥控器。


注意,这里有两大亮点,第一就是输入是实时的视频流,第二就是无需联网在iPhone本机就可以做。


这个意义有多大呢?


2012年的时候,谷歌用了一万六千台机器集群,用一千万个Youtube视频,训练了很长时间才达识别视频中猫的效果!


如今,你用一个不联网的iPhone就能做到了...



是不是觉得难以置信!


简单的说,苹果的深度学习开发包Metal能够让广大iOS开发者非常方便的调用Metal提供的API来输入数据,选择模型,以及设置并发,并通过Shader的封装直接控制GPU。


再直白点,只要你懂Swift,只需要一台最新的iPhone 7手机,你就能开发基于深度学习的应用


这套Metal的框架,让你能够搭积木一样搭出一套深度学习的应用,并提供了一套接口让你直接操控GPU里的运算单元(得益于A10芯片是苹果自己做的)。


在程序员大致了解了各种神经网络的适用范围之后,拍脑袋或者实际测试自己适合的神经网络模式,然后就可以鼓捣深度学习的应用了,就像写Swift代码一样容易。


是的,童叟无欺,你可以做语音识别、图像识别、NLP等各种应用,文末我还会提供源代码!


比如利用Metal这个框架,你可以做语音识别!下面是个Demo:



你还可以调用CNN做图像识别,深度学习技能Get!




其他的图像聚类啊打标签啊,也是分分钟的事情啊!


嫌这个图像识别太简单?


第一个例子里,你能开发基于深度学习的实时图像识别,也就是直接用手机摄像头做实时的图像识别。



操作各种图片,聚类啊,打标签啊,滤镜什么的,那是分分钟的事情。



瞬间,你就成了会深度学习懂人工智能的高科技码农,想想是不是有点小激动啊?


不得不说,Metal对于iOS开发者,甚至是所有的程序员来说是意义极其重大的(可以想象其他厂商也许会跟随,不过壁垒在于苹果是自己开发的A10芯片才能够操作底层GPU):



这是一件“开发者的大事,大快所有人心的大好事”。


还不信么?


探长去采访了Polarr的CEO Borui Wang,他给我们展示了他们基于Metal的API做的一个相册应用Picky Album,中文叫“霹雳相册”。(App Store中搜索“霹雳相册”即可下载)



这个APP可以智能图片聚类,挑选最好的照片,并且能智能修图。



在霹雳相册里输入"cat",相册里所有猫的图片就出来了!(下次更新的时候会推出此功能)




输入"church",相册里所有教堂的图片都出来了!




对iOS开发者的意义


Borui Wang在采访中表示,Metal这个框架对于iOS开发者而言意义重大,苹果开发者等于拥有了直接在本地做深度学习的能力。


可以在本地做图像识别、语音识别、自然语言处理、图像聚类等各种功能,效率上会有极大的提升。


目前霹雳相册在iPhone本地用10分钟左右就能为几千张图片做索引,接近1秒处理10张图片,而传统的深度学习需要在云端计算,上传一张图片最快也要接近1秒钟,这已经是10倍以上的效率的提升。此外,Metal还在开发一个批处理功能,在未来几个月内,批处理的预计能提升5-10倍的效率。


霹雳相册除了使用深度学习进行图像处理,也利用深度学习做智能挑图,通过记录用户挑选最佳照片的行为,优化智能推荐引擎。


Metal这个框架对电商类应用,以及涉及到人脸识别、图像识别、自然语言处理的应用都会有量级的提升,此外,在iPhone上做深度学习,将摆脱对网络的依赖,解决了网络延迟的问题,也为用户节省了流量。


目前苹果官方还在改进Metal的性能,提高并发能力,预计明年一二月份会有最新的版本。


苹果“Apple Brain”战略


Metal框架的推出,暗合了苹果“Apple Brain”的战略,是的,传说中的“Apple Brain”已经内置于你的iPhone中。


在这个战略下,Apple在2015年收购了人工智能初创公司Perceptio,后者主要是在手机本地做深度学习,同时与之配合的是硬件层面上iPhone 7采用了苹果自己设计的搭载6核GPU的A10 Fusion,计算能力大幅提升。



区别于谷歌等Google Brain都是在云端,苹果选择了把苹果大脑放在你的手机上!


苹果选择在本地做计算也有保护隐私的考量,这缓解了云端数据的安全隐患,也发挥了自己最大的优势,自己的设备大量被装在了用户的口袋里。


这个策略的选择一方面也是无奈之举,虽然4G网络不断发展,但是网络带宽和速度的问题一直没有得到解决。计算机科学家想象中的那种只需要一个客户端来访问,然后把计算都放到云端的美好想法一直举步维艰,网络基础设施依然步履缓慢,比如Google Fiber计划就困难重重。



Metal这套框架如果成功,以后很有可能Siri不需要网络也能运行,而当前Google Assistant和Amazon Echo等都是在云端运行。除了可以本地跑Siri,同样可用于识别陌生来电,自动显示附近标记的酒店等功能都可以做。


那么苹果手机也不再是一个简单的智能手机,而是一个无所不能的传感器,能感知你的位置你的温度你的环境,简直成了你大脑的自然延伸。


当然,Metal更重要的意义在广大开发者都拥有了深度学习的武器!


福利


此外,我们还提供两个价值百万的idea:


第一:开发和训练一套能够识别品牌商品的SDK,比如爱马仕或者奔驰什么的,在朋友圈或者微博等上面的商品图片识别后立马就能导购了,在合适的时间点卖给这些厂商或者电商网站,或者自己做导购电商。


第二:训练一套模型,通过你身体的姿势和动作等,来判断你是不是在开车(如何区分是在坐车还是开车,或者是步行),这是一个非常有用的模型,这个功能的重要性相信开发者都懂的,还是那句话,找到合适的时间点,一定能卖出去。


请告诉你身边的程序员朋友,他们说不定就成了百万富翁了!


p.s. 关注硅谷密探,公众号后台回复“Metal”,获取Metal开发文档和上面的实例代码。



本文为硅谷密探旗下《AI严肃说》专栏文章



 作者:严肃 

“硅谷密探主笔,麻省大学人工智能方向研究生毕业,与通用汽车合作过为期两年的无人驾驶科研项目,在国际人工智能联合会议(IJCAI)等学术会议上发表过多篇论文,在写一系列AI的文章”



往期文章:

人工智能将左右下一代终端的成败

扎克伯格、马斯克、贝索斯都投的人工智能公司在干什么?

专访Google X创始人、无人车之父特龙

人工智能创业需要跨过的5个坑

谷歌为什么吹响人工智能优先的号角?

别开玩笑了,聊天机器人目前不是风口,只是大公司的玩具

最杀马特的教授,恶搞川普希拉里,却是计算机图形学的奇才

人工智能打脸史





长按二维码关注,随密探潜入硅谷

网站:www.svinsight.com

微博 & 知乎:硅谷密探