专栏名称: AI那点事
内部消息、行业趋势、大局分析,在这里你能了解到关于人工智能的一切~
目录
相关文章推荐
机器之心  ·  AI「视觉图灵」时代来了!字节OmniHum ... ·  2 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  3 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  3 天前  
宝玉xp  ·  //@爱水de鱼儿:好答案来自于好问题 ... ·  3 天前  
宝玉xp  ·  转发微博-20250204101947 ·  3 天前  
爱可可-爱生活  ·  《爱可可微博热门分享(2.2)》 ... ·  4 天前  
51好读  ›  专栏  ›  AI那点事

老尼推荐 | CV和Machine Learning的技术和应用思考

AI那点事  · 公众号  · AI  · 2017-03-29 20:13

正文

人工智能的话题现在已经热到了时代的浪潮之巅,井喷的创业公司每天都在成立和死去,巨头也都在忙着各自布局。这场盛宴疯狂而又浪漫,充满了不确定性和不可言说的可能性,技术每天都在迭代更新,而应用场景也在时刻推陈出新。


在整个大AI的框架下,计算机视觉和机器学习是目前最热门的两个方向。 今天就来聊聊这方面的话题——CV和Machine Learning的技术和应用思考。





上周末,一场线下知乎盐沙龙的主题围绕人工智能展开,虽然这个话题现在基本上已经被讨论的烂大街了,但是这几位AI领域的大咖还是靠各自精彩的言论撑起了干货满满的整场活动。


在现场的讨论环节中,几位大咖把人工智能领域中那些看似晦涩难懂的话题和概念,都进行了深入浅出的分享。老尼把干货搬出来,内容如下,欢迎好评转发~🤔🤔

一.计算机视觉的四大应用场景


1. 无人驾驶



无人驾驶是计算机视觉应用场景中目前可见的最大市场,智能出行+移动商业消费+移动办公,无人驾驶的想象力比任何一个行业都要大。近几年讨论云计算特别多,但是如果要用云计算去参与无人车的驾驶和决策,基本上是不可靠的。因为网络的环境不可靠因素太多,就算集群性能足够强,也不能保证低时延的效果。所以说无人车上涉及更多的是边缘计算,有专门的硬件支持在无人车上直接计算来控制无人车的驾驶,通过网络黑进服务器获取无人车控制权的假设是极不合理的。


并且,未来无人驾驶可能需要考虑给人保留驾驶权限,不一定是方向盘,操作系统什么的就可以。无人驾驶判断何时需要给驾驶员控制权可能会更重要,合理的无人车驾驶系统应该会感知这些,然后给驾驶员权限,驾驶员的控制一定要保证是最高优先级的。


了解了无人驾驶的控制中枢,再让我们看看谁是无人驾驶的“眼”,也就是感知系统。计算机视觉在无人驾驶的技术链条中扮演着不可或缺的角色,作为无人车的眼睛,可以对车辆周围的环境进行完整感知。这不仅是指检测出前方的行人与车,更是对周围环境态势的完整判断。比如当看到前方一个车距10米,速度是60km/h的车上雨刷器突然移动,那就有可能是它要左转的征兆。这种对周围环境进行全面的感知,涉及到了计算机视觉的方方面面,例如目标检测、分割、双目视觉等等。


当然,自动驾驶所关注的不仅仅是这个车在图像的哪里,更包含车的3D姿态在哪里,3D空间中的位置在哪里,所以在检测任务中会拓展出3D包围框的检测。更进一步讲,自动驾驶当中所采集的信息是视频化的,比如在比对夜间行车前方车辆刹车灯的明暗程度时需要高级感知,这也就是基于传统视觉任务延伸出的高级感知任务。


话说无人驾驶作为AI最有钱景的商业落地场景,太需要整个上下游一起去推动这件事了。而且,这也是个创业公司真正有机会也有空间弯道超车的领域,谷歌、英特尔、微软这种巨头做底层,小的创业公司做垂直应用。


2. 安防


安防应用之套牌车识别


车牌识别的技术水平如今已经可以达到98%以上的准确率,这个准确率对于国内大部分CV公司来说都可以够得到。而套牌车的问题由来已久,解决方案也多种多样。在拍摄同一城市一天之内同一号牌车辆的多张照片后,利用深度学习进行车辆特征的提取与比对,理论上同一辆车特征在比对时相似度会特别高,而当相似度很低的情况出现时,就要考虑是算法的问题还是该号牌被他车挪用了。同时,不止是识别整车,车辆的特征选择区域(车窗范围之内)也可用来进行监测识别,如年检标的粘贴模式以及车内是否放置了香水等等。技术的突破辅助时空关系的逻辑推理,套牌车的追查将变得越来越容易。


安防应用之 行人检索


在反恐或侦破犯罪时,往往要调取监控摄像来识别隐患与犯罪嫌疑人。然而这样的工作量往往十分庞大,光靠人力无法做到全面、精准的识别。计算机视觉联合深度学习便可在这里发挥作用。大部分时候,摄像头拍到的嫌疑人的面部像素特别低,或者角度不友好,算法本身很难去做高精度的识别,而通过对行人衣着、体态信息的捕捉,运用深度学习提取特征并做行人间差异化信息的比对,则可以在无法识别人脸的情况下给出更多的相关信息,帮助寻找嫌疑人的踪迹。


3. 广告推送


你能想到吗?插播广告的背后也有计算机视觉的影子。计算机视觉在商业广告领域也有着丰富的应用。在一部影视剧中,计算机视觉可以通过对剧中人物所用物品的检测来选择最合适的插入广告,并且在剧情最高潮的时间进行推出,达到吸睛效果的最大化效应。所以下次看剧被广告打断时先别着急换台,不妨看看这是不是正是你想要的女主同款。


4. 鉴黄


在沙龙上,大咖们还聊到了一个让在场男性很激动的事情:计算机视觉也能在鉴黄领域做贡献。近日,某搜索引擎与某视频网站已经联手推出了一个判断视频内容的程序,如果把这种程序用于鉴黄,便会带来比人力鉴黄更加快捷高效的结果,今后也许就不会再有鉴黄师这一职业了。国内做鉴黄的CV公司也不在少数,真不知道是该羡慕里面的工程师,还是该嫉妒他们的标注员。  (;¬_¬)

二. 深度神经网络真的越深越好吗?


关于这个问题,活动现场大咖也举出了一个十分贴切的例子:楼是不是盖的越高越好?


楼高有好处,但是对复杂度、安全性等各个方面的要求也会递增,会带来很多额外的成本。对于深度神经网络来讲,神经网络的层数多了以后,便会面临一个边际效益的递减问题,即:层数的增加可以带来性能上的提升,但同样会带来不合理的调试与计算成本,反而对实际运用带来不便。同时,在不计算大小的情况下把深度神经模型做的非常深,可能导致模型本身的大小过大,随之出现不稳定、不收敛、计算复杂度需求大大增加等问题。



除此之外,这个问题也与使用对象有关。一个致力于算法创新的科学家可能希望尝试非常多层次的深度神经网络,而在商业领域应用时,人们更多的是希望高效率的解决实际问题,而不单单是层数的叠加。


所以在搭建深度神经网络时,应首先明确搭建的目的是为了解决实际问题,而不是进行搭建层数多少的比拼。如果搭建简单的几层就可以实现的手写数字识别便没有必要搭建出一千多层。而当面对实现如人脸识别这样复杂的技术时,就可能需要几百层甚至上千层深度神经网络的搭建。

三.  深度学习专家为何如此急缺?


深度学习领域的求职者与企业机构都在为这个问题而发愁。对于深度学习领域的求职者来讲,相关信息量太繁杂,不知道该如何梳理,从哪儿看起。而对于组织和企业来讲,筛选深度学习领域的人才成本很高,不清楚怎样吸引人才流入。



另一个重要的原因是目前缺乏一个公正的、备受认可的评价体系,没办法公正的评价一个人在深度学习领域的水平。如果可以将对人工智能感兴趣的人们召集起来,为他们搭建专业的从学、到练、到比赛、到交流,到分享,再到找工作的平台和体系,也许深度学习、人工智能领域人才急缺的问题也就没那么棘手了。

四.  大规模机器学习所面临的五大挑战


技术的发展往往同时伴随着机遇与挑战。而大规模机器学习所面临的挑战主要来自五方面。


第一是数据。随着数据量越来越大,数据来源也越来越多。如何在大规模场景下,对输入的海量数据进行合理的标注和合理的分类是大规模机器学习所面临的挑战之一。


第二是计算力。有多少计算力就能吃掉多少计算力,有多大的机器就能压榨出多少性能,这就导致了对高性能运算或并行计算的需求的产生。而寻找一个既懂计算机体系架构,又懂计算机并行计算的优化,还懂机器学习、深度学习算法知识的全面人才却并不容易的。



第三是数据提取问题。实际工程需要从海量的存储里读取终端产生的各种不同格式的数据。在分布式情况下,通过网络存取数据速度转低,难以直接用在大规模机器学习上。因此在做大规模模型训练时,如果不做其他优化,这种不同数据介质之间的存取速度是一个很大的瓶颈。


第四,当工程师使用某种深度学习框架进行训练时,虽然现在框架支持各种不同类型文件的读取,但直接在集群上使用,需要通过网络拿到训练数据,影响集群自身的性能。因此通常会使用异步pre-fetching的技术将接下来某段时间使用的数据异步,load到SSD这类高速存取介质中,解决分布式情况下分布式存储与高速SSD这类速率不一致造成的性能瓶颈问题。


第五,如何在大规模并行化的计算里选择一个合适的计算平台,也是一个挑战,并且争议不断,还需逐步化解。



强推赏饭的主:








请到「今天看啥」查看全文