专栏名称: 创事记
新浪科技旗下高端专栏,犀利观点,欢迎投稿。
目录
相关文章推荐
CEO品牌观察  ·  深耕户外领域逾20年,牧高笛MOBI ... ·  18 小时前  
跟宇宙结婚  ·  节目更新:vol.447 ... ·  2 天前  
跟宇宙结婚  ·  日常絮叨:上饿了么搜【跟宇宙结婚】领红包哟 ·  2 天前  
51好读  ›  专栏  ›  创事记

关于App录音的谣言与真相,你真的被监听了吗?

创事记  · 公众号  ·  · 2019-12-10 16:30

正文


文/半佛仙人

来源:半佛仙人(ID:banfoSB)


1


最近各种大促特别多,各家电商都在摩拳擦掌准备好好在年底收获一把。


各种APP的促销推送和商品推荐也是昼夜不停,要让大家把手留下,干干净净过个好年。


这么看来,最大的受害者就是老家等着要压岁钱的熊孩子们了。


他们不仅要不到钱,可能还要被双手空空的长辈们反向撸羊毛,小小的年纪就要承受命运的重拳。


说到APP推送以及商品推荐,很多人都有一个恐慌性的顾虑。


那就是怀疑自己的APP在对自己录音。


经常出现一个状况是,自己和人谈论一个事物,然后不久后,自己在购物APP或者搜索引擎或者浏览器或者APP的广告业中就看到了相关的广告,让人非常恐慌,觉得有一双神秘的眼睛在看着自己,非常害怕。


怎么说呢,我觉得大家的想象力过于丰富了,这种猜测是合理的,只不过既对也不对。


对的是,我们的生活确实是被各种精准推送给占据了,各大APP也确实有一定程度上的【猜测】行为,目的也的确是让你掏钱。


错的是,没人给你录音。


实际上科技和大数据发展到现在这个程度,录音属于非常没有效率的玩法,音速不够快。


我们高科技镰刀,都是光速的。


2


为什么说没有公司用录音来做信息采集和广告推送呢?


不是说公司良心发现,商业公司有良心其实本身就是一件很诡异的事情。


而是任何事情都要讲一个目的,广告推送的目的是要追求转化率,要让自己的利益最大化,成本最低,卖家也是要看性价比的。


从方案成本收益的角度,录音属于效率低,利润低,误差率高,成本高的沙雕方案,所以没人做。


那些大胆尝试录音方案的朋克们,大部分都是投入产出失衡后破产了,所以你很少见到市面上有完整商业录音解析方案,当然安防另算,安防对于投入产出的理解和商业不同。


想想看,如果你要做录音方案,首先你绕不过的就是APP资源占用,持续的录音,对于一个APP而言是很大的负载,导致的结果就是APP运转效率低下,耗电发热大幅增加,跑起来和吃了翔一样别扭。


而且吧,录下来的音频你要怎么保留?本地保留?这个音频文件会大到超乎想象,一个APP到录音录一天,最后录音文件几个G,而且有朋克的用户,直接看你源文件夹,一旦发现录音,你可以等待铁拳打击了。


在线传输?用户的流量是要钱的,而且用户定期看手机流量记录的时候,发现就你一个APP耗流量特别大,还不是视频类或者游戏类APP,分分钟就暴露了。


本地直接解析?只留存文字?这倒是可行,但是最大的问题在于,你要小心竞争对手反编译你的安装包,一旦被人看到相关代码和模型,底裤都没有了。


实际上很少有互联网公司把复杂模型布置在本地,因为太容易被对手直接破译;


而如果用云模型的方式做录音解析,流量消耗和网络稳定性也会让准确度大大降低。


从技术上,录音是不太合理的方案,不是说不能做,而是做起来成本高,破事儿多。


与道德无关。


3


录音如果仅仅是破事儿多就算了,一个东西如果好用,破事儿多其实并不是很大的问题。


痛并快乐也是一种生活。


但录音方案最致命的问题在于,消耗了大量资源后,准确率过于辣鸡。


俗称吃的是肉,产的是屎。


想想看,如果你手上的APP使用了录音监控方案,那么面临的第一个问题是,需要分辨到底是谁在讲话?是不是手机的主人在讲话?声源就是一个大问题。


试想我走过你的身边,大喊一声我爱杰士邦,然后你打开手机,看到了杰士邦的广告,你觉得是不是非常沙雕?你会不会是得觉得我在性骚扰你?


当解决了录谁的音的问题(声纹类方案)后,你会遇到第二个问题,需要识别语言准确度问题。


我们所处的日常环境是非常嘈杂的,会有大量的杂音,而且很多人的普通话并不标准,机器没法有效识别,实际上绝大多数方言,机器都无能为力,识别出来各种沙雕。


尤其是温州话,那是恶魔的语言,战争年代可以当密码用的神奇语言。


假如解决了语言准确度问题,那么还有第三个问题,那就是音频实时语义识别问题。


这个问题在当前属于几乎无解的难题,所有人工智能遇到音频实时语义识别都容易变成智障。


注意,我说的语义识别不是所谓的把你讲的话翻译成文字,那个东西难度不大,我说的是,真正理解你语言中的含义。


例如死鬼这个词,男人跟女人说,男人跟男人说,女人跟男人说,男人跟死对头说,都是完全不同的含义,但都是死鬼。


人类理解语意是要结合具体场景,甚至具体说话的人(同一个词,不同人讲出来都不是一个意思),这些都是现阶段机器做不到的。


别说机器做不到,很多人都做不到,例如:弹性工作制=别想着准点下班,这谁遭得住。


尤其是APP录音,需要快速记录下人们在实际生活中的快速出现的场景未知的对话对象未知的普通话不标准的神奇对话,还要记录分析下来,还要精准获得含义。


要是真有哪个公司有这个本事,还做个屁推送,直接就诺贝尔奖了。


以上三问,我喜欢称之为录音方案灵魂三问,在三问之上,还有终极一问。


记得我前面说做录音方案的大部分都破产了么,那还有小部分,那小部分去哪里了?


小部分因为收集隐私被抓进去了,彻底财务自由了,毕竟监狱不用花钱。


闭上眼,用心去感受正义的力量,奥利给。


4


当你读到这里的时候,你肯定既恍然大悟,又迷惑。


恍然大悟的是觉得确实不会被录音,迷惑的是那为什么出现了我说什么,不就之后APP就出现了相关推送?


我给你这么说吧,没有公司做录音,不代表没有公司利用声音来收集资料。


只不过这个收集资料的方式不是你以为的大段录音监控,而是通过特定关键词唤醒。


举个例子,假如你用苹果,你会【Hi,Siri】来唤醒siri功能。


假如你用小米,你会【小爱同学】来唤醒收集。


其实很多APP的推送,是用了类似的方案的,就是说,根本不记录你说了什么,也不去分析你说了什么,只要你说出了特定词,那么就会被唤醒,只不过这个唤醒不是亮屏幕之类的,而是推送逻辑被唤醒给你推送相关物品。


再举个栗子,假如是外卖类APP,这种唤醒词库可能包含【奶茶】,【披萨】,【烤串】,【麻辣烫】,【哈密瓜】等等等等等等词,只要你说出了类似的词汇,那么可能就会唤醒推送。


例如OTA类APP,这种唤醒词库可能包含【旅游】,【泰国】,【签证】,【酒店】,【度假】等等词,只要你说了类似的词,那么可能就会唤醒推送。


再例如购物类APP,唤醒词库可能包含【口红】,【靴子】,【裙子】,【水果】,【笔记本】等等等等词,只要你说了类似的词,那么可能就会唤醒推送。


每个APP的词库,可能都有数千乃至数十万的词,基本覆盖了你可能性的消费场景,磨刀霍霍。


很多很神奇的功能,拆穿了也就那样,就和魔术一样。


一个唤醒脚本+词库的事情,给搞的那么神秘。


挺魔幻的。


5


虽然词库唤醒逻辑是比较切合实际的方案,但是在实际的信息收集中,有更多更主流和有效的信息让商家们知道你是谁,要怎么卖东西给你。


这些你忽略的东西,才是真的关键,我随便提2个简单的。


第一个是输入法。


谁知道你的一切?当然是输入法了。


别总是怀疑什么APP监控你的聊天记录,你首先要怀疑的是,你的输入法有没有卖你。


只要你打字,你一定躲不过的就是输入法,你输入了什么内容,在什么地方输入(搜索引擎?社交软件?地图?短信?卖家讨价还价?),这对于输入法都是透明的。


而且你经常输入哪些词,代表了什么意思,并不难获得或者分析,上面说的语义分析难是真对纯音频的,纯文本的语意分析可是相对成熟的技术。







请到「今天看啥」查看全文