AI科技评论了解,苹果近日收购了一家数据挖掘和机器学习公司LATTICE(网址Lattice.io)。这家公司的前身是斯坦福大学计算机学院的研究项目DeepDive,主要内容是借助人工智能的方法研究和暗数据中的价值。苹果方面已经确认了对LATTICE公司的收购,并且发出电子邮件进行声明:“苹果不时收购小型科技公司,我们一般不会讨论我们收购的目的或计划。”
LATTICE公司
LATTICE公司前身DeepDive团队的领军人物是斯坦福大学计算机科学教授克里斯·雷(Chris Re)。现在LATTICE公司地址位于美国硅谷,紧贴斯坦福大学,由克里斯·雷(Chris Re)教授和密歇根大学计算机科学教授迈克尔·卡法雷拉(Michael Cafarella)共同创立。原DeepDive团队就有许多成员,并得到过包括谷歌和美国国防高级研究计划局(DARPA,Defense Advanced Research Projects Agency)在内的许多企业和机构的帮助。
DeepDive的鸣谢列表
LATTICE公司继承了原DeepDive公司对暗数据的分析处理技术,采用深度学习技术并大大提高了可用性,可以进行训练、推理和预测,最大的亮点是能够从非结构化的数据(如一般的工作文档和图片)整理出结构化数据(如SQL数据库),并把这些数据合并到现有数据库以拓展整个分析结果的深度广度。他们的技术具有入门成本低,使用者只需要考虑数据特征而不考虑算法、可以适应数据的噪音和不准确性、可以从多种数据格式提取信息、使用者可以非常简单地给与反馈和设定规则以提到特定领域内预测的准确度、高性能可拓展等等许多优点。
AI科技评论推测,苹果此举很有可能就是想要对自己的用户产生的暗数据进行分析并加以利用,作为在后乔布斯时代“满足用户需求,创造新的增长点”策略的另一项行动。
暗数据是什么?
说了半天了,暗数据到底是指什么呢?业内把它称作“暗数据”(dark data),AI科技评论看来更好的称呼是“原始数据”(raw data)。因为这里的“暗”(dark)并不是要表达“明”(light)的对立面,而是要体现数据可能是杂乱的、多种格式共存的、进行了记录但是没有派上用场的、进行分析整合总结之前的以及没有明确目的性的数据。除了传统结构化数据库(各种SQL数据库)可以直接进行信息读取、分析和推理,以及大数据可以建立模型从复杂但相关的数据中分析规律外,其它没办法直接提取信息并进行分析得到结论的,都可以称作暗数据。典型的暗数据比如,公司中存储的客户资料、服务器的日志文件、离职员工的信息、问卷调查的原始数据、按周期的财务状况表、历史邮件资料、公开的账户信息、工作产生的记事本备忘录PPT、工作报表文档的早期版本等等。
其实,目前各家企业和组织收集的所有数据中,能够直接进行结构化或者大数据分析的数据比例其实很小。多数情况下企业觉得许多类型的数据都有价值,所以花费资金人力进行了长期收集,比如收集用户使用自家产品的信息、统计内部软件开发进度、统计网站访问信息等等,之前爆出过iOS设备存储用户几个月内的GPS定位记录,其实也是觉得数据会有价值才收集的。但是由于种种原因,能真的派上用场的数据很少,根据IDC的调查数据,90%的非结构化数据都从未被分析过。那么暗数据到底有没有价值呢?
现在对它价值的认识主要有两种观点,一种观点认为不对这些数据进行分析,就没法发现其中有些重要但尚未被人注意过的机会;另一种观点是,如果这些未经分析的数据处理不当,可能会有法律和安全方面的许多问题。
正面价值的角度,企业有很大的机会可以通过暗数据获得发展业务的机会,比如:服务器的日志文件中可以读出网站访问者的行为;客户通话录音可以揭示客户的态度和感情;移动设备带来的位置数据可以提供访问模式。如果一家企业不对这些暗数据进行分析,那简直就是把机会白白丢掉了。不过同样地,企业也需要有更好的流程、协调和技术才能够正确地运用暗数据。
负面价值的角度,企业很可能记录了法律不允许记录的数据,一旦揭露出来会有很大麻烦;收集的企业内部信息可能泄露商业机密;如果丢失了用户数据,将会降低公司信誉;如果手握类似的用户数据,A公司没有进行分析,但是竞争对手B进行了分析,那么B就很有可能在接下来的竞争中取得优势。
如何处理暗数据
已经毫无疑问暗数据中存在着尚未发现的、但有正面价值的信息和泄露以后可能产生问题的敏感信息,但是实际上很少有人考虑过如何处理这些数据,更别提真的付诸行动了。这是为什么呢?
主要原因有这样几个:
1,收集数据时候优先级太单一。比如一个信用卡的市场团队只关心客户的信息和信誉度,那么它会记录客户在网上申请页面上填写的信息,但是不关心客户是如何来到这个申请页面的、客户对页面易用性的感受又如何。那么当客户整个申请流程的数据都记录下来后,能够有人愿意分析利用的只是其中很小的一部分。
2,技术和工具的限制。如果同一家企业和组织的数据收集是用不同的技术和工具进行的,那就有可能出现由于技术限制导致这些技术和工具之间没法互动的情况。这样一来数据就没办法全部联系在一起,展现出完整的状况。这件事情尤其容易发生在那些有多个IT系统和数据格式的公司身上。比如,想把呼叫中心的语音录音和网站上的浏览点击数据整合在一起就很难。数据分析项目还处在比较早期阶段的公司就会有这样的问题。
不管你觉得暗数据是机会还是麻烦,都需要想办法加以利用,虽然这并不简单。没用过的数据一段时间会显得多余;另一方面,暗数据并不会全都有用,所以你既不应该把它们全丢掉,也不应该把它当作金矿。对于普通的企业,这里有几个尽量好地利用它们的建议:
1,经常审查和整理数据库。这意味着你要把旧数据结构化或者把它分类,这样你就知道在哪里存了哪些数据。这些数据并不需要丢弃掉。现在存储空间变得越来越便宜,并不需要删除数据。但既然你已经整理过这些数据了,日后当你需要的时候可以很快找到它们。
2,用很强的加密手段加密数据。这对企业内部服务器里的数据和云存储中的数据同样重要,加密可以防止许多数据相关的安全问题发生。
3,准备好数据保留和安全丢弃措施。提前设计好数据擦除和恢复方案,避免本应消除的数据被窃取,而好的保留措施可以帮你恢复有价值的数据以便日后使用。
看来苹果已经觉得有必要对暗数据做些什么了,所以收购了LATTICE。其它手握大量数据的公司也别放松哦。
报名 |【2017 AI 最佳雇主】榜单
在人工智能爆发初期的时代背景下,雷锋网联合旗下人工智能频道AI科技评论,携手《环球科学》和 BOSS 直聘,重磅推出【2017 AI 最佳雇主】榜单。
从“公司概况”、“创新能力”、“员工福利”三个维度切入,依据 20 多项评分标准,做到公平、公正、公开,全面评估和推动中国人工智能企业发展。
本次【2017 AI 最佳雇主】榜单活动主要经历三个重要时段:
2017.4.11-6.1 报名阶段
2017.6.1-7.1 评选阶段
2017.7.7 颁奖晚宴
最终榜单名单由雷锋网、AI科技评论、《环球科学》、BOSS 直聘以及 AI 学术大咖组成的评审团共同选出,并于7月份举行的 CCF-GAIR 2017大会期间公布。报名期间欢迎大家踊跃自荐或推荐心目中的最佳 AI 企业公司。
报名方式
如果您有意参加我们的评选活动,可以点击【阅读原文】,进入企业报名通道。提交相关审核材料之后,我们的工作人员会第一时间与您取得联系。
【2017 AI 最佳雇主】榜单与您一起,领跑人工智能时代。