TechTarget 原创
一个盲人在黑屋里,寻找他的黑猫,他找不到它。他找了一个有视力的人来帮忙。他也找不到猫,但他比主人更困惑。由于屋里很黑,猫也是黑的,有视力的人不能推测猫不在屋里。
Dun&Bradstreet的Anthony Scriffignano和他的数据科学团队一直在研究这样的问题:他们搜索难以捉摸的数据 – 也许就在眼前,也许根本不存在。Scriffignano,金融服务公司的高级副总裁兼首席数据科学家,称它们为黑猫问题。
“这是我创造的一个术语,”他在最近的世界AI大会上接受SearchCIO采访时说。“在这个领域,我经常创造术语,”他打趣道,“因为我们正在谈论的很多东西,这些名词和动词都没有正式名称。”
解决黑猫问题要内心强大——你必须承认黑猫可能不在房间里。(事实上,Scriffignano说,解决黑猫问题的第一步就是停止抱怨。)在数据挖掘中,这些是不确定形状和大小的问题——新型的欺诈活动,下一位大客户是怎么样的——需要一个测试和学习的思维模式来系统地完成。可能是积极主动地探索数据,比如寻找新的犯罪行为(和安装烟雾探测器类似,Scriffignano说),或者对数据进行反应性的探索,比如调查一个事件是否会引发行为的改变。他说,无论是哪种情况,都可能一无所获。
Scriffignano团队反复遇到的黑猫问题之一,就是发现违法行为,比如身份盗窃。Scriffignano说,重要的是先要确定什么是身份盗窃,这样数据科学团队就有一个基准。然后,团队使用不同的工具来分类数据,分割数据并构建图形描述,Scriffignano表示“这是其中很重要的部分。”
欺诈者倾向于与其他欺诈者和某种类型的顾客(例如,容易受骗的顾客)进行互动,他们对不同的受害者都倾向于重复同样的行为。图表可以绘制人际网络中的关系和互动。对人际网络的分析,可以发现新的模式或者识别各向异性的区域 – 这是一个生物学领域的术语,意思是一组不寻常的关系和行为,Scriffignano说。
但是,识别各向异性的区域并不意味着发现欺诈行为。他说:“棘手的部分是,当你发现它,还不够。”行为可能并不违法,而是某种以前没有出现过的新行为。结果必须消除歧义,才有意义。这需要更多的假设和更多的测试,Scriffignano说。
在采取任何行动之前,数据科学小组将结果转交给熟练的专家做出最终决定。
他说:“在大多数情况下,我们寻找违法行为的技术水平,是将问题的复杂性降低到一定程度,这样真正有技能的人能完成任务。”也可能不能完成。
AI尚处于早期阶段,但德勤公司的顾问认为进入门槛已经开始降低。他们已经编写了AI技术的“五个进展向量”,可以加速采用,并将其推向主流。这五个向量如下:
1. 自动化数据科学流程
。德勤公司的总经理David Schatsky在世界AI大会上表示,大部分数据科学家所做的工作都是“繁琐的工作”。他们花了大量的时间准备他们想要分析的数据。现在,市场上的工具正在自动化这些步骤,使数据科学家更有效率,并让公司有机会同时进行更多的实验,Schatsky说。
2. 减少对训练数据的需求。
机器学习的一个缺点是需要标记大量的训练数据,才能使模型起作用。Schatsky说:“一些公司没有足够的数据,或者数据是专有的,有各种限制。” 但新的技术可以帮助企业克服数据稀缺。一个是合成数据,是“由算法生成的,模拟真实数据特征的数据”,根据“Machine learning and the five vectors of progress”由Schatsky共同撰写的一篇文章。另一种技术被称为转移学习,使用AI将来自一个数据集的学习应用到新的领域。
3. 加快培训。
训练机器学习模型所需的计算过程可能需要运行几个小时,几天甚至几个星期,才能知道模型是否起作用。Schatsky说,对支持模型培训的硬件的改进,使工程师能够“并行地完成工作,从而更快地完成循环。”
4. 解释结果。
机器学习算法运行在一个所谓的黑匣子中:它们是如何得出结论的,是未知的。这对监管行业的管理者或监管业务中敏感领域的人来说,是一种屏蔽。但是,Schatsky认为,黑匣子问题 “正在逐步解决。”
5.本地部署。
Schatsky说,不久之后,机器学习将被部署在移动电话和物联网设备的边缘,因为紧凑的模型需要的内存相对较少,和“全新一代的低功耗芯片。”