世界AI大会上的“黑猫”问题和数据谜题

TechTarget · 公众号 · 科技媒体 · 2018-01-11 15:30

正文

TechTarget 原创

一个盲人在黑屋里，寻找他的黑猫，他找不到它。他找了一个有视力的人来帮忙。他也找不到猫，但他比主人更困惑。由于屋里很黑，猫也是黑的，有视力的人不能推测猫不在屋里。

Dun＆Bradstreet的Anthony Scriffignano和他的数据科学团队一直在研究这样的问题：他们搜索难以捉摸的数据 – 也许就在眼前，也许根本不存在。Scriffignano，金融服务公司的高级副总裁兼首席数据科学家，称它们为黑猫问题。

“这是我创造的一个术语，”他在最近的世界AI大会上接受SearchCIO采访时说。“在这个领域，我经常创造术语，”他打趣道，“因为我们正在谈论的很多东西，这些名词和动词都没有正式名称。”

解决黑猫问题要内心强大——你必须承认黑猫可能不在房间里。（事实上，Scriffignano说，解决黑猫问题的第一步就是停止抱怨。）在数据挖掘中，这些是不确定形状和大小的问题——新型的欺诈活动，下一位大客户是怎么样的——需要一个测试和学习的思维模式来系统地完成。可能是积极主动地探索数据，比如寻找新的犯罪行为（和安装烟雾探测器类似，Scriffignano说），或者对数据进行反应性的探索，比如调查一个事件是否会引发行为的改变。他说，无论是哪种情况，都可能一无所获。

Scriffignano团队反复遇到的黑猫问题之一，就是发现违法行为，比如身份盗窃。Scriffignano说，重要的是先要确定什么是身份盗窃，这样数据科学团队就有一个基准。然后，团队使用不同的工具来分类数据，分割数据并构建图形描述，Scriffignano表示“这是其中很重要的部分。”

欺诈者倾向于与其他欺诈者和某种类型的顾客（例如，容易受骗的顾客）进行互动，他们对不同的受害者都倾向于重复同样的行为。图表可以绘制人际网络中的关系和互动。对人际网络的分析，可以发现新的模式或者识别各向异性的区域 – 这是一个生物学领域的术语，意思是一组不寻常的关系和行为，Scriffignano说。

但是，识别各向异性的区域并不意味着发现欺诈行为。他说：“棘手的部分是，当你发现它，还不够。”行为可能并不违法，而是某种以前没有出现过的新行为。结果必须消除歧义，才有意义。这需要更多的假设和更多的测试，Scriffignano说。

在采取任何行动之前，数据科学小组将结果转交给熟练的专家做出最终决定。

他说：“在大多数情况下，我们寻找违法行为的技术水平，是将问题的复杂性降低到一定程度，这样真正有技能的人能完成任务。”也可能不能完成。

德勤的五个进展向量

AI尚处于早期阶段，但德勤公司的顾问认为进入门槛已经开始降低。他们已经编写了AI技术的“五个进展向量”，可以加速采用，并将其推向主流。这五个向量如下：