直播狂欢背后，如何揪出“不按套路出牌”的主播和观众？

雷峰网 · 公众号 · 科技媒体硬件 · 2016-10-08 18:39

正文

在你对着美丽的女主播流口水时，偶尔会看到屏幕上冒出一条不和谐的弹幕，例如：“看艾薇；加XXXXX。”

对于这种不健康的信息，你可能会感到非常愤怒，然后按照号码加一下。。。

这样的观众“福利”，对于直播平台 CEO 来说却是不折不扣的灾难。每一个这样的弹幕，都把他向“快播王欣”的角色推进了一步。更何况时不时出现的“造人”直播，恨不能导致“有关部门”直接把直播平台干掉。

“合规性”这个并不性感的词，在某些时刻成为了直播平台的生死线。从这个角度看，直播反垃圾信息成为了一种刚需。雷锋网采访到了同盾科技的小伙伴，对于直播行业的反欺诈和反垃圾，他们有一些独特的理解。

会“变脸”的敏感词

弹幕里这些影响社会主义和谐社会建设的词汇，统称为“敏感词”，而这些让人心旌动摇的信息，就是“敏感信息”。同盾科技反欺诈及基础产品总监祝伟根据发布人群和传播形式的特点，给直播弹幕的敏感信息做了个分类：

涉黄涉政言论： 通常是无组织，由普通直播观众发起。

虚假谣言： 通常由水军组织，作为“节奏”发动机，带动一般观众，快速形成热点。

垃圾广告： 通常都是黑产组织，发布广告内容。会和直播平台的风控系统形成强对抗。

祝伟说，现在越来越多出现人气很旺的直播场景。在其中往往聚集了几万甚至更多人。这就像现实当中众人聚集的广场，不当的言论会起到煽动的作用。

数万人、数十万人在网络上聚集狂欢，这种情况正在加速出现。在9月27日举行的小米发布会，通过爱奇艺平台对外直播。这场发布会聚集了大量的观众。在直播过程中，不时有“看A片加微信”的字幕从雷军的脸上划过，让人有一种“碉堡了”的错觉。

【弹幕示意图】

对于爱奇艺这样的平台来说，显然会有基本的反垃圾弹幕功能。但是“漏网之鱼”数量依然庞大。这就要归罪于反垃圾引擎的智能性了。因为从“漏网弹幕”的形式来看，大多是敏感词的“变体”，即在敏感词中间加入符号，用同音字、近义字代替敏感词。

有关敏感信息的屏蔽，难度并不小。这是一个从论坛时代就困扰各大平台的难题。祝伟举了几个例子：

很多情况下，各大平台都需要屏蔽“鹏”这个人名，但是发弹幕者会用“月月鸟”尝试代替“鹏”字。这种方法被用在很多汉字上。

而事实上还存在另外一种情况。例如在论坛里经常出现的“进群交流”这样的留言，本来是正常的留言，却很容易因为中间两个字而被关键词系统错杀。。。

雷锋网想说，汉语的博大精深真是让人跪服得妥妥的。

在这种情况下，一个“厉害”的垃圾信息屏蔽系统，就涉及到语义分析功能。语义分析是人工智能的一个重要的分支技术，简单说来就是消除掉词语的歧义，给一个确定的句子以语义理解。

语义分析这门技术其实已经被用在诸多领域，但是由于人工智能发展程度的限制，使得“通用型”的语义分析可用性不理想。不过祝伟告诉雷锋网，

语义分析如果局限在特定的领域，就可以针对这个领域做大量的优化，从而大大提高识别的准确性。

他的话通俗来说就是：在弹幕上发垃圾信息，是有套路的。

祝伟表示，死磕直播垃圾弹幕的场景中，一套语义模型是必要的。而模型里包含的要素，就是“样本”“规则”“数据”。随着时间的演进，会产生新的“黑话”，广告的形式和语句也会发生“进化”。但是通常这种变化都是有潮流可循的。也就是说，只要把最新出现的垃圾弹幕不断加入语义模型，系统就会自动演化出对这类弹幕的识别能力。

就是在这种不断和垃圾弹幕作斗争的“猫鼠游戏”中，可以达到越来越强的反击能力。这像极了人类的抗生素和病毒的对抗过程。

人：一切违规的根源

如果你仔细思考：当我们反垃圾弹幕的时候，我们在反什么？

你可能会得出这样的结论：我们在反对“不按规矩出牌”的人。

没错，事情的重点在于“人”。每一条违规弹幕，都会溯源到一个具体的人。祝伟告诉雷锋网，根据实践经验，大多数情况下发送黄暴弹幕或广告弹幕的人员稳定性很高。

也就是说，有一批人，会经常出没于不同平台，散发垃圾弹幕。对他们来说，这是一份相对稳定的职业。

在这种情况下，就可以把违规的行为，和背后的人建立起相对固定的联系。从而根据人或他使用的设备的信用情况，对违规行为的可能性做出判断。当然，对于直播的观众，做到强实名认证并不现实。但通过大数据的方式，这个问题在很大程度上可以解决。

祝伟简单推演了这个逻辑：

对于一个真实的人来说，他的注册账号、手机号、所使用的设备、网段 IP 等等信息会产生很强的关联性。根据这种关联性，可以对一个新账号和信用库中的信息进行比对，从而“揪出”那些存在“案底”的人。

可以想象一下，同一个人做到同时更换登录设备、注册账号、手机号和网络环境，还是有一定难度的。当然，对于这些“指纹”信息，各自存在一些绕过的技术，但绕过的成本并不低：

首先，很多绕过技术可以被感知，例如虚拟设备、或者 VPN 代理等。

其次，这些绕过措施存在一定的技术门槛，这些门槛乍一看表现在技术上，而实质都会反映在金钱成本上。

当然，行为和设备指纹的关联只是判定规则的一部分。祝伟举了一个同盾提供给直播商的反垃圾工具中的例子：

例如有一条规则：一个用户设备关联的登录 IP 超过3个，系统就会向直播平台预警风险。平台可以根据我们的提示选择封禁或者忽略，也可以修改规则的参数，例如把关联 IP 的限度从3改成5。

类似这种的规则还有很多，而且可以根据对抗的方向不断修改或增删规则。可以在很大程度上保证阻拦掉那些“图谋不轨”的用户。

当然，这种技术有一个最核心的需求，就是各个平台数据之间的共通。

在 A 平台上的违规记录，会影响这个用户在 B 平台的信用，这才能大大提高违规用户的成本。

这就是所谓的跨平台封禁。祝伟说。（当然他认为同盾科技就是在这方面很有竞争力的服务提供商。）

直播狂欢背后，如何揪出“不按套路出牌”的主播和观众？

正文

会“变脸”的敏感词

人：一切违规的根源

厉害的上帝视角

请到「今天看啥」查看全文