导读
在当前的网络环境中,黑产活动呈现出日益猖獗的趋势,对社会安全和用户权益构成严重威胁。2021 年,公益信部累计处置涉案域名达 214 万个。2023 年,浙江省和湖北省封堵的涉诈网站数量更是高达上千万个。这些数据表明,黑产的规模和影响力正在不断扩大。黑产的危害性不仅体现在其庞大的数量上,还在于其极高的隐蔽性和欺骗性。许多受害者,包括一些高智商的大学教授,也未能幸免于其精心设计的诈骗陷阱。例如,2016 年清华大学的一位教授就因电信诈骗损失了 1700 多万元。这表明,黑产的攻击目标不分阶层和智力水平,任何人都可能成为其受害者。此外,黑产的“打不尽杀不绝”特性也给治理带来了巨大挑战。由于其背后的利益驱动,黑产从业者不断变换手段和渠道,使得打击工作难以彻底。然而,为了保障用户的网络安全,我们必须加强对恶意外链的检测和防范。通过技术手段构建更加完善的网络安全防护体系,才能有效遏制黑产的发展,保护用户的合法权益。
本文将探讨以战争思维推进网址反欺诈,主要内容包括以下五大部分:
1.
知己知彼,百战不殆:做好详尽的对手分析
2.
战前侦查,寻找敌军主力:发现恶意网站策略
3.
完善作战计划、针对敌军特点各个击破:打击恶意网站手段
4.
精锐之师、仁义之师训练之道:搭建运营与情报体系
5
. 问答环节
分享嘉宾|
牛亚峰
腾讯
高级工程师
编辑整理|
iris
内容校对|李瑶
出品社区|
DataFun
知己知彼,百战不殆:做好详尽的对手分析
作为一个战场指挥官,在战争之前首先要分析对手的情况,做到知己知彼百战不殆。
1.
恶意网站分类与黑产分析
恶意网站主要分为诈骗、网络赌博和低俗色情三类,其中诈骗类包括仿冒公检法、投资理财和刷单返利,危害特别高。这些网站通常通过购买源码、域名和服务器进行批量部署,形成一条完整的产业链。恶意网站的引流方式包括短信群发、广告推广和多级代理机制,同时采取短链、内嵌网站和防洪代码等手段防止被封控。一旦被封控,黑产会根据用户积累情况选择继续运营策略。恶意网站之所以难以根除,是因为其低成本高收益的特点,如色情网站会承接赌博和欺诈网站的广告并通过广告位和访问量获取高额收益。
以一个色情网站建设为例,在先期的投入只有服务器域名以及采集程序等相关投入,一般建设费用在 1000 元以内。通过中期引流之后,访问量可达到日访问量超过 1 万,其收益接近约 4.5 万/天。
战前侦查,寻找敌军主力:发现恶意网站策略
在网络安全领域,面对恶意网站的挑战,如同古代战争中需高效识别和打击敌人主力一样重要。通过建立异常检测体系,从流量、渠道、内容和关系等角度出发,可以有效识别恶意网站。正常网站与恶意网站在流量上存在明显差异,恶意网站流量可能突然暴增后又骤减。此外,异常的渠道流量分布、内容差异、跳转行为以及特定的访问地区限制等,都是识别恶意网站的重要线索。通过这些策略,可以缩小检测范围,提高识别效率,保护网络安全。
1.
流量角度
在网络流量分析中,正常网站与恶意网站的流量特征存在显著差异。正常网站的流量通常表现为稳定且持续的访问模式,而恶意网站则常常出现流量的突变现象。具体而言,恶意网站在初期可能流量较低,但在某一时间段内会突然激增,随后在被打击后又迅速下降。这种流量的异常波动与正常网站的稳定流量模式形成鲜明对比。此外,一些大型网站或云平台也可能遭受恶意利用,导致流量异常增加。例如,一个原本流量稳定的大型网站,如果在某一时间段内流量突然激增,则需引起高度关注。这种情况下必须加强对流量的监控力度。
2.
渠道角度
在渠道角度分析,正常网站的流量分布通常具有一定的稳定性,而恶意网站的流量分布往往会出现异常波动。当一个网站的流量分布与大多数网站显著不同,例如在某些渠道上流量异常集中或分散时,这可能是一个异常信号,需要进一步进行检测。
3.
内容角度
在内容角度分析,例如某些恶意网站在不同协议下打开时,其内容差异可能非常显著。恶意网站还常常通过跳转来规避风控系统,例如一些网站会通过重定向将用户从一个安全的环境引导到一个不安全的环境,以达到规避检测的目的。恶意网站可能会采用防洪手段,例如在社交平台上提示用户转到浏览器访问,或者通过限制访问地区来控制流量来源。这种行为可以通过行为分析技术进行检测,以识别出潜在的恶意行为。
4.
关系角度
从关系角度分析,网址关系链是一个重要的检测维度。一个网站的引用和跳转关系可以揭示其与其他网站的关联性。通常情况下,与恶意网站有密切关系的网站也可能是恶意网站。因此,可以利用这一点对恶意网站的邻居进行加强检测。恶意网站常常采取多种对抗行为来规避检测。例如,一些恶意网站会限定用户代理(UA)的类型,如果用户的 UA 不符合其指定的类型,网站会进行跳转。这种行为可以通过分析 UA 字符串和跳转行为来进行检测。例如,如果一个网站频繁地将用户重定向到其他大型网站,这种异常的跳转行为可以作为重点检测对象。通过这些方法,可以更有效地识别和防范恶意网站的潜在威胁。
完善作战计划、针对敌军特点各个击破:打击恶意网站手段
恶意网站的检测技术主要包括结构检测模型(指纹模型)、文本图像模型、复杂网络模型和多模态模型。结构检测模型基于网站之间存在的相似性构建指纹,如 DOM 指纹、资源列表指纹和目录结构指纹等,但面临指纹库过大导致计算耗时的问题,需要动态更新机制。文本模型领域通过规则(敏感词)、文本聚类和分类辅助打击恶意网站,敏感词方法虽高效但易被对抗,文本分类依赖于样本积累和开源语义向量模型的微调。图像与文本处理包括数据收集、图像分类和聚类,利用开源模型构建图像分类模型,以及结合人工标定进行类别扩散打击。所有方法均需控制样本量,避免计算耗时过长。
1.
结构检测(指纹)模型
结构检测模型基于微网站间的相似性构建指纹,如 dom 指纹、资源列表指纹和目录结构指纹等,用于同类恶意网站的打击,但需注意异常指纹库大小要适中,以避免计算耗时过高,需要动态更新维护。
2.
文本模型
文本模型领域包括敏感词规则、文本聚类和分类方法。尽管模型很受欢迎,但规则依然有其价值,如打击效率高但易被对抗。敏感词的提取可通过经验、统计方式或算法模型实现。文本分类方面,样本积累至关重要,除了原始样本外还可以做样本扩增工作,并借助开源语义向量模型进行微调,构建自己的文本分类模型,进而对待检测网站文本进行恶意检测和分类。
3.
图像模型
图像模型在恶意网站检测中与文本模型相似,涉及数据收集、图像分类和聚类等方面。从资源下载、网站截屏、页面元素和视频网站抽帧等多种途径获取图像数据,清洗标准化后作为图像样本集,结合开源模型微调构建图像分类模型(常见 CNN、VIT)、聚类算法、社区发现算法以及人工标定等方式处理恶意文本和异常文本,控制参与扩散的样本量以避免计算耗时过长。
4.
复杂网络模型
我们还可以借助复杂网络模型来高效发现和打击恶意网址。
网址数据本质上是结构化的图数据库,蕴含着丰富的节点和关系信息。与文本、图像数据相比,它具备独特的结构优势。例如,网址数据涵盖了网址、站点、域名、备案、IP 等节点信息,以及聚合关系、归属关系等多样的关系信息。无论模型复杂度如何,我们的核心目标始终是精准判定恶意网址,并合理确定拦截范围。
在复杂网络中,节点预测是关键环节。可以运用文本模型、图像模型,以及融合两者的多模态模型进行预测。预测过程中,参考邻居节点信息能有效辅助判断。例如在某案例中,将文本、图像等原始信息提取为 embedding,拼接后借助预训练的多模态模型,实现了精准预测。
复杂网络中的关系同样具有巨大价值,归属、包含等关系有助于合理判定拦截级别。比如,通过 UR 节点特征聚合,可获得站点节点特征;站点级别特征聚合后,又能得到域名节点特征。除特征聚合外,统计方法也能助力拦截级别设定。聚集关系则能助力扩散感知更多恶意域名,许多恶意网站存在 IP 聚集、备案聚集以及 whois 信息聚集现象,为发现更多恶意网站提供了有力线索。此外,恶意网站的引用、跳转关系也极具利用价值。引用关系可用于特征传递和恶意扩散,如通过色情导航网站,可关联出众多赌博、色情直播等网站;跳转关系则能将恶意短链与更多色情、赌博、欺诈网站相联系。有了节点预测和图神经网络的构建,就能实现整体应用。
图神经网络是复杂网络中的重要工具,常见的有 GraphSAGE、HinSAGE 等,以及更复杂的类型。其一般流程包括:复杂网络构建、节点向量生成、节点采样获取子图,再通过子图获取节点嵌入。节点嵌入融合了自身特征信息和邻居聚合的特征信息,使特征更加多样化,从而提升预测准确性。
社区发现是复杂网络的另一大应用领域。利用社区划分算法,可有效发现涉诈、赌博、色情等团伙掌握的资源信息,如域名、IP 地址、物理主机等。持续监控这些资源节点,有助于及时发现团伙新注册的域名和 IP 地址等,为打击恶意网址提供有力支持。
5.
多模态模型
多模态模型通过特征融合、决策融合和协同训练三种形式融合不同模态数据进行恶意网站检测。特征融合结合不同模态训练得到的特征;决策融合对不同模态数据训练得到的模型预测结果进行融合验证;协同训练则让不同模态模型在训练过程中互相参考其他模态的信息以获得更好的训练效果。
精锐之师、仁义之师训练之道:搭建运营与情报体系
我们还拥有一个强大的运营和情报体系作为后盾,为打击和发现恶意行为提供有力支持。这一体系不仅能够为模型注入丰富的数据资源和精准的情报分析,还能优化模型的训练过程,使其在复杂的网络环境中更加精准高效地运行,从而不断提升我们的防御能力。
1.
防爆运营
在运营工作中,我们最为关注的是防爆运营。由于风控领域的外链风控在很大程度上具有 to B 的性质,这就使得风控的准确性至关重要。因此,我们在防爆运营方面投入了大量的人力。
此外,对于用户的申诉和举报,我们也会加强运营管理。我们要充分借助群众的力量,及时处理用户的反馈,以更好地实现运营目标,维护良好的运营环境。
像毛主席所说的那样,要借助于群众的力量来反独裁或者是反霸权。
2.
情报体系
在网址反诈工作中,情报体系起着举足轻重的作用,我们重点聚焦于以下几个关键情报领域:
黑产团伙掌控的域名 IP、账号等信息,皆为极具价值的资源,这些 “工具” 往往是他们实施诈骗的基础,掌握此类情报,就能在反诈战场上抢占先机。
在与恶意网站的持续对抗历程里,我们察觉到大量正常企业网站惨遭黑产攻破,进而被误封控的情况。为有效应对,我们运用诸如 html 文件分析法等专业手段,精准获取网站被入侵的情报。一旦网站被黑,页面常常会被嵌入恶意宣传广告,特定用户访问(UV)时还可能直接跳转至恶意网站,这些迹象都为我们的侦查提供了线索。
当某一网站频繁向恶意网站跳转,基本能够判定它已遭受入侵。而且不法分子颇为狡猾,会利用特殊用户代理(UA),使网站在特定场景下跳转至色情或赌博网站,这种被利用的现象在企业网站乃至政府事业单位网站中屡见不鲜,因此关系链分析法尤为重要,能帮我们及时揪出这些
“隐藏” 的风险。
(4)
恶意网站背后的服务商也是我们关注的重中之重。
以赌博网站为例,其背后存在一条分工精细、环环相扣的完整产业链。一方面,有专业的内容服务商,为赌博网站源源不断地提供各类博彩游戏;另一方面,支付服务商与之勾结,不少赌博网站接入第四方支付商,这些非法支付渠道摇身一变成为了洗钱
“帮凶”,为色情、赌博网站的非法资金流转大开方便之门。通过紧盯这些服务商,我们得以反向追踪关联,精准识别出涉赌、涉黄网站,为打击网络违法犯罪活动提供有力支撑,切实筑牢网络反诈防线。
问答环节
Q
:
设备指纹或者黑产设备库需要进行及时更新或者清洗,确保较好的匹配速度或者成本。以您的经验,这个库大概维持多大的规模比较合适?在日常的清洗的时候,大概一个什么周期时间清洗一次会比较好?
A
:
主要通过计算时间来判断,因为这个库的大小能够在我们忍受的时间内能够计算出,是我们可以接受的。但是如果库的计算速度的时间非常滞后,就需要对其中进行一些清洗。同时根据匹配做判断的时候,有些指纹已经长时间没有匹配,就要主动把这些指纹剔除掉。主要是有几种情况,一是黑产存在对抗,对抗后指纹会发生变动。如果发生变动意味着指纹就会失效,长期在指纹库里面会占用资源;另外也会导致错误的匹配。以上是对清洗时间周期的考量。