作者:孙欣芸。作者授权早读课发表,转载请联系作者。
微信公众号:
bigsec岂安科技
。(ID:bigsec)
编辑:Jessie。
欢迎投稿到早读课,投稿邮箱:[email protected]
整个互联网的流量中,真人占比有多少?
80% ? 60% ? 50% ?
根据 Aberdeen Group 在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示,2015 年网站流量中的真人访问仅为总流量的 54.4% ,剩余的流量由 27% 的好爬虫和 18.6% 的恶意爬虫构成。
恶意爬虫占比数据与 2013 年和 2014 年相比有所下降,同时真人访问的占比也有所提升,但这并不意味着恶意爬虫日渐式微。一个原因是印度、印度尼西亚等高人口总数国家的互联网新增人口有大幅提升,另一方面,恶意爬虫制造者更专注于爬虫的质量而不是数量,如今的恶意爬虫具有高持续性和可变性。
爬与反爬的斗争从未间断。过去的初级爬虫能很明显从异常的 Headers 信息甄别,但爬虫制造者从一次次爬与反爬中总结出可能被封的原因,通过不断的测试和改善爬虫程序,更新换代后的高持续性恶意爬虫通常具有以下特点中的某几个:
-
模仿真人行为
-
加载 Javascript 和外部资源
-
模拟 cookie 和 useragent
-
浏览器自动化操作
-
变化的 IP 地址池
可能很多人认为,恶意爬虫只会威胁到少数以文本为核心价值的网站,其实这些能改变自己请求路径和请求方式的伪装者可能潜伏在任何一个网站的每一个角落,文本、图片、价格、评论、接口、架构等方方面面均有可能成为爬虫的囊中物。
从网站业务安全的角度,纵容这些伪装者的危害有以下几点:
1. 核心文本被爬
网站的核心文本可能在几小时甚至几分钟内就被恶意爬虫抓取并悄无声息的复制到别的网站。核心内容被复制会极大影响网站和网页本身在搜索引擎上的排名,低排名会导致访问量降低和销量、广告收益降低的恶性循环。
在内容为王、用户粘性不高的今天,核心内容很大程度上会影响网站在用户心目中的价值。若网站以文本为商品作为盈利点,那恶意爬虫更是影响 KPI 的罪魁祸首。
关注网站:
文学博客、招聘网站、论坛网站、电商内的评论
2. 商品价格被爬
价格爬虫的成因有两种,一是网站竞争对手刻意爬取商品详情和价格后进行同类产品线和价格的研究。
比如某 APP 上线新的租车服务前,会爬取所有竞品 APP 中的车型详情及定价策略,为新服务上线打下价格优势。
另一个案例来自某酒店网站,我们在数据分析平台 Warden 实践中发现,网站的客房详情被爬虫攻击,机器访问的特点非常明显:
-
页面被某几个 IP 超高频访问,单个 IP每小时访问量达 5000 以上
-
部分 IP 的访问路径极为单一,仅请求房价详情页面,无真人访问的“首页→搜索→详情页→搜索”轨迹
-
访问间隔极短,且每次均请求不同时间段不同地域不同编号的酒店客房信息
以上特点能完全排除真人访问的可能,在 数据分析平台中也触发多个实时策略,让我们可以协助用户及时处理。
* IP 点击详情
**某一条点击详情的 request 和 response 信息
**点击数及报警数统计,红点部分为触发报警
这类爬虫就是典型的价格爬虫,如不进行实时判断和拦截,网站的定价信息可能在几小时内就被竞争对手完全掌握。
第二个成因是羊毛党们试图搜寻低价商品信息或在营销大促前提前获取情报寻找套利的可能。
比如某 P2P 行业客户发现近几个月理财转让专区的产品几乎在放出 2 秒内就被转让成功,而网站的活跃用户并没有大幅的增长,转让专区疑似被爬。
通过数据分析平台能在流量中能看到该转让页面正在遭受爬虫的攻击,攻击者能在极短时间内获取转让产品的收益率并自动筛选高收益率的产品,甚至能实现脚本自动下单购买。
另一个案例来自某电商平台,某次声势浩大的营销活动规定新注册用户绑卡后能获得一次抽奖机会,由于抽奖接口遗漏了其他渠道分享入口,给羊毛党有了不绑卡也能抽奖的可趁之机,造成活动几乎全部的奖品被羊毛党薅去。
**网站营销页面点击量突增
**风险情报系统提示该 IP 具有高风险分值
在事后复盘时,我们在数据分析平台中发现羊毛党活动前疑似派出爬虫探路,活动汇总页面被超高频访问,虽然访问量并不集中于某几个 IP ,但有访问地域集中于某两个城市、访问路径单一且访问间隔有规律等特点。另外,通过风险情报系统 Red.Q 的数据,同样提示这些访问 IP 的高风险分值,活动开始后羊毛党的访问也有类似的访问规律。