这是第一次,全世界最大的网络基础设施公司之一,Cloudflare,开始用魔法打败魔法,用AI来对抗AI爬虫。
你可能现在还有很多疑惑,
Cloudflare是什么,AI爬虫是什么,AI迷宫又是什么,这个事到底有意思在哪。
一个在今年1月份,发生在一个仅有7人的乌克兰公司的故事。
这个公司叫做Triplegangers,做的业务特别简单,就是
卖人的3D数字模型。
Triplegangers专注于销售“人体的数字孪生”模型素材,这些高清3D模型照片来自真实的人类扫描,价值巨大。
创始人Tomchuk一直很满意,公司虽然不大,但是是他最喜欢的事情。
这个网站上,一共共有65000个产品页面,每个产品的页面至少放着三张高清照片。 每一张图片,都细致地标注了年龄、肤色、纹身甚至伤疤。
但是,就在一个普通的周六早上, 平静被一场风暴骤然打破。
Tomchuk收到了一条紧急通知:公司网站崩溃了,因为受到了大量的DDoS攻击。
他懵逼了,因为平时也没啥仇人,更没啥竞品,守着自己那一亩三分地,谁会好好的来攻击自己呢?
他惊慌失措地开始调查原因,很快发现,居然是OpenAI的爬虫机器人,GPTBot在攻击他的网站。
GPTBot疯狂地爬取每一个页面, 数十万张照片、数十万个描述, 在短短几小时内被无情下载。
这些爬虫机器人使用了整整600个IP地址,数以万计的服务器请求,这种网站哪见过这种架势,网站的服务器瞬间瘫痪,业务陷入停滞。
Tomchuk人都傻了,不仅自己的数据全丢了,被OpenAI爬的干干净净,
更糟的是,由于服务器压力暴涨, 公司还将面临一笔巨额的AWS账单。
他们这个七人的团队花了十年心血,才构建了这个庞大的数据库,客户遍及游戏开发、动画制作等多个行业。
更令人无奈的是,他们原本就明确禁止爬虫机器人未经许可抓取网站数据。
但是因为没那么懂AI,也不太知道那些AI大模型公司的玩法,所以没有严格配置robot.txt 文件,没有配专门告知OpenAI的机器人GPTBot不要访问该网站的标签,这基本等同于默认允许了OpenAI的抓取行为。
关键是吧,配了GPTBot的标签也不够,因为OpenAI还有ChatGPT-User和OAI-SearchBot,这两个标签也要配。你甚至不知道他们还有啥。
"我们原以为禁止条款就足够了,没想到还必须专门设定拒绝机器人的规则。"
几天后,
Tomchuk终于设置好了
Triplegangers的robot.txt文件,并启用了Cloudflare服务以屏蔽更多爬虫。
Cloudflare大家可能没听过,但是大多数人应该都见过。
就这个玩意,让你在进入某些网页之前,验证一下你是否是人类。
不过这玩意也不是免费的,挺烧钱的,都是成本。但是为了再防一波OpenAI那种流氓行为,他们只能启用。
这些服务的钱,都还好说,但是让
Tomchuk最痛苦的事,他根本不知道,OpenAI到底拿走了多少素材。
而且,
Tomchuk说:
"我们甚至联系不上OpenAI,也无法要求他们删除已抓取的数据。"
甚至最离谱的是,如果不是OpenAI这么贪,一次性请求太多,直接把
Triplegangers爬崩溃了,而是慢慢爬,一点一点的。
Tomchuk可能这辈子都发现不了自己的数据已经全部丢的干干净净了。
OpenAI的爬虫逻辑很简单,如果你家门口没有保安站岗,那就说明你默认你家里的东西我就都可以拿走,都是我的。因为你没说不准我拿,也没设保安,所以我就可以进门全部洗劫一空。
这是一场战争。
一场没有硝烟的战争。
一场关乎于保护自己财产神圣不可侵犯的战争。
一场关乎于我们,跟这些AI公司的AI爬虫的战争。
Trilegangers的遭遇并不是孤例。
在许多许多公司和内容创作者的眼中,AI爬虫就是这个时代的数字蝗虫,所过之处令网站不堪重负,数据还被洗劫一空。
去年夏天,还有一个著名的的例子,来自于非常老牌的维修教程网站,iFixit。
iFixit发现,他们的网站也成了AI爬虫的盘中餐。
但这一次,吃相难看的不是OpenAI,而是另一个AI王者,Anthropic公司的爬虫ClaudeBot。
当时iFixit的CEO怒不可遏地在社交媒体上爆料:
ClaudeBot在短短24小时内疯狂访问了iFixit近一百万次。直接差点把他们的网站挤爆,触发了所有报警系统,迫使iFixit的运维团队连夜加班处理。
更离谱的是,iFixit早就明文禁止未经许可抓取他们的内容用于AI训练,这一条清清楚楚地写进了网站的使用条款,甚至特别注明“
不得将本网站内容用于机器学习或AI模型的训练
”。