专栏名称: 黑客技术与网络安全

分享最前沿的黑客知识，了解黑客世界，学习黑客技术

Claude爬虫惹众怒！技术论坛CEO喊话Anthropic：我知道你们缺数据，但一天攻击服务器上百万次已无法忍受！

黑客技术与网络安全 · 公众号 · · 2024-08-08 11:39

主要观点总结

Anthropic公司使用其大模型Claude在一天内以百万次的速度访问了名为iFixit的技术网站，以获得更多数据，导致网站CEO抗议和服务器承受巨大负载。该事件引起广泛讨论并展示了AI爬虫滥用的问题。文章还探讨了应对方案、版权问题以及商业合作的可能性。

关键观点总结

关键观点1: 事件背景及经过

Anthropic公司为了获取更多数据，使用其大模型Claude对iFixit网站进行爬虫抓取，导致网站服务器承受巨大负载，引发网站CEO的抗议。

关键观点2: iFixit网站的困境

iFixit网站是一家专注于提供电子设备维修指南的技术论坛，未得到许可的情况下被Anthropic公司爬虫抓取数据，导致服务器负载增加，性能下降。

关键观点3: Claudebot的其他罪行

Claudebot曾因爬虫滥用导致其他技术论坛瘫痪数小时，无视网站的服务条款和robots.txt文件。

关键观点4: 版权问题的讨论

文章讨论了AI公司如何对待版权问题，以及可能的解决方案，包括设置robots.txt文件和版权陷阱等。

关键观点5: 商业合作的前景

文章展望了AI公司与内容产出者之间的商业合作前景，强调了保护版权的重要性，并提到了OpenAI与新闻集团等公司的合作案例。

正文

来自公众号： 51CTO技术栈

忍无可忍了！

OpenAI最大的竞争对手Anthropic公司，为了让自家大模型Claude获得更多数据，直接用网络爬虫在一天内以百万次的速度访问了名为iFixit的技术网站。

直接把iFixit网站的CEO Kyle Wiens逼得在X上跟Anthropic对线！

Kyle Wiens毫不客气地戳Anthropic脊梁骨：嘿，@AnthropicAl，我知道你想要数据。Claude确实很聪明！但你真的需要在24 小时内对我们的服务器进行上百万次的攻击吗?

你不仅白嫖占用了我们的内容，还占用了我们的开发资源。这可不酷。

Kyle Wiens还阴阳了一把Anthropic说，“难道Claude的爬虫没有爬到我们网站的声明吗？”

因为在iFixit的服务条款里已经明确写了：“未经iFixit事先书面许可，严禁复制、复制或分发站点上的任何内容、材料或设计元素，包括用于训练机器学习或AI模型。”

令人愤怒的是，Anthropic并未向iFixit道歉，而是给了他一篇有甩锅意味的博文。博文里写道：

“根据行业标准，Anthropic使用各种数据源进行模型开发，如通过网络爬虫收集的公开可用数据。”“我们的爬取不应具有侵入性或干扰性。我们通过考虑在相同域中爬取速度和尊重适当的Crawl-delay来实现最小化的干扰。”

天降横祸：iFixit承受爬虫围攻

iFixit是一家专注于提供电子设备维修指南和工具的技术论坛。

iFixit的主要通过提供详细的拆解和维修指南，帮助用户自己动手维修设备，从而延长电子产品的使用寿命。

Kyle Wiens在接受外媒采访时讽刺地说，“我们只是世界上最大的维修信息库而已，他们未经许可偷走我们所有的数据并且在这个过程中把我们的服务器淹没，这也没什么大不了的。”

他补充说，iFixit的网站有数百万个页面，包括修理指南、这些指南的修订历史、博客、新闻帖子和研究、论坛、社区贡献的修理指南和问答部分等。

Wiens向媒体展示了网站的服务器日志，根据日志内容，Claudebot在几个小时的时间中，每分钟数千次的请求访问。

显然，爬虫过境会使得激增的访问量不断增加服务器负载，导致服务器响应时间变慢，甚至崩溃。

然而，这不是Claudebot的第一次惹祸，很可能也不是最后一次。

恶名在外：Claudebot罪行累累

搜索一下Claudebot，就会发现它已经是个惯犯了。

Claudebot疯狂起来直接将技术论坛搞到瘫痪数个小时。专注于Linux Mint操作系统讨论的Linux Mint Forums就曾惨遭毒手。

在ClaudeBot开始搜索和访问论坛后，导致该论坛在几个小时内性能极差，并最终导致了访问的中断。直到爬虫被防火墙阻止后，论坛性能才恢复正常。

Linux Mint Forums恢复后在声明中说：Anthropic正在通过免费搜索网站来训练AI。他们这样做会给网站带来大量额外负载，这实际上是一种 DDos 攻击。

因此，有人直接评价Claudebot为“近年来，在我的服务器上遇到的最惹人烦的爬虫机器人”。并说将屏蔽一切与Claude有关的内容。

Reddit上也有篇帖子吐槽Claudebot太过积极，更加不讲理的是Claudebot似乎直接开大绕过了他的robots.txt文件。

这篇帖子引起了广泛的共鸣，有人回应说，“我不介意通过爬虫获取数据来改进模型，但我绝对无法忍受这些公司荒谬的虚伪行为。

包括Claude在内的所有顶级模型都会警告你不要在输入中使用受版权保护的文字。人工智能模型本身也会告诉你这一点。

然而，这些公司在训练它们的模型时，却公然无视版权。这种 "只许州官放火，不许百姓点灯 "的情况实在令人恼火。

我还讨厌的是，反人工智能的人群大动干戈，试图压制其他穷人使用人工智能。因此，来自上层（公司）和下层（饥饿的艺术家）的双重压力都在压制其他穷人使用人工智能。这太愚蠢了。”