OpenAI偷模型？爬虫疯狂“偷”数据，还砸钱回收“废片”！！

CG世界 · 公众号 · · 2025-01-19 09:46

正文

点击上方蓝字 CG世界 关注我们

再点右上角···设为星标★

近些年，随着 OpenAI疯狂兴起，窃取数据，据为己有的事情是屡见不鲜，见怪不怪了！

就在近期，乌克兰一家名为Trilegangers的公司，经过十年时间建立起来专注于人体3D模型的网站突然完全瘫痪了。万万没想到，追根溯源，始作俑者竟然是由OpenAI之前研发的一款网络爬虫机器人—GPTBot。

Trilegangers 所做的业务就是为3D艺术家、视频游戏开发者以及所有需要精确数字化再现真实人类特征的人群销售这些数据。

不久前OpenAI GPTBot使用600个IP发送了数万个服务器请求来抓取数据，试图下载网站上全部的内容，数十万张照片及其详细描述，贪心的想要网站上全部的付费产品。这才被 Trilegangers发现 OpenAI正觊觎自家网站的内容，想要“窃取”。

有人会问，GPTbot是什么呢？竟然有如此“威力”？

GPTBot是OpenAI于2023年8月推出的一种网络爬虫工具，用于从互联网收集数据，以此为训练和优化大型模型（例如ChatGPT）提供素材。

它可以自动访问公开可用的网站，收集文本数据来增强模型能力。对于付费的信息，OpenAI在此前表示，GPTBot会严格遵守任何付费墙的规则，不会抓取需要付费的信息。

OpenAI还表示GPTBot会遵守网站robots.txt文件里的规则。如果网站设置了禁止GPTBot抓取的指令，它理论上会停止访问此网站。

话虽说的够漂亮，显得诚意满满，但是显而易见，GPTBot貌似“食言”了！

对于此次发生的事件，据媒体报道是因为Trilegangers没有正确使用robot.txt，其中的标签没有明确告诉OpenAI的机器人GPTBot，不要爬取该网站内容。所以OpenAI和其他公司就会认为抓取数据是理所当然的事情。

但就算Trilegangers告诉了GPTBot不要抓取自家网站的内容，谁能料到，除了GPTBot，OpenAI还利用其他机器人，如ChatGPT-User和OAI-SearchBot，继续进行数据抓取。

你以为这就结束了？就算更新了网站的robots.txt文件，也不是完全的安全，因为OpenAI的系统可能需要最多24小时才能识别并响应这些更新。

更让人细思极恐的是，GPTBot到底是何时，抓取的哪些内容，这些都不得而知！最恐怖的是，如果GPTBot抓取的内容少，或许Trilegangers永远也发现不了.......

诸如此类的事情还有很多，数不胜数！

回过头来咱们在讲讲OpenAI，真是为了训练AI无所不用其极，它的“雷霆手段”是有目共睹的。

OpenAI近些年啊，能买的素材都买了，能偷的能扒得视频、图片各种数据基本上都扒得差不多了，已经到了无处可扒得地步。想训练更多的数据，发扬光大，做大做强那得需要更多的素材了，这可怎么办呢？于是乎，OpenAI小脑瓜疯狂运转，灵机一动，盯上了创作者们~欲想用重金求购那些从来没有公开出来得视频。

有多重金呢？实不相瞒，已经明码标价出来了！

如果说，手上有为YouTube、Instagram和TikTok准备的未发布视频，那可是一笔小财富。一般来说，每分钟视频的价格在1到2美元（约7.3元 - 15 元）之间，整体价格范围是1到4美元（约合7.3元 - 30元）一分钟。算算看，你有多少视频可以贡献，小小发一下财呀？

不过，要是视频的质量特别高或者格式特别吸引人，这个价格还能往上走一走！如果是视频是4K的，或者是无人机拍摄的又或者是3D动画，那价格就会更高。

此次为何要支付费用来获得授权呢？

或许是因为YouTube上的内容常常在未经创作者同意的情况下被各种AI公司用于训练模型，引发了大量创作者的不满。随着这种矛盾的加剧。

以及网上大部分可用的内容已经被广泛用于训练，AI公司现在面临着更为严格的审查和更高的期望。因此，为了合法且正当获取新的训练数据，这些公司开始考虑支付费用以获得创作者的明确授权。

就像油管上个月推出的新功能，允许创作者自行控制是否许可AI抓取他们的视频内容，并可以选择授权给特定的AI公司，或者全部授权。不过，目前YouTube尚未公布相关的授权费用政策。

好了，文章就说到这了，但是国内的创作者们想要将未公布的视频换成美金还得再等等，毕竟在国内，这样的市场还是比较空白的！

话说回来，还不知道小编大学做的非常完美的动画能卖几个美金呢？一整个期待住了！

end