专栏名称: 猿大侠

猿大侠，既然选择了，就一定成为大侠！小程序、小游戏、Google、苹果、职场、前沿技术分享，一起成长。

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

猿大侠 · 公众号 · · 2024-04-08 12:08

正文

转自：新智元

编辑：Aeneas 好困

【导读】 2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的自拍照或者隐私聊天，该怎么办？

谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。

现在，硅谷大厂们已经纷纷出动，买下所有能购买版权的互联网数据，这架势简直要抢破头了！

图像托管网站Photobucket的陈年旧数据，本来已经多年无人问津，但如今，它们正在被各大互联网公司疯抢，用来训练AI模型。

为此，科技巨头们愿意拿出实打实的真金白银。比如，每张照片价值5美分到1美元，每个视频价值超过1美元，具体情况去取决于买家和素材种类。

总之，为了购买AI训练数据，巨头们已经展开了一场地下竞赛！

而最近闹得轰轰烈烈的Meta图像生成器大翻车事件，更是让AI的训练数据「刻板印象」暴露无遗。

如果喂给模型的数据无法改变「偏见」，那各大公司要遭遇的舆论风波，只怕少不了。

Meta的AI生图工具画不出来「亚洲男性和白人妻子」或「亚洲女性和白人丈夫」

巨头狂砸数十亿美元，只为买到数据「黄金」

根据路透社报道，在2000年代，Photobucket处于巅峰期，拥有7000万用户。而今天，这家顶级网站的用户已经骤降到了200万人。

但生成式AI，给这家公司带来了新生。

CEO Ted Leonard开心地透露，目前已经有多家科技公司找上门来，愿意重金购买公司的130亿份照片和视频。

目的，当然就是训练AI。

为了得到这些数据，各大公司都非常舍得割肉。

而且，他们还想要更多！据说，一位买家表示，自己想要超过10亿个视频，而这，已经远远超出了Photobucket能提供的数量。

据粗略估计，Photobucket手中握着的数据，很可能价值数十亿美元。

OpenAI陷起诉风波，版权太敏感了

现在眼看着，大家的数据都不够用了。

根据Epoch研究所的分析，到2026年，科技公司很可能会耗尽互联网上所有的高质量数据，因为他们消耗数据的速度，远远超过了数据的生成速度！

训练ChatGPT的数据，是从互联网上免费抓取的。

Sora的训练数据来源不详，CTO Murati接受采访时支支吾吾的表现，险些又让OpenAI大翻车。

虽然OpenAI表示，自己的做法完全合法，但前方还有一堆版权诉讼在等着他们。

而其他大科技公司都跟着学乖了，大家都在悄悄地为付费墙和登录屏幕背后的锁定内容付费。

如今，无论是陈旧的聊天记录，还是被遗忘的社交媒体上褪色的旧照片，忽然都变成了价值连城的东西。

外媒记者走访了30多名专业人士，发现这背后隐藏的，是一个黄金市场。

虽然很多公司对于这个不透明的AI市场规模表示缄默，但Business Research Insights等研究人员认为，目前市场规模约为 25亿美元 ，并预测十年内可能会增长近 300亿美元 。

生成数据淘金热，让数据商乐开花

对科技公司来说，如果不能使用免费抓取的网页数据档案，比如Common Crawl，那成本会是一个很可怕的数字。

但是一连串版权诉讼和监管热潮，已经让他们别无选择。

甚至，硅谷已经出现了一个新兴的行业——数据经纪人。

而图片、视频供应商们，也随之赚得盆满钵满。

手快的公司，早就反应过来了。ChatGPT在2022年底亮相的几个月内，Meta、谷歌、亚马逊和苹果就已经迅速和图片库提供商Shutterstock达成协议，使用库中的数亿份图像、视频和音乐文件进行训练。

根据首席财务官透露的数据，这些交易从2500万美元到5000万美元不等。

而Shutterstock的竞争对手Freepik，也已经有了两位大买家，2亿张图片档案中的大部分，会以2至4美分的价格授权。

OpenAI当然也不会落后，它不仅是Shutterstock的早期客户，还与包括美联社在内的至少四家新闻机构签署了许可协议。

让内容「合乎道德」

同时兴起的，还有AI数据定制行业。

这批公司获得了与播客、短视频和与数字助理互动等现实世界内容的授权，同时还建立了短期合同工网络，从头开始定制视觉效果和语音样本。

作为代表之一的Defined.ai，已经把自己的内容卖给了谷歌、Meta、苹果、亚马逊、微软等多家科技大厂。

其中，一张图片卖1到2美元，一部短视频卖2到4美元，一部长片每小时可以卖到100到300美元，文本的市价则是每字0.001美元。

而比较麻烦的裸体图像，售价为5到7美元，因为还需要后期处理。

而这些照片、播客和医疗数据的所有者，也会获得总交易额20%至30%的费用。

一位巴西数据商表示，为了获得犯罪现场、冲突暴力和手术的图像，他需要从警察、自由摄影记者和医学生手里去买。

他补充说，他的公司雇用了习惯于看到暴力伤害的护士来脱敏和标注这些图像，这对未经训练的眼睛来说是令人不安的。

而将图像脱敏、标注的工作，则交给惯于看到暴力伤害的护士，毕竟未经训练的人眼看到这些图像，会很不安。

然而，这些AI模型的「燃料」，很可能会引发严重的问题，比如——吐出用户隐私。

专家发现，AI会反刍训练数据，比如，它们会吐出Getty Images水印，逐字输出纽约时报文章的段落，甚至再现真人图像。

Getty Images指责Stability AI「以惊人的规模肆无忌惮地侵犯它的知识产权」

也就是说，几十年前某人发布的私人照片或私密想法，很可能在不知情的情况下，被AI模型原样吐了出来！

这次「ChatGPT在回复中泄露陌生男子自拍照事件」，让大家颇为恐慌

这些隐患，目前还没有有效方法解决。

调查显示，用户愿意每月多付1美元，让自己的个人数据不被第三方使用

Altman，也看上了合成数据

另外，Sam Altman也早看到了合成数据的未来。

这些数据不是人类直接创造的，而是由AI模型生成的文本、图像和代码，也就是说，这些系统通过学习自己产生的内容来进步。

既然AI能创造出接近人类的文本，当然也就能自产自销，帮自己进化成更先进的版本。

只要我们能够跨过合成数据的关键阈值，即让模型能够自主创造出高质量的合成数据，那么一切问题都将迎刃而解。

——Sam Altman

不过，这件事真的这么容易吗？

人工智能研究者们已经研究合成数据多年，但要构建一个能自我训练的人工智能系统并非易事。

专家发现，模型如果只依赖于自我生成的数据，可能会不断重复自己的错误和局限，陷入一个自我加强的循环中。

这些系统所需的数据，就像是在丛林中寻找一条路径，如果它们仅仅依赖于合成数据，就可能在丛林里迷路。

——前OpenAI研究员、现任不列颠哥伦比亚大学计算机科学教授Jeff Clune

对此，OpenAI正在探索如何让两个不同的人工智能模型协作，共同生成更高质量、更可靠的合成数据。其中一个负责生成数据，另一个则负责评估。

这种方法是否有效，还未可知。

「规模」Is All You Need

数据为什么对AI模型这么重要？这要从下面这篇论文说起。

2020年1月，约翰斯·霍普金斯大学的理论物理学家Jared Kaplan与9位OpenAI研究人员共同发表了一篇具有里程碑意义的人工智能论文。

他们得出了一个明确的结论：训练大语言模型所用的数据越多，其性能就越好。

正如一个学生通过阅读更多书籍能学到更多知识一样，大语言模型能通过更多的信息更精确地识别文本模式。

很快，「只要规模足够大，一切就皆有可能」便成为了AI领域的共识。

论文地址：https://arxiv.org/abs/2001.08361

2020年11月，OpenAI推出的GPT-3，便利用了当时最为庞大的数据进行训练——约3000亿个token。

在吸收了这些数据后，GPT-3展现出了惊人的文本生成能力——它不仅可以撰写博客文章、诗歌，甚至还能编写自己的计算机程序。

但如今看来，这个数据集的规模就显得相当小了。

到了2022年，DeepMind将训练数据直接拉到了1.4万亿个token，比Kaplan博士在论文中预测的还要多。

然而，这一记录并未保持太久。

2023年，谷歌发布的PaLM 2，在训练token上更是达到了3.6万亿——几乎是牛津大学博德利图书馆自1602年以来收集手稿数量的两倍。

为训GPT-4，OpenAI白嫖100万+小时YouTube视频

但正如OpenAI的CEO Sam Altman所说，AI终究会消耗完互联网上所有可用的数据资源。

这不是预言，也不是危言耸听——因为Altman本人就曾亲眼目睹过它的发生。

在OpenAI，研究团队多年来一直在收集、清理数据，并将其汇集成巨大的文本库，用以训练公司的语言模型。

他们从GitHub这个计算机代码库中提取信息，收集了国际象棋走法的数据库，并利用Quizlet网站上关于高中考试和作业的数据。

然而，到了2021年底，这些数据资源已经耗尽。

为了下一代AI模型的开发，总裁Brockman决定亲自披挂上阵。

在他的带领下，团队开发出了一款全新名的语音识别工具Whisper，可以快速准确地转录播客、有声读物和视频。

有了Whisper之后，OpenAI很快便转录了超过100万小时的YouTube视频，而Brockman更是亲自参与到了收集工作当中。

最终的故事大家都知道了，在如此高质量数据的加持下，地表最强的GPT-4横空出世。

谷歌：我也一样

有趣的是，谷歌其实早就知道OpenAI在利用YouTube视频收集数据，但从未想过要出面阻止。

你猜的没错，谷歌也在利用YouTube视频来训练自家的AI模型。

而如果要对OpenAI的行为大加指责，他们不仅会暴露自己，甚至还会引发公众更加强烈的反应。

不仅如此，那些储存在Google Docs、Google Sheets等应用里的数十亿文字数据，也是谷歌的目标。

2023年6月，谷歌的法律部门要求隐私团队修改服务条款，从而扩展公司对消费者数据的使用权限。

也就是，为公司能够利用用户公开分享的内容开发一系列的AI产品，铺平道路。

据员工透露，他们被明确指示要在7月发布新的条款，因为那时大家的注意力都在即将到来的假期上。

7月1日发布的新条款不仅允许谷歌使用这些数据开发语言模型，还能用于创建像Google Translate、Bard和Cloud AI等广泛的AI技术和产品

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

正文

OpenAI陷起诉风波，版权太敏感了

让内容「合乎道德」

请到「今天看啥」查看全文