图片来源:由无界AI生成
做过 Up 主、YouTuber 或是视频自媒体从业者都知道,一部传到平台上 10 分钟的成片,背后可能是几个小时的素材。如同快充般的「拍摄 1 小时,剪出 1 分钟」。而在电影行业,常见素材比也在 10:1 到 20:1 甚至更高。
那些被弃用的素材叫做「废片」,在成片输出后,这些素材就如同废品一样,留着只会占据硬盘空间。
但就像现实生活有愿意花钱收废品,现在大 AI 公司想开始花钱「收废片」了。
1 月 11 日,据外媒报道,Open AI、Google、Moonvalley 等公司正在购买视频创作者们拍摄但未使用的「废片」。高质量 4K、无人机、3D 动画素材,1 - 4 美元(约合 7.3 - 30 元)一分钟,为了 YouTube、TikTok、Instagram 等网络视频制作的素材 1 - 2 美元(约 7.3 - 15 元)一分钟。
这么看,只要废片质量足够好,一个小时的废片最高能卖 1800 元,可能比平台给 Up 主的分成还高。
为什么这些科技公司,要花钱买用户拍了不用的废片?
原因很简单:视频数据不够用了。
生成式视频模型、自动驾驶系统甚至机器人训练,都需要大量的视频作为训练数据。而优质视频不仅创作门槛高,在 AI 时代的版权划分也很模糊。
广告、电影公司的版权价格昂贵,网络平台通常也只有发行权而非使用权,和导演及制作团队签署的版权合同里,也鲜少涉及到 AI 使用权的条款。
视频网站同理,如果视频模型想合法抓取 YouTube 的视频,那应该联系 YouTube 还是 YouTuber?这同样是 AI 时代还没解决的版权灰色问题。
YouTube 也没有第三方内容的使用许可权|图源:YouTube
2024 年 4 月美国众议员提出的《生成式 AI 版权披露法案》,要求数据集制作者向注册员提交「任何受版权保护的作品的充分详细摘要」,否则将面临罚款。
在此背景下,Open AI、Google 还有其他 AI 公司就想到了「不买成片买废片」的方式。
不过 AI 大公司并不直接和创作者对接,而是通过第三方专业公司去联系平台和创作者,他们只付钱。怎么谈、找谁买、买回来怎么用,这些都由中介公司和平台协商。
几家中介公司表示,目前已经买了 500 多万美元的素材,对接的 AI 公司多达 17 家,包括 OpenAI、Meta、微软等。
AI 公司买回来后也不能乱用,由第三方专业公司做「中介担保」限制了废片的使用范围:AI 公司不能创建创作者的数字分身;不能在 AI 模型里重现专属创作者的 AI 场景,比如直接生成某个 Up 主固定的背景或是用 ta 的经典梗、口头禅等;不能用有损创作者声誉的方式使用素材。
对网红 YouTuber 而言,脸是「身份标识」|图源:PewDiePie
YouTube 在上个月也加入了类似的新功能:YouTuber 自行决定 AI 是否能抓取自己的视频内容,甚至可以选择授权的 AI 公司(当然也可以全选)。不过目前 YouTube 还没有给出授权费用的政策。
授权名单中有十八家主流 AI 公司|图源:YouTube
互联网内容的发展,随着带宽和信息量的增长,轨迹从文字逐渐转向视频,大模型也是如此。
视频模型成为过去一年大模型最卷的赛道,很多 AI 公司更进一步,直接开始卷可以生成动态场景的「世界模型」,但无论哪种模型,数据养料都离不开视频。于是各大 AI 公司纷纷开始了军备竞赛,谁能拿到更多的视频数据,谁的视频模型可能就会更好。
在前不久的 CES 2025 上,英伟达发布了世界基础模型平台 Cosmos。据介绍,Cosmos 经过了 2000 万小时的视频训练量。然而英伟达在去年就曾被 404 Media 爆出,在未经授权的前提下,违规抓取了大量 YouTube 和 Netflix 的视频以训练「内部名称为 Cosmos 的产品」。
英伟达内部在 Slack 的聊天记录|图源:404 Media
据爆出的英伟达内部聊天记录,英伟达的 AI 科学家和高管汇总了大量 YouTube 精选视频数据集用于模型训练,包括一个名为 HD- VG-130M 的数据集,该数据集由北大的研究人员构建,包含 1.3 亿个 YouTube 数据,使用权限仅限于学术研究。
在被质疑「YouTube 服务条款禁止下载,数据也只能用于研究目的」后,英伟达高管表示「受版权保护的数据能否用于训练,目前是一个悬而未决的法律问题……在大语言模型上,我相信我们的法律团队已经批准了这种做法,因此也可能会批准视频训练。」
在英伟达之前,OpenAI 的视频大模型 Sora 已经被 YouTube 点名批评了。正在和 OpenAI 打官司的《纽约时报》率先报道称,OpenAI 采集了超一百万小时的 YouTube 视频用来训练 GPT-4。
而对 Sora 训练数据来源,当时的 OpenAI 首席技术官(已离职)Mira Murati 直言「实际上,我也不确定」YouTube CEO Neal Mohan 回应称「如果 OpenAI 使用 YouTube 视频来训练 Sora,就明确违反了 YouTube 的使用条款。」
同样的态度,YouTube 又把这段采访发给了 404 Media,回应了一次英伟达。
也有视频模型另辟蹊径,将在未来两个月内公布的新视频模型「Marey」要做行业里「最干净」的,他们号称全部训练数据都拿到了授权,而且 Marey 的目标用户就是好莱坞和整个电影行业的大型工作室。
图源:Moonvalley
这是因为电影不仅是视频质量素材的巅峰,也是对版权规范最严格的视频领域。
对网络视频创作者而言,废片本身的归宿就是备份硬盘甚至回收站,如今有大公司愿意出钱让「废片再利用」,如果这种模式能持续运转,也不失为对小创作者的一种营收手段。
对更大牌的「创作者」,比如电影公司、制片厂而言,技术早已渗透甚至改造了电影行业,从 CGI 生成、虚拟制作到 AI 合成语音、面部去老化等等,AI 无非是一种提高影视制作效率的新技术手段。
但无论大小创作者,或许对 AI 视频生成都有着「杀鸡取卵」的警惕感。试想,当一个创作者源源不断地把自己的废片卖给 AI 模型,当 AI 模型已经足够以假乱真的时候,我们是否还真的需要一个具体的创作者出镜?当 AI 可以生成电影级空镜头,极具视觉冲击的特效后,电影行业还是否需要技术高超的摄影师、数字特效制作者……
「学习你,追赶你,替代你」这是每一个创作者面对生成式 AI 的进化时,都难以避免的恐惧。只能自我安慰道:在挡不住的 AI 浪潮下,废片还能卖钱,这总比免费当个「数据提款机」要强吧。