OpenAI因为发布了新的SORA版本,导致崩了,超过2天都没好,这样一个MTTR时间意味着是一个底层算力调度的问题,而不是一般的应用流程上的问题。
同时也看到很多反馈说SORA定价很贵,我们会从SORA的定价出发,介绍背后的原理,然后跟大家介绍一下为什么现在SORA会定这么贵的价格,以及SORA如果推广起来,到底需要多少算力。
从Sora定价来看,似乎不便宜
Sora定价:
OpenAI也给了更细的原始视频制作的计费表格:
可以得出200USD对应10000credits,平均0.02USD/credit,以最便宜的480p x 480p,5s视频需要花费0.4USD,最贵的1080p (x 1920p) , 20s, 需要花费40USD。
Sora原理介绍
成本介绍之前,需要简单介绍一下Sora的原理, Sora是个扩散模型,在单个帧的图片生成角度,类似于DALL.E(vs另外一条技术路线自回归,在GPT4o中的图片生成是使用的自回归模型)。
1.
图片的Token化:
类似于下面这个图,是把一张图根据像素矩阵(一般16X16)分割成许多小块,那么每个小块可以理解成一个Token
2. Diffusion Model 在单个Token上算力的消耗是文字Token的16倍:
因为Diffusion Model生成图片简单来说是个从含噪音图片逐渐降噪到清晰图片的过程,同一个Token需要经历非常多轮的计算,所以使用算力相比文字Token会更多,一个简单的价格比较:一个DallE生成的1024p X 1024p 的Standard图片,价格是0.04USD/image,按照16 X 16分割,是4,096个Tokens,合9.7USD/Million Tokens, 而GPT4o-mini的价格是0.6USD/Million Tokens,16X
3. 视频生成与图片生成的区别,需要考虑图片之间的联系,这种联系(时间、位置)的刻画也要消耗Tokens,往往是图片部分的数倍!
视频生成的部分是红线以下的部分:从文字的tokens,到一个三维矩阵
有一些减少Token使用的办法:
比如说下图x1包含的五张图都是一个信息,并没有发生变化,那么只需要生成x1 最左边的一张图,剩下的4帧中都可以重复使用,这样就实现了空间上的压缩,同样在时间方面,如果不同时间,但是表现内容是类似的,那么也不需要重复重新生成,类似于电影里面对片段的复用,这样就实现了时间上对tokens的压缩。
贵的原因在于需要的Tokens很多 X 单个Token贵
下面我们来计算一下生成不同清晰度和时间长度的视频需要多少Tokens和成本(单个Token价格代入的是上文通过DallE计算出的价格)
batches extraction ratio = 时间压缩率 x 空间压缩率
生成视频需要的token量是很大的,生成一个480p square,5s的视频也需要2万tokens
而且可以看到红框内的情况,计算出的成本价格和List Price 有比较大的偏移,这并不是是说OpenAI 在这里有很高的利润。是因为在这个计算中,我们只考虑了简单的图片按照时间顺序的排列,并没有考虑视频越长,要求越清晰,在刻画每个图片之间的逻辑关系的时候需要耗费更多的Tokens,根据我们的了解,比如说20秒视频,形成完整视频是上述计算值的数倍以上。
根据时长进行修正:
可以看到在这个情况下,生成最高清晰度1080p x 1920p的视频需要的Tokens在接近400万个。
SORA的爆发对卡的消耗会有多少?
目前来看,SORA的最大应用场景是在短视频制作
单条视频制作成本能够降低到2USD/MINUTE是SORA能够推广的基础,因为这为SORA在最大的场景,短视频领域的推广提供了~10X的ROI(这是一个用户会使用新技术替换之前方式的rule of thumb),我们调研了某个全球最大的短视频平台在某些地区的为了投放广告进行的influencer的短视频制作的采购数据,进行的测算
目前短视频以720p和1080p为主,而且1080p逐渐成为主流,根据OpenAI的报价,1080p,1mintue 的价格至少在120USD/MINUTE,720p的价格在40USD/MINUTE, 如果以这个价格,ROI远远不到1。
假设SORA制作成本能够到2USD/MINUTE, 那么会消耗多少算力?
根据我们的推算,2023年全球短视频的时长在7B hours,全年新增短视频时长增速在10%,那么到27年,大概每年的新增时长在0.4B hours,以SORA 20%的的成功率(即制作5条短视频有一条可以最后可以采用)来计算,大概在2 Bhours/年的SORA 天花板,我们根据这样一个计算(假设在27年SORA制作的视频具有20%的penetration rate), 以今年的价格那么需要的卡数是>2Mn equivalent H100,根据这样的的推算到了33年大概需要4Mn equivalent H100(10% TAM GAGR, 40% penetration rate in 2033)