【DeepSeek-V3或证明Ilya“预训练终结论”有误?UC伯克利博士生证明大模型内容可用于训练新模型】
还记得 #OpenAI# 前首席科学家伊利亚·苏茨克维(Ilya Sutskever)在 2024 年神经信息处理系统大会(NeurIPS,Neural Information Processing Systems)上的“预训练即将终结”发言吗?他之所以这样说是因为:互联网上所有有用数据都将被用来训练 #大模型# 。
这个过程也被称为预训练,包括 #ChatGPT# 等在内的大模型均要经过这一步骤才能“出炉”。
不过,由于现有互联网数据或将被消耗殆尽,因此伊利亚表示这个时代“无疑将结束”。
但是,大多数业界人士并未因此感到恐慌,这是为什么?答案可以先从最近火到大洋彼岸的中国大模型 DeepSeek V3 说起。
曾在谷歌旗下公司 DeepMind 实习过的美国加州大学伯克利分校博士生查理·斯内尔(Charlie Snell)非常关注 DeepSeek V3,他不仅在 X 上转发了 DeepSeek V3 的相关内容,还专门问了问 OpenAI 内部人士对于 DeepSeek V3 的看法。
戳链接查看详情: DeepSeek-V3或证明Ilya“预训练终结论”有误?UC伯克利博士生证明大模型内容可用于训练新模型
还记得 #OpenAI# 前首席科学家伊利亚·苏茨克维(Ilya Sutskever)在 2024 年神经信息处理系统大会(NeurIPS,Neural Information Processing Systems)上的“预训练即将终结”发言吗?他之所以这样说是因为:互联网上所有有用数据都将被用来训练 #大模型# 。
这个过程也被称为预训练,包括 #ChatGPT# 等在内的大模型均要经过这一步骤才能“出炉”。
不过,由于现有互联网数据或将被消耗殆尽,因此伊利亚表示这个时代“无疑将结束”。
但是,大多数业界人士并未因此感到恐慌,这是为什么?答案可以先从最近火到大洋彼岸的中国大模型 DeepSeek V3 说起。
曾在谷歌旗下公司 DeepMind 实习过的美国加州大学伯克利分校博士生查理·斯内尔(Charlie Snell)非常关注 DeepSeek V3,他不仅在 X 上转发了 DeepSeek V3 的相关内容,还专门问了问 OpenAI 内部人士对于 DeepSeek V3 的看法。
戳链接查看详情: DeepSeek-V3或证明Ilya“预训练终结论”有误?UC伯克利博士生证明大模型内容可用于训练新模型