专栏名称: 多知网
专注于报道培训教育领域,有意思,有价值,有细节,有深度
目录
相关文章推荐
成都本地宝  ·  成都市2025年春季学期收费标准 ·  3 天前  
成都发布  ·  打“飞的”真的要来了!成都人准备冲 ·  3 天前  
成都本地宝  ·  2025成都元宵节免费活动汇总!(第一弹) ·  4 天前  
51好读  ›  专栏  ›  多知网

Epoch AI:2028年互联网上所有高质量文本数据将被使用完毕

多知网  · 公众号  ·  · 2024-08-02 18:06

正文

多知8月2日消息,据研究公司Epoch AI预测,人类生成的公开文本数据的总有效存量约为300万亿tokens。 至2028年,互联网上的所有高质量文本数据或将被悉数使用完毕,而机器学习所依赖的高质量语言数据集,其枯竭的时间点甚至可能提前至2026年。



为了在 2028 年之后保持当前的进展速度,开发或改进替代数据源(如合成数据)似乎至关重要。 尽管挑战仍然存在,但这些挑战可以使机器学习继续扩展到公共文本之外。 不过,研究人员指出,用生成的数据集训练未来几代机器学习模型可能会导致“模型崩溃”。


不过,也有观点认为,在语言模型的细分领域内,仍有一片未被充分探索的数据蓝海,蕴藏着丰富的差异化信息,等待着被挖掘利用。




《教育科技这一年·2022》+






请到「今天看啥」查看全文