专栏名称: t0mbkeeper
汉语从句专家,茧房建筑师
目录
相关文章推荐
界面新闻  ·  大年初一电影票房破纪录 ·  3 天前  
槽边往事  ·  初一拜年 ·  4 天前  
北山浮生  ·  一家二十人的小公司,Deepseek如何逆转 ... ·  4 天前  
差评  ·  聊一聊:过年准备包多少红包? ·  5 天前  
t0mbkeeper  ·  之前我对比过 GPT-4o 和 ... ·  5 天前  
51好读  ›  专栏  ›  t0mbkeeper

昨天有不少人提到 DeepSeek 在回应某些要求时说:“Ope-20250201121222

t0mbkeeper  · 微博  · 热门自媒体  · 2025-02-01 12:12

正文

2025-02-01 12:12

昨天有不少人提到 DeepSeek 在回应某些要求时说:“OpenAl 的内容政策不允许输出色情内容”。于是没什么脑子的人就认为这是“ChatGPT 套壳”的铁证,理智的人也会怀疑是不是在训练过程中借助了 OpenAI 的模型。

晚出生的作家可能会受到前辈们作品的影响,这不一定就是抄袭。鲁迅的《狂人日记》自然受了果戈里《狂人日记》的影响,但这不是抄袭。正如任何大模型也都会受鲁迅《狂人日记》和果戈里《狂人日记》的影响。

自从 ChatGPT 横空出世,互联网上的数据就已经被 ChatGPT 影响了。那么之后从互联网上采集的训练数据就会包含 ChatGPT 相关的内容。如果没有刻意排除这些数据,后诞生的模型不可避免会受到先诞生模型的影响。

当然,仅凭观察到的现象,固然无法证明“DeepSeek 训练过程中借助了 OpenAI 的模型”的可能,但也无法排除这一可能。不过,数据污染应该是更合理、可能性更大的解释。

否则的话,下面这个就不好解释了: