昨天有不少人提到 DeepSeek 在回应某些要求时说：“Ope-20250201121222_t0mbkeeper的专栏文章_微信文章

昨天有不少人提到 DeepSeek 在回应某些要求时说：“Ope-20250201121222

t0mbkeeper · 微博 · 热门自媒体 · 2025-02-01 12:12

正文

2025-02-01 12:12
本条微博链接

昨天有不少人提到 DeepSeek 在回应某些要求时说：“OpenAl 的内容政策不允许输出色情内容”。于是没什么脑子的人就认为这是“ChatGPT 套壳”的铁证，理智的人也会怀疑是不是在训练过程中借助了 OpenAI 的模型。

晚出生的作家可能会受到前辈们作品的影响，这不一定就是抄袭。鲁迅的《狂人日记》自然受了果戈里《狂人日记》的影响，但这不是抄袭。正如任何大模型也都会受鲁迅《狂人日记》和果戈里《狂人日记》的影响。

自从 ChatGPT 横空出世，互联网上的数据就已经被 ChatGPT 影响了。那么之后从互联网上采集的训练数据就会包含 ChatGPT 相关的内容。如果没有刻意排除这些数据，后诞生的模型不可避免会受到先诞生模型的影响。

当然，仅凭观察到的现象，固然无法证明“DeepSeek 训练过程中借助了 OpenAI 的模型”的可能，但也无法排除这一可能。不过，数据污染应该是更合理、可能性更大的解释。

否则的话，下面这个就不好解释了：