昨天有不少人提到 DeepSeek 在回应某些要求时说:“OpenAl 的内容政策不允许输出色情内容”。于是没什么脑子的人就认为这是“ChatGPT 套壳”的铁证,理智的人也会怀疑是不是在训练过程中借助了 OpenAI 的模型。
晚出生的作家可能会受到前辈们作品的影响,这不一定就是抄袭。鲁迅的《狂人日记》自然受了果戈里《狂人日记》的影响,但这不是抄袭。正如任何大模型也都会受鲁迅《狂人日记》和果戈里《狂人日记》的影响。
自从 ChatGPT 横空出世,互联网上的数据就已经被 ChatGPT 影响了。那么之后从互联网上采集的训练数据就会包含 ChatGPT 相关的内容。如果没有刻意排除这些数据,后诞生的模型不可避免会受到先诞生模型的影响。
当然,仅凭观察到的现象,固然无法证明“DeepSeek 训练过程中借助了 OpenAI 的模型”的可能,但也无法排除这一可能。不过,数据污染应该是更合理、可能性更大的解释。
否则的话,下面这个就不好解释了:
晚出生的作家可能会受到前辈们作品的影响,这不一定就是抄袭。鲁迅的《狂人日记》自然受了果戈里《狂人日记》的影响,但这不是抄袭。正如任何大模型也都会受鲁迅《狂人日记》和果戈里《狂人日记》的影响。
自从 ChatGPT 横空出世,互联网上的数据就已经被 ChatGPT 影响了。那么之后从互联网上采集的训练数据就会包含 ChatGPT 相关的内容。如果没有刻意排除这些数据,后诞生的模型不可避免会受到先诞生模型的影响。
当然,仅凭观察到的现象,固然无法证明“DeepSeek 训练过程中借助了 OpenAI 的模型”的可能,但也无法排除这一可能。不过,数据污染应该是更合理、可能性更大的解释。
否则的话,下面这个就不好解释了: