我们之前已经分享了
清华大学
和
北京大学
出品的 DeepSeek 系列教程。今天接着分享一份湖南大学出品的 PDF,内容围绕着:我们该如何看待DeepSeek——what, how, why, and next?
如果你对
DeepSeek 是什么
,
能用它干什么
,以及它
背后的原理
都有所了解,不防看看这份 PDF 介绍的
下一步要关注什么
。
这里我们仍然会从四个方面简要介绍一下这份 PDF:
DeepSeek是什么
,
能用DeepSeek干什么
,
DeepSeek背后的原理
,以及
下一步要关注什么
。
DeepSeek是什么?
PDF 首先提到了
ChatGPT
引爆了全球人工智能的热潮,它是一个
生成式人工智能(AIGC)
和
大语言模型(LLM 或大模型)
,通过
Transformer
这种特殊的神经网络结构来实现
文字接龙
。而
DeepSeek-R1
更像是一个
“推理模型”
。
推理模型
的关键在于它不仅仅是直接给出答案,而是能够像人类一样进行一步一步的
推导(Reasoning)
。这意味着 DeepSeek-R1 在
数学、代码和逻辑
等领域展现出更强的优势。PDF认为,DeepSeek R1是
首个展示思维链过程的推理模型
。
DeepSeek R1还具有以下几个重要的特点:
-
价格非常有竞争力,甚至提供了网页聊天免费的功能,降低了使用门槛。
-
它是
首个开源的推理模型
,用户可以
下载并在本地安装使用。
-
它在
技术创新、训练和推理效率以及性能方面都表现出色。
-
它的出现使得
最前沿的大模型技术能够被更多人直接体验。
简单来说,DeepSeek-R1是一个功能强大、价格合理且开放的人工智能模型,它不仅能进行对话和生成文本,更侧重于逻辑推理和问题解决。
能用DeepSeek干什么?
第二部分介绍了 DeepSeek 的各种应用场景,并强调掌握使用AI的
思维方法
。它通过一些案例展示了 DeepSeek 在不同领域的潜力:
-
写书:例如,提供编译原理书稿的案例片段.
-
信息梳理:例如,对比整理不同AI模型的收费情况。通过DS-R1+联网搜索
,可以自动梳理信息.
-
数据分析
:例如,分析某地公务员录用人员的学历和专业构成.
-
咨询分析
:例如,分析专家特长并给出研究方向建议.
-
写程序
:例如,编写抽签小程序.
-
做教辅
:例如,为幼儿园小朋友设计科普讲稿.
同时,PDF也提醒我们应该
正确理解 DeepSeek 的局限性
。它还不是
通用人工智能(AGI)
,不能“一步到位”地解决所有问题,
需要用户具备一定的问题拆解、信息整合和迭代调优能力
。DeepSeek
可能会出错,并且不掌握所有的知识
,因此我们需要利用其能力的同时,也要有判断和筛选能力,善用
联网搜索和知识库
来辅助. 此外,当前的 DeepSeek 模型主要是
语言模型,不能直接处理图片、视频等多模态数据
,并且存在
上下文长度限制
,不能一次性输入过多的信息. 因此,我们需要学会
组合多种工具一起使用,取长补短。
总的来说,DeepSeek可以帮助我们处理各种文字相关的任务,提高效率,但我们需要了解它的能力边界,并掌握正确的使用方法。
DeepSeek背后的原理是什么?
第三部分简要介绍了DeepSeek背后的技术原理,核心是
Transformer
。
Transformer 是一种特殊的
神经网络
,现在几乎所有典型的大模型都采用这种结构. 它可以将输入的
文本(token)编码成向量(Embedding)
,然后通过
注意力机制(Attention)
计算不同token之间的关系,理解每个token在上下文中的含义。接着,通过
多层感知机(MLP)
进一步理解每个token自身的含义。这个
Attention和MLP的过程会重复多次
,最终通过
解码(Unembedding)
将向量还原成预测的下一个token并输出. 这个过程就像模型在学习“文字接龙”.
模型通过
“训练”
来学习这种能力,也就是将
海量的训练数据知识内嵌到模型中
. 训练过程需要调整模型中
大量的参数
.
数据和参数的规模越大,LLM就越强大
. DeepSeek R1/V3就拥有
6710亿参数
. 此外,为了让模型更好地服务于人类,还需要进行
后训练对齐
,例如
监督式微调(SFT)
和
强化学习(RL)
,以提高模型的可靠性.
简单来说,DeepSeek 等大模型的核心技术是 Transformer 神经网络,它们通过学习大量的文本数据,掌握了预测和生成文字的能力,并且模型越大、训练数据越多,性能就越好。