专栏名称: 程序员的那些事
最有影响力的程序员自媒体,关注程序员相关话题:IT技术、IT职场、在线课程、学习资源等。
目录
相关文章推荐
程序员的那些事  ·  湖南大学的 DeepSeek ... ·  2 天前  
OSC开源社区  ·  字节跳动开源跨平台UI框架Lynx:一套代码 ... ·  2 天前  
OSC开源社区  ·  深度实测Manus,我依然认为这就是AI ... ·  4 天前  
OSC开源社区  ·  OWL:Manus通用智能体的完全开源复刻、 ... ·  4 天前  
程序员的那些事  ·  清北 DeepSeek 教程"神仙打架",北 ... ·  6 天前  
51好读  ›  专栏  ›  程序员的那些事

湖南大学的 DeepSeek 教程来了!(PDF免费下载)

程序员的那些事  · 公众号  · 程序员  · 2025-03-10 12:37

正文

我们之前已经分享了 清华大学 北京大学 出品的 DeepSeek 系列教程。今天接着分享一份湖南大学出品的 PDF,内容围绕着:我们该如何看待DeepSeek——what, how, why, and next?

如果你对 DeepSeek 是什么 能用它干什么 ,以及它 背后的原理 都有所了解,不防看看这份 PDF 介绍的 下一步要关注什么

这里我们仍然会从四个方面简要介绍一下这份 PDF: DeepSeek是什么 能用DeepSeek干什么 DeepSeek背后的原理 ,以及 下一步要关注什么

DeepSeek是什么?


PDF 首先提到了 ChatGPT 引爆了全球人工智能的热潮,它是一个 生成式人工智能(AIGC) 大语言模型(LLM 或大模型) ,通过 Transformer 这种特殊的神经网络结构来实现 文字接龙 。而 DeepSeek-R1 更像是一个 “推理模型”

推理模型 的关键在于它不仅仅是直接给出答案,而是能够像人类一样进行一步一步的 推导(Reasoning) 。这意味着 DeepSeek-R1 在 数学、代码和逻辑 等领域展现出更强的优势。PDF认为,DeepSeek R1是 首个展示思维链过程的推理模型

DeepSeek R1还具有以下几个重要的特点:

  • 价格非常有竞争力,甚至提供了网页聊天免费的功能,降低了使用门槛。

  • 它是 首个开源的推理模型 ,用户可以 下载并在本地安装使用。
  • 它在 技术创新、训练和推理效率以及性能方面都表现出色。
  • 它的出现使得 最前沿的大模型技术能够被更多人直接体验。

简单来说,DeepSeek-R1是一个功能强大、价格合理且开放的人工智能模型,它不仅能进行对话和生成文本,更侧重于逻辑推理和问题解决。

能用DeepSeek干什么?


第二部分介绍了 DeepSeek 的各种应用场景,并强调掌握使用AI的 思维方法 。它通过一些案例展示了 DeepSeek 在不同领域的潜力:

  • 写书:例如,提供编译原理书稿的案例片段.

  • 信息梳理:例如,对比整理不同AI模型的收费情况。通过DS-R1+联网搜索

,可以自动梳理信息.
  • 数据分析 :例如,分析某地公务员录用人员的学历和专业构成.

  • 咨询分析 :例如,分析专家特长并给出研究方向建议.

  • 写程序 :例如,编写抽签小程序.

  • 做教辅 :例如,为幼儿园小朋友设计科普讲稿.


同时,PDF也提醒我们应该 正确理解 DeepSeek 的局限性 。它还不是 通用人工智能(AGI) ,不能“一步到位”地解决所有问题, 需要用户具备一定的问题拆解、信息整合和迭代调优能力 。DeepSeek 可能会出错,并且不掌握所有的知识 ,因此我们需要利用其能力的同时,也要有判断和筛选能力,善用 联网搜索和知识库 来辅助. 此外,当前的 DeepSeek 模型主要是 语言模型,不能直接处理图片、视频等多模态数据 ,并且存在 上下文长度限制 ,不能一次性输入过多的信息. 因此,我们需要学会 组合多种工具一起使用,取长补短。

总的来说,DeepSeek可以帮助我们处理各种文字相关的任务,提高效率,但我们需要了解它的能力边界,并掌握正确的使用方法。

DeepSeek背后的原理是什么?


第三部分简要介绍了DeepSeek背后的技术原理,核心是 Transformer

Transformer 是一种特殊的 神经网络 ,现在几乎所有典型的大模型都采用这种结构. 它可以将输入的 文本(token)编码成向量(Embedding) ,然后通过 注意力机制(Attention) 计算不同token之间的关系,理解每个token在上下文中的含义。接着,通过 多层感知机(MLP) 进一步理解每个token自身的含义。这个 Attention和MLP的过程会重复多次 ,最终通过 解码(Unembedding) 将向量还原成预测的下一个token并输出. 这个过程就像模型在学习“文字接龙”.

模型通过 “训练” 来学习这种能力,也就是将 海量的训练数据知识内嵌到模型中 . 训练过程需要调整模型中 大量的参数 . 数据和参数的规模越大,LLM就越强大 . DeepSeek R1/V3就拥有 6710亿参数 . 此外,为了让模型更好地服务于人类,还需要进行 后训练对齐 ,例如 监督式微调(SFT) 强化学习(RL) ,以提高模型的可靠性.

简单来说,DeepSeek 等大模型的核心技术是 Transformer 神经网络,它们通过学习大量的文本数据,掌握了预测和生成文字的能力,并且模型越大、训练数据越多,性能就越好。







请到「今天看啥」查看全文