专栏名称: 生信媛

生信媛，从1人分享，到8人同行。坚持分享生信入门方法与课程，持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。

「学转录组入门生信」四周总结和新的开始

生信媛 · 公众号 · 生物 · 2019-08-06 08:00

正文

请到「今天看啥」查看全文

在四周之前，我写了一篇推送一个月能通过转录组入门生信吗？，于是开启了我的‘四周通过实战入门转录组’计划。现在四周结束了，我对这个计划进行一个阶段性的总结。

答疑解惑

首先要感谢在过去的四周里，30多位加入了我们的付费答疑群的小伙伴。因为他们的支持，让我和我的另一个小伙伴能够坚持下去，当然我们也尽心尽力地回答了他们提出的疑问。举几个例子，

学习计划

在四周时间里，我们制定了每一周的学习计划，这里也分享给有需要， 愿意自己花时间 去检索遇到问题的小伙伴。

第一周的目标是配置环境，学习路径如下

1. 导读视频(可不看): 「学转录组入门生信」我们为什么需要用到Linux环境哔哩哔哩 (゜-゜)つロ干杯~-bilibili 2.1 Windows 配置WSL: 「转录组入门生信」在Windows10上配置一个Linux环境哔哩哔哩 (゜-゜)つロ干杯~-bilibili 2.2 MacOS配置环境: 「学转录组入门生信」Mac用户应该如何正确配置生信分析环境哔哩哔哩 (゜-゜)つロ干杯~-bilibili 3. 学习基础的Linux命令 4. 学习Vim: 「生信基础课」学习Linux下vim进行文本编辑哔哩哔哩 (゜-゜)つロ干杯~-bilibili 5. 使用miniconda配置环境: 「学转录组入门生信」如何用conda安装分析需要的软件哔哩哔哩 (゜-゜)つロ干杯~-bilibili 6. 使用wget/curl/prefetch下载数据: 「学转录组入门生信」如何在Linux的终端里下载生物信息学数据哔哩哔哩 (゜-゜)つロ干杯~-bilibili

学有余力: 1. 整理conda安装的软件的软件说明书 2. 明确不同版本基因组序列的差别 3. 理解基因组序列和注释文件之间的关系 4. 了解Linux的管道符号"|"和管道命令

第二周的目标是基于二代测序获得表达量矩阵，学习路径如下 1. 总结常见数据格式: https://www.bilibili.com/video/av59481324 2. FastQ数据质量控制: https://www.bilibili.com/video/av59513720 3. 获取/建立索引: https://www.bilibili.com/video/av59769386 4. 数据比对: https://www.bilibili.com/video/av59772790 5. 基因/转录本定量: https://www.bilibili.com/video/av60006241 6. multiqc整合上游分析质控信息: https://www.bilibili.com/video/av60006455

最终目标是拿到4个样本的表达量矩阵

学有余力：1. 整理和转录组质控相关文献 2. 了解不同转录组测序技术(miRNA-seq, lncRNA-seq)的FastQC展示结果

第三周根据表达矩阵获取差异基因分为两个阶段

第一阶段：R语言入门

本周我们需要学习如何安装R语言以及如何入门，随后我们需要学习R语言的基础命令和数据类型，接着我们学习如何安装R包，查阅帮助文档；同时我们需要学习如何使用R project管理我们的项目，整合我们的数据，最后在DEseq2包的帮助下，我们使用上周学习获得的表达矩阵计算得到差异基因：

R语言简介及R&Rstudio安装

什么是R，为什么要用R
R语言下载安装
IDE的作用，Rstudio初识
在线资源，博客资源

R语言基础

熟悉Rstudio的操作界面
R语言的基本命令学习
设置R的启动环境
CRAN镜像设置
文件的读入和写出

R语言入门

R语言的数据类型与数据结构
R包学习及安装
后续需要用的包简介及安装

Tidyverse, Deseq2, ClusterProfile, biomaRt

创建脚本与保存
R project的使用

第二阶段：R包使用及进阶学习

使用Deseq2包分析RNA-seq数据得到差异基因

读入数据，创建phone type数据，构建dds对象
得到分析结果，过滤差异基因

练习
试着使用R语言求一个数列中的最小值
构建一个随机矩阵，使用FPKM的计算公式理解FPKM

第四周根据差异基因进行富集分析及解读。本周的学习简单来说可以分为两个阶段：

第一阶段：一代富集分析——GO和KEGG

使用biomaRt包注释差异基因信息

FPKM的计算
理解gene id
转化ENSEMBL id到gene symbol及gene features
org.**.eg.db包的学习

使用ClusterProfile包对差异基因进行富集分析

ClusterProfile学习
Over Representation Analysis简介
ORA算法简介

GO、KEGG分析及结果解读

数据库解读
构建orgdb
富集结果解读
作图及导出

ggplot2包初识

ggplot2模仿clusterProfiler作图

第二阶段：二代富集分析——GSEA

输入文件的格式解读与构建

Expression dataset file (res, gct, pcl, or txt)
Phenotype labels file (cls)
Gene sets file (gmx or gmt)
Chip (array) annotation file (chip)

GSEA参数的选择与基因集的构建

Molecular Signatures Database学习
GSEA下载和界面操作
参数的选择（通俗解读）

常见报错原因解读
结果解读

NES
FDR value

生物学意义解析

数据库的选择
没有对应物种数据库时的选择

资料分享

这次课程，我们原计划是录制简单的操作视频（不带讲解），但是目前来看，一不小心就超出了预期，

上游处理:https://space.bilibili.com/249108235

下游分析: https://space.bilibili.com/6447454/

对于课程用到的资料和数据，我上传了部分到百度云盘上，链接是 https://pan.baidu.com/s/1rg98EWrZXIRUHcfElTkhjg 密码:x0ek 。余下的部分是代码和一些PDF课件，我整理到加入付费答疑群赠送的知识星球，后续会慢慢更更新到百度盘。

如何参与

依旧有两种方式，一种是跟着我们上面的视频和学习计划，遇到的问题都可以通过 搜索引擎 来解决，我就是这样子入门生信，但是在初期会比较痛苦，有些时候甚至都不知道自己想要问什么问题。

另一种是我们提供了一个 收费答疑群 ，定价为299，解答实战过程中你会遇到的问题。

加群方式，扫描二维码加我好友，之后转账299，我拉你进学习群（上一期学员由于时间原因没时间跟着进度学习，希望重新开始新的四周，可以直接和我说下就行）。