在四周之前,我写了一篇推送
一个月能通过转录组入门生信吗?
,于是开启了我的‘四周通过实战入门转录组’计划。现在四周结束了,我对这个计划进行一个阶段性的总结。
答疑解惑
首先要感谢在过去的四周里,30多位加入了我们的付费答疑群的小伙伴。因为他们的支持,让我和我的另一个小伙伴能够坚持下去,当然我们也尽心尽力地回答了他们提出的疑问。举几个例子,
学习计划
在四周时间里,我们制定了每一周的学习计划,这里也分享给有需要,
愿意自己花时间
去检索遇到问题的小伙伴。
第一周的目标是配置环境,学习路径如下
1. 导读视频(可不看): 「学转录组入门生信」我们为什么需要用到Linux环境
哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
2.1 Windows 配置WSL: 「转录组入门生信」在Windows10上配置一个Linux环境
哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 2.2 MacOS配置环境: 「学转录组入门生信」Mac用户应该如何正确配置生信分析环境
哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
3. 学习基础的Linux命令
4. 学习Vim: 「生信基础课」学习Linux下vim进行文本编辑
哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 5. 使用miniconda配置环境: 「学转录组入门生信」如何用conda安装分析需要的软件
哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
6. 使用wget/curl/prefetch下载数据: 「学转录组入门生信」如何在Linux的终端里下载生物信息学数据
哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
学有余力:
1. 整理conda安装的软件的软件说明书
2. 明确不同版本基因组序列的差别
3. 理解基因组序列和注释文件之间的关系
4. 了解Linux的管道符号"|"和管道命令
第二周的目标是基于二代测序获得表达量矩阵,学习路径如下
1. 总结常见数据格式: https://www.bilibili.com/video/av59481324 2. FastQ数据质量控制: https://www.bilibili.com/video/av59513720 3. 获取/建立索引: https://www.bilibili.com/video/av59769386 4. 数据比对: https://www.bilibili.com/video/av59772790 5. 基因/转录本定量: https://www.bilibili.com/video/av60006241 6. multiqc整合上游分析质控信息: https://www.bilibili.com/video/av60006455
最终目标是拿到4个样本的表达量矩阵
学有余力:1. 整理和转录组质控相关文献
2. 了解不同转录组测序技术(miRNA-seq, lncRNA-seq)的FastQC展示结果
第三周根据表达矩阵获取差异基因分为两个阶段
第一阶段:R语言入门
本周我们需要学习如何安装R语言以及如何入门,随后我们需要学习R语言的基础命令和数据类型,接着我们学习如何安装R包,查阅帮助文档;同时我们需要学习如何使用R project管理我们的项目,整合我们的数据,最后在DEseq2包的帮助下,我们使用上周学习获得的表达矩阵计算得到差异基因:
-
R语言简介及R&Rstudio安装
-
什么是R,为什么要用R
-
R语言下载安装
-
IDE的作用,Rstudio初识
-
在线资源,博客资源
-
R语言基础
-
熟悉Rstudio的操作界面
-
R语言的基本命令学习
-
设置R的启动环境
-
CRAN镜像设置
-
文件的读入和写出
-
R语言入门
-
R语言的数据类型与数据结构
-
R包学习及安装
-
后续需要用的包简介及安装
-
创建脚本与保存
-
R project的使用
第二阶段:R包使用及进阶学习
-
使用Deseq2包分析RNA-seq数据得到差异基因
-
练习
-
试着使用R语言求一个数列中的最小值
-
构建一个随机矩阵,使用FPKM的计算公式理解FPKM
第四周根据差异基因进行富集分析及解读。本周的学习简单来说可以分为两个阶段:
第一阶段:一代富集分析——GO和KEGG
-
使用biomaRt包注释差异基因信息
-
使用ClusterProfile包对差异基因进行富集分析
-
GO、KEGG分析及结果解读
-
数据库解读
-
构建orgdb
-
富集结果解读
-
作图及导出
-
ggplot2包初识
第二阶段:二代富集分析——GSEA
-
输入文件的格式解读与构建
-
Expression dataset file
(res, gct, pcl, or txt)
-
Phenotype labels file
(cls)
-
Gene sets file
(gmx or gmt)
-
Chip (array) annotation file (chip)
-
GSEA参数的选择与基因集的构建
-
常见报错原因解读
-
结果解读
-
生物学意义解析
资料分享
这次课程,我们原计划是录制简单的操作视频(不带讲解),但是目前来看,一不小心就超出了预期,
上游处理:https://space.bilibili.com/249108235
下游分析: https://space.bilibili.com/6447454/
对于课程用到的资料和数据,我上传了部分到百度云盘上,链接是 https://pan.baidu.com/s/1rg98EWrZXIRUHcfElTkhjg 密码:x0ek 。余下的部分是代码和一些PDF课件,我整理到加入付费答疑群赠送的知识星球,后续会慢慢更更新到百度盘。
如何参与
依旧有
两种
方式,一种是跟着我们上面的视频和学习计划,遇到的问题都可以通过
搜索引擎
来解决,我就是这样子入门生信,但是在初期会比较痛苦,有些时候甚至都不知道自己想要问什么问题。
另一种是我们提供了一个
收费答疑群
,定价为299,解答实战过程中你会遇到的问题。
加群方式,扫描二维码加我好友,之后转账299,我拉你进学习群(上一期学员由于时间原因没时间跟着进度学习,希望重新开始新的四周,可以直接和我说下就行)。