专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
51好读  ›  专栏  ›  生信媛

「学转录组入门生信」四周总结和新的开始

生信媛  · 公众号  · 生物  · 2019-08-06 08:00

正文

请到「今天看啥」查看全文



在四周之前,我写了一篇推送 一个月能通过转录组入门生信吗? ,于是开启了我的‘四周通过实战入门转录组’计划。现在四周结束了,我对这个计划进行一个阶段性的总结。

答疑解惑

首先要感谢在过去的四周里,30多位加入了我们的付费答疑群的小伙伴。因为他们的支持,让我和我的另一个小伙伴能够坚持下去,当然我们也尽心尽力地回答了他们提出的疑问。举几个例子,

学习计划

在四周时间里,我们制定了每一周的学习计划,这里也分享给有需要, 愿意自己花时间 去检索遇到问题的小伙伴。

第一周的目标是配置环境,学习路径如下

1. 导读视频(可不看): 「学转录组入门生信」我们为什么需要用到Linux环境 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 2.1 Windows 配置WSL: 「转录组入门生信」在Windows10上配置一个Linux环境 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 2.2 MacOS配置环境: 「学转录组入门生信」Mac用户应该如何正确配置生信分析环境 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 3. 学习基础的Linux命令 4. 学习Vim: 「生信基础课」学习Linux下vim进行文本编辑 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 5. 使用miniconda配置环境: 「学转录组入门生信」如何用conda安装分析需要的软件 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 6. 使用wget/curl/prefetch下载数据: 「学转录组入门生信」如何在Linux的终端里下载生物信息学数据 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

学有余力: 1. 整理conda安装的软件的软件说明书 2. 明确不同版本基因组序列的差别 3. 理解基因组序列和注释文件之间的关系 4. 了解Linux的管道符号"|"和管道命令

第二周的目标是基于二代测序获得表达量矩阵,学习路径如下 1. 总结常见数据格式: https://www.bilibili.com/video/av59481324 2. FastQ数据质量控制: https://www.bilibili.com/video/av59513720 3. 获取/建立索引: https://www.bilibili.com/video/av59769386 4. 数据比对: https://www.bilibili.com/video/av59772790 5. 基因/转录本定量: https://www.bilibili.com/video/av60006241 6. multiqc整合上游分析质控信息: https://www.bilibili.com/video/av60006455

最终目标是拿到4个样本的表达量矩阵

学有余力:1. 整理和转录组质控相关文献 2. 了解不同转录组测序技术(miRNA-seq, lncRNA-seq)的FastQC展示结果

第三周根据表达矩阵获取差异基因分为两个阶段

第一阶段:R语言入门

本周我们需要学习如何安装R语言以及如何入门,随后我们需要学习R语言的基础命令和数据类型,接着我们学习如何安装R包,查阅帮助文档;同时我们需要学习如何使用R project管理我们的项目,整合我们的数据,最后在DEseq2包的帮助下,我们使用上周学习获得的表达矩阵计算得到差异基因:

  1. R语言简介及R&Rstudio安装

  • 什么是R,为什么要用R

  • R语言下载安装

  • IDE的作用,Rstudio初识

  • 在线资源,博客资源

  1. R语言基础

  • 熟悉Rstudio的操作界面

  • R语言的基本命令学习

  • 设置R的启动环境

  • CRAN镜像设置

  • 文件的读入和写出

  1. R语言入门

  • R语言的数据类型与数据结构

  • R包学习及安装

  • 后续需要用的包简介及安装

    • Tidyverse, Deseq2, ClusterProfile, biomaRt

  • 创建脚本与保存

  • R project的使用

第二阶段:R包使用及进阶学习

  1. 使用Deseq2包分析RNA-seq数据得到差异基因

  • 读入数据,创建phone type数据,构建dds对象

  • 得到分析结果,过滤差异基因

  1. 练习

  2. 试着使用R语言求一个数列中的最小值

  3. 构建一个随机矩阵,使用FPKM的计算公式理解FPKM

第四周根据差异基因进行富集分析及解读。本周的学习简单来说可以分为两个阶段:

第一阶段:一代富集分析——GO和KEGG

  1. 使用biomaRt包注释差异基因信息

  • FPKM的计算

  • 理解gene id

  • 转化ENSEMBL id到gene symbol及gene features

  • org.**.eg.db包的学习

  1. 使用ClusterProfile包对差异基因进行富集分析

  • ClusterProfile学习

  • Over Representation Analysis简介

  • ORA算法简介

  1. GO、KEGG分析及结果解读

  • 数据库解读

  • 构建orgdb

  • 富集结果解读

  • 作图及导出

  1. ggplot2包初识

  • ggplot2模仿clusterProfiler作图

第二阶段:二代富集分析——GSEA

  1. 输入文件的格式解读与构建

  • Expression dataset file (res, gct, pcl, or txt)

  • Phenotype labels file (cls)

  • Gene sets file (gmx or gmt)

  • Chip (array) annotation file (chip)

  1. GSEA参数的选择与基因集的构建

  • Molecular Signatures Database学习

  • GSEA下载和界面操作

  • 参数的选择(通俗解读)

  1. 常见报错原因解读

  2. 结果解读

  • NES

  • FDR value

  1. 生物学意义解析

  • 数据库的选择

  • 没有对应物种数据库时的选择

资料分享

这次课程,我们原计划是录制简单的操作视频(不带讲解),但是目前来看,一不小心就超出了预期,

上游处理:https://space.bilibili.com/249108235

下游分析: https://space.bilibili.com/6447454/

对于课程用到的资料和数据,我上传了部分到百度云盘上,链接是 https://pan.baidu.com/s/1rg98EWrZXIRUHcfElTkhjg 密码:x0ek 。余下的部分是代码和一些PDF课件,我整理到加入付费答疑群赠送的知识星球,后续会慢慢更更新到百度盘。

如何参与

依旧有 两种 方式,一种是跟着我们上面的视频和学习计划,遇到的问题都可以通过 搜索引擎 来解决,我就是这样子入门生信,但是在初期会比较痛苦,有些时候甚至都不知道自己想要问什么问题。

另一种是我们提供了一个 收费答疑群 ,定价为299,解答实战过程中你会遇到的问题。

加群方式,扫描二维码加我好友,之后转账299,我拉你进学习群(上一期学员由于时间原因没时间跟着进度学习,希望重新开始新的四周,可以直接和我说下就行)。







请到「今天看啥」查看全文