专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
BioArt  ·  Genome Biol | ... ·  5 天前  
BioArt  ·  ​Sci ... ·  5 天前  
BioArt  ·  Cell | ... ·  1 周前  
51好读  ›  专栏  ›  生信宝典

经典入门 | 高级转录组分析和R数据可视化 (2024.12)

生信宝典  · 公众号  · 生物  · 2024-11-21 21:00

正文

福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现安排《高级转录组分析和R数据可视化》于2024年12月06-08线上/线下课程 (线上课是通过腾讯会议实时直播线下课,实时互动,并录制有视频回放,无限期观看)。报名参加线上直播课的老师可在365天内选择参加同课程的一次线下课 。期待和大家的线上线下相识。


相关课程


  • 转录组线上/线下开课时间:2024/12/06-08,   2025/03/21-23

  • 临床基因组学线上/线下开课时间:2023/11/17-19

  • 宏基因组线上/线下开课时间2024年11月8-10

  • 扩增子线上/线下开课时间:2025/4/11-13

  • 报名链接:http://www.ehbio.com/Training/

转录组分析是目前应用最广的高通量测序分析技术之一。常见设计是不同样品之间比较,寻找差异基因、标志基因、协同变化基因、差异剪接和新转录本,并进行结果可视化功能注释网络分析等。

转录组的测序分析也相对成熟,从RNA提取、构建文库、上机测序再到结果解析既可以自己完成,又可以在专业公司进行。

概括来看转录组的分析流程比较简单,序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析。整个环节清晰流畅,可以作为最开始接触高通量测序学习最合适的技术之一。

但重点和难点在于理解这些过程都是怎么做的,有什么需要注意的,结果怎么解读,后续分析怎么做。这些只有自己动手操作过,才可能有理解。而理解了一个,再去做其它类型分析,也会轻松很多。

实验设计这块重要的是对照和至少3个生物学重复,并选择合适的测序通量。ENCODE要求重复之间的Spearman correlation值大于0.9 (遗传背景不一致的生物重复相关系数要大于0.8)。定量基因表达和评估转录图谱相似性只需要中等测序深度;而研究新转录本和可变剪接则需要更深的测序;一般来讲长RNA-seq文库测序深度满足可用reads20-30 million (如果测PE150,换算成碱基数为6G-9G)。

另外一个需要注意的是测序的批次效应,保证自己的样品同时处理、RNA同时提取、同时构建文库和上机测序。这些环节虽然不能总受我们控制,但记录下对应的操作时间和批次,最后在绘制表达图谱时与实验相关参数进行关联展示 (利用我们介绍的热图简化高颜值免费在线绘图工具升级版来了~~~),从而保证结果没有受到试验中处理批次的影响。ENCODE计划有一篇文章在比较人和小鼠不同组织的表达谱相似度时得到的结果是样品按物种而非组织聚在一起,这与之前认为的发育通路的保守性不符。后来发现是测序批次捣的鬼,做了批次效应矫正后,表达图谱按组织而非物种聚在一起了(高通量数据中批次效应的鉴定和处理 - 系列总结和更新)。

测序环节通常不需要自己操作,测序公司都很成熟,但测序的原理需要知道。这会影响到后续分析时参数的选择,比如知道什么是插入片段大小什么是链特异性测序,什么情况会有接头序列,双端测序如何测等。

获得数据后,就涉及到数据的传输和质量评估(也包括如何从公共数据库下载数据)和文件格式的转换。FASTQ格式解释和质量评估中有些提及。质量评估的意义在于从测序质量角度评价建库和测序的成功与否,指导接头和低质量碱基的去除。这一步参数控制的严格与否对后续的比对会有影响,同时也会受到后续分析选择的工具的影响。对Linux系统一定程度的了解,是进行这些工作的基础。

39个转录组分析工具,120种组合评估(转录组分析工具哪家强)中讲述了如何选择、评估合适的比对工具,序列拼装工具,定量工具和差异分析工具。值得我们在进入正式的分析之前,仔细阅读。另外类似的评估文章,还有几篇,都可以一并读一下,这样在后期分析时对工具的选择和使用才更得心应手。

工具比较类文章一般只告诉你做了什么,不告诉你这么做的原因是什么,而且每一步细分开来又有很多小细节需要注意,比如在比对环节就会涉及到:不同的样本如何选择合适的基因组和注释文件,什么样的软件支持Junction reads的比对,什么样的比对率是合适的,比对质量怎样,测序中RNA有无降解或选择偏好性,测序饱和度如何等。

这些可能都不会体现在最终的结果中,但都是确保后期结果可靠性所必须要做的事情。2002年诺贝尔奖得主Sydney Brenner曾对数据分析做过提醒Garbage in, Garbage out。软件是死的,提供了格式正确的输入,就可以得到输出,但输出正确与否,就得靠人的经验来判断了。

在后面的差异基因鉴定阶段,还存在把FPKM值转换为整数再提交给DESeq2做分析的,软件不报错,但结果不对。或者能顺着教程运行DEseq2分析,但换成自己的数据就不知道如何下手的 (DESeq2差异基因分析和批次效应移除)。这些问题都需要在实践过程中持续不断的试错、阅读更多的文章和教程来步步矫正。

做下测试题看看了解多少?

  1. 120分的转录组试题(第一份答案)

  2. 120分的转录组试题(第二份答案)

  3. 120分的转录组试题(第三份答案)

这当然是一个耗时耗力的过程,那么有没有一个更好的方式呢?

那就是二十一期高级转录组分析和R数据可视化

部分视频可在B站空间免费查看:https://www.bilibili.com/video/BV1rD4y1272a


基于以往20次转录组培训,转录组课程内容成熟,可以在最短的时间学会最多的知识。

之前的培训重点都在前面的流程分析,这次做了调整,流程分析整理一个清晰的输入、输出框架,包装好的流程脚本和参数注意,快速实战操作从源头。重点调整到后续的定制分析和绘图,涉及常见GO分析、单细胞转录组的聚类分析、配对样品和时间序列样品的GSEA富集分析、结合motif预测和转录因子ChIP的调控网络分析、定制化图形绘制、Cytoscape进行富集分析、调控网络、通路的可视化,目标基因筛选和可视化, WGCNA加权共表达网络分析,机器学习,ceRNA网络。

每部分都提供清晰的思维导图方便理解输入、输出、命令、参数和注意事项。

后续在我们的培训群也会提供长期的免费图形绘制合作服务,跟大家分享绘图代码,一起学习。

二十高级转录组分析和R数据可视化于2024年4月19日在线开班,将系统讲述基于和不基于比对的转录组分析流程,从原始数据到表达矩阵、差异基因、可变剪接、富集分析、加权共表达网络、通路分析、可视化绘图,ceRNA,机器学习等一系列常见操作,理论和实践兼备。


(访问链接:www.ehbio.com/Training 抢先报名)

课程大纲

请详细阅读课程简介,如果以下内容您全精通,不必参加此培训。

每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验、流程和代码的无私分享,手把手带您快速入门、节约宝贵的时间,助力科研成果早日产出。

下面是课程安排,本课程一共3天,每天6节课,共18节课,全部课程均理论与实战结合(只要课上讲的都是可以学会并自己实现的分析)。如11代表第一天第一节课,26代表第二天第六节课,41为两周后的不定期线上集中视频答疑和后续的讨论群永久答疑。

该课程为第13期,经过12次迭代更新,整个过程都比较成熟,可以在最短时间学习最多知识。3天时间,老司机带您完成自学需要3个月甚至是1年的崎岖之路,助力您真正玩转转录组分析,并根据自己课题的背景优化分析方案。(课程内容和顺序每次会略有调整,不同的测重点。重代码,轻操作)

编号内容简介
01视频学习Linux基础预付后提供学习视频
02视频学习R基础预付后提供学习视频
03软件安装预付后提供安装视频
04支付全款提供全部视频用作预习
11转录组概述转录组设计、应用、批次效应
12转录组分析流程简介基于/不基于比对的分析流程讲演
13Salmon定量实战不基于比对直接定量基因和转录本的表达
14差异基因分析DESeq2多组差异基因分析、热图、火山图
15GO富集分析和可视化泡泡图、热图、网络图、弦图
16GSEA富集分析和可视化分组和时间序列GSEA
21二代三代测序原理介绍建库测序过程及注意事项
22原始数据比对回基因组STAR比对和定量
23基于count的差异基因批次效应鉴定和移除
24Linux下转录组环境配置Conda软件安装、配置
25基因组浏览器数据可视化IGV呈现reeads比对、峰图、Sashimiplot
26转录本拼装StringTie可变剪接分析rMATS (选学,视频课)
31文章常见图表绘制和解读Illustrator制作CNS标准图版 (视频课)
32WGCNA基因加权共表达网络分析和性状关联
33非编码lncRNA鉴定ceRNA分析 (miRNA-lncRNA-gene调控 选学,视频课)
34无参转录组分析Trinity组装 eggnog注释 (选学,视频课)
35转录调控分析转录调控网络
36Marker基因鉴定PCA随机森林
41答疑-线上答疑、考试内容串讲

教程内容简介如下:

转录组分析平台搭建

服务器平台:没有软件的计算机只是一堆废铁,没有转录组分析系统的服务器也和你的数据分析没有半毛钱关系。想要搭建整套的转录组分析流程,网上的资源即零散、又稀少。易生信团队将分享多年经验摸索优秀软件和布置技巧,并分享全部源代码,让你在主流Linux服务器系统(Ubuntu 16/18.04,CentOS7等主流发行版)上快速布置专注组分析流程依赖的几十款常用软件、几百个依赖的R和Python包,轻松拥有专业分析平台。

个人计算机平台:高通量测序所谓的大数据,都是在原始数据和分析过程中体量大,计算资源需求多,但结果文件不大。通常转录组分析会获得样品基因表达表、新转录本和非编码基因,这些表格是下游分析、高级分析以及个性分析的起点,绝大部分工作在我们的笔记本上是可以搞定的,只是很多人并不知道如何入手。

其实你的个人电脑就是数据表(丰度矩阵)统计分析的利器。易生信团队独创实现了跨平台的分析流程,在大家的Windows笔记本上可以轻松实现转录组统计、可视化的绝大多数分析,课程带你轻松在自己的本本上搭建数据表统计分析与可视化平台,基于目前最主流的Win10进行优化和测试,让笔记本秒变数据分析可视化平台。

生信基础知识

有了生信分析平台,如何灵活运用还是要学点独门绝学的。21世纪最重要的是人才,人才最好掌握三门语言,将让你人生立于不败之地,在任何团队中都是不可或缺的人才。这三门语言就是中文、英文和计算机语言。中文每天都在用在学,英文对于博士也至少接触了10年以上并能应用于阅读和写作文献,而编程语言大家大学阶段都学过Visual Basic、Visual Foxpro、或C语言,但能在工作中应用的绝对凤毛麟角。更何况这些语言在生命科学领域是非常低效的,不提倡学习。

生信中最常用的三类语言是·Shell + R + Python/Perl·,前两门是基础,生物学家必要掌握的ShellR语言基础知识,保证你完成项目分析。我们在课上将同时讲解生物学家必要掌握的Shell和R语言基础知识,保证你高效、稳定的使用转录组分析平台、保证大数据分析和后期可视化至发表阶段所需的技能。我们在文后提供了学习视频供提前预习。

当你利用几个小时,走进大数据分析和可视化的大门后,你将发现一个全新的世界。很多人会感觉相见恨晚,爱上分析,从此走向人生的快车道。即使你对编程不感兴趣,这里面用到的理念也定能让你受益终身,在今后相关分析中事半功倍,比别人更胜一筹。再说现在连小学生都学Python了,再不会,孩子都带不好了。

(如果基础薄弱,报名付款成功后,可免费领取基础程序课,做好准备工作, 让程序成为我们的得力工具而不是学习新知识的绊脚石。)

图表解读和绘制专题

针对很多老师缺少系统的生信背景,看不懂分析文章图表,更对绘制各式图表手足无措的情况,在培训时,我们将结合发表的高水平文章,进一步讲解16种常用分析图的原理和使用范围,让你不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。

针对大家使用R语言绘图学习时间成本较高的问题,易生信团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。

成果发表是科研过程中不可缺的一部分,发表成果又少不了图形展示。文章图表排版是否整齐规范、协调一致、重点突出对一篇文章的发表也是有不少贡献的。之前推出的文章发表图的修改和排版讲演了部分图形编辑和排版操作,本次培训也会实践从原始图形、到细节修饰再到排版发表的整个过程和注意事项。


转录组高级分析

  1. WGCNA基因共表达分析,WGCNA基因、表型关联分析

  2. Cytoscape绘制ceRNA、转录调控、蛋白蛋白互作网络

  3. Cytoscape 共表达网络绘制

  4. KEGG/Reactome通路图表达映射

  5. 基因互作的文献挖掘和数据库挖掘展示

  6. GO/GSEA(普通分组、数量形状和时间序列)的定制分析

转录组的应用、设计和案例分享

转录组是很常规的分析,也是入门高通量测序分析的基础。这部分涵盖整个高通量测序技术的应用,高通量测序技术的实验原则包括测序通量测序批次测序原理等。

  1. 转录组学研究技术介绍

  2. 转录组学实验设计和测序原则、注意事项

  3. 二代、三代测序过程和原理解析

  4. 转录组学文章案例分析

  5. 在线基因表达资源数据库

转录组分析流程实战

  1. 转录组分析流程评估

  2. 测序数据质量评估和清洗

  3. 不基于比对的差异基因分析

  4. 基于比对的差异基因分析

  5. 转录本组装、选择性剪接分析和非编码RNA鉴定

  6. 目标基因GSEA/GO富集分析

学习完本课程,你能得到什么?

  1. 深彻理解生物测序数据的基本思想和分析流程

  2. 高级转录组分析和可视化的全套流程

  3. 应用于各个领域的分析经验、代码和发表级别的结果可视化



详细介绍,请扫描下方二维码。