作者:曾健明
链接:https://www.zhihu.com/question/65066161/answer/275729737
来源:知乎
问题:生物类的小硕毕业后想从事生物信息学的工作,计算机基础0,想问生信入门需要具备啥能力,可具体推荐几本书,thanks.
生信牛人曾
健明的回答:
其实你并非是从零开始学生物信息学,生信是一门交叉学科,甚至可以说就是一门比较复杂的技能,你本硕期间累积的各种
生物学基础都是有效的
,对计算机学科人士来说也是如此,你们在掌握生信技能的道路上将会殊途同归。
就好像木雕匠人这个职业雕刻木头工艺品的这个技能来说,假如
某厨师
已经熟练掌握各种各样的刀的使用技巧,握刀的姿势,砍/切/削 等,那么他需要的是熟练掌握各种雕刻原材料,树根,枯枝的特性。同理对于
了解原材料的其他木匠
来说,只需要学会雕刻的刀功即可。那么,是不是这两种人就可以成为木雕匠人呢,当然不是,更重要的是雕刻什么东西,掌握需要雕刻的物品的神形,获得只可意会不可言传的感觉。
【匠人】中国那些真正的木雕大师
生物信息学也是如此,完整的掌握了生物学基础,或者计算机基础,都是只是一个最基本的要求罢了。
真正社会上做生物信息学数据分析, 往往更偏向于实战,是有套路的,有流程的,能做到这个就需要一两年的学习了。
更麻烦的是,跟木雕匠人一样,你往往不局限于雕刻一类物品,生信数据处理也是如此,一般人熟知的就有WES,WGS,RNA-seq,ChIP-seq等,上游分析很简单了,都流程化了,但是下游分析五花八门,主要是消耗员工的时间和精力,其中还得是熟手。所谓的大健康方向,其实也是数据分析的个性化,并没有什么特殊之处。
所以对目前的你来说,如果还没工作就很好,可以苦学3个月,装模作样的入门足够你找到工作。如果已经毕业,那么就麻烦了,只能先不计报酬的做实习生,在项目中抓住机会学习了。
好了,扯了这么多鸡汤,下面是干货
生信完全入门线路图及资源大全
成为一个合格的生信工程师必经之路
6大基础知识的掌握
首先你需要了解一些测序基础知识,生物学基础知识,这个主要靠自己看,还有平时多积累。
在生信技能树论坛上面我列了一下,需要自行花时间自学,遇到不懂的名词多搜索,多熟记。对应我们生信技能树的论坛版块是: 生信技能树
»
生信技能树
›
生信基础
›
测序原理-数据格式-数据库
然后你需要掌握一门编程语言,可以从http://www.biotrainee.com/forum-90-1.html 里面的题目开始,当然你需要先来一些简单,你先看这个,http://www.biotrainee.com/thread-834-1-1.html 编程学会怎么着也得两三个月了。对应我们生信技能树的论坛版块是:生信技能树
›
互动作业
›
脚本能力实践
›
生信人必练的200个数据处理任务
如果是linux,不妨看看实验楼的练习:
-
全部课程 — >Linux, 新手入门, 计算机专业课 — > Linux 基础入门(新版)
也可以跟着视频来练习,如果你实在是需要,这里推荐业界马哥的视频教程,链接: https://pan.baidu.com/s/1slukNwT 密码: xyq9
这些基础掌握的七七八八了,就可以开始NGS组学之旅了。
NGS组学技术的掌握
首先看 5 篇综述并翻译,
涵盖主流的5个NGS组学技术:WES/RNA-seq/CHIP-seq/miRNA-seq/lncRNA-seq
-
Practical Guidelines for the Comprehensive Analysis of ChIP-seq Data : http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3828144/
-
A survey of tools for variant analysis of next-generation genome sequencing data : http://bib.oxfordjournals.org/content/15/2/256.short
-
A survey of best practices for RNA-seq data analysis : http://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0881-8
-
Online resources for miRNA analysis : http://www.sciencedirect.com/science/article/pii/S0009912013000994
-
Long non-coding RNA discovery pipeline : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0025915
对应这些组学的PPT也需要自行搜索后浏览,掌握概念,原理。
然后看5篇测序数据分析例子
:
-
miRNA-seq : RNA expression profiling of human iPSC-derived cardiomyocytes in a cardiac hypertrophy model. : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0108051
-
CHIP-seq : CARM1 Methylates Chromatin Remodeling Factor BAF155 to Enhance Tumor Progression and Metastasis http://www.cell.com/cancer-cell/abstract/S1535-6108(13)00536-9
-
WES : Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders http://www.nejm.org/doi/full/10.1056/NEJMoa1306555#t=article
-
LncRNA: Integration of Genome-wide Approaches Identifies lncRNAs of Adult Neural Stem Cells and Their Progeny In Vivo http://www.sciencedirect.com/science/article/pii/S1934590913000982
-
RNA-seq: RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells
然后看5篇芯片数据分析例子
:lncRNA : http://pubmedcentralcanada.ca/pmcc/articles/PMC3691033/ ,我就不继续罗列了。
转录组流程
https://f1000research.com/articles/4-1070/v1
https://f1000research.com/articles/5-1438/v1
https://www.bioconductor.org/help/workflows/rnaseqGene/
当然,实践这些项目你肯定是需要流程,代码,在我的github里面已经有了,但是你需要掌握了linux,软件安装等等,才能看懂。我的github地址是: https://github.com/jmzeng1314/NGS-pipeline
等你实践经验足够了,你会发现它们本质上都只是数据处理而已,你可以看我以前录制好的总结视频:有参组学(全基因组,全外显子组学,转录组学,表观)的几个NGS测序数据分析的表现形式的异同点,视频在链接:http://pan.baidu.com/s/1jIQFGSA 密码:48uj
当然,我的视频还有很多,如果你感兴趣,可以自行按需下载:
[我做博客3年来录制的所有免费视频: https://pan.baidu.com/s/1pKkA4Q3 密码:8xxd
我还在论坛上面收集整理了很多NGS组学实践项目,欢迎大家前去练习,http://www.biotrainee.com/forum-108-1.html , 这个取决于你的悟性了。
但是如果要真正步入生信的殿堂,编程其实是少不了的,请继续学下去。
关于R语言
知道什么是R语言,了解基本语法,Rstudio编辑器,读写文件,跟Excel的区别,绘图等可视化,生物信息学相关的bioconductor系列包。
首先下载R语言打印版的
cheatsheet
, 链接:http://pan.baidu.com/s/1nv5Oulb 密码:4tsn 放在办公桌,或者枕头边上,随时浏览记忆。然后这里有一个网络视频教程,链接:https://pan.baidu.com/s/1slbPogX 密码:ga9x 是
数据分析与R语言视频教程+课件
请务必抽时间听完,一步步跟着操作学习,可以保证你R语言能入门。