专栏名称: 基因检测与解读
介绍基因检测新进展,探讨基因数据分析流程与方法,分享罕见病故事,科普基因知识,个人基因检测报告解读
目录
相关文章推荐
中国政府网  ·  第二场“部长通道”,3位部长回应热点问题 ·  昨天  
长安街知事  ·  习近平出席解放军和武警部队代表团全体会议 ·  2 天前  
半月谈  ·  宏观政策如何同向发力? ·  3 天前  
介个工作室  ·  阿里巴巴国际站 7 ... ·  3 天前  
介个工作室  ·  阿里巴巴国际站 7 ... ·  3 天前  
51好读  ›  专栏  ›  基因检测与解读

生物信息学入门需要具备什么能力?

基因检测与解读  · 公众号  ·  · 2018-01-03 10:44

正文

作者:曾健明
链接:https://www.zhihu.com/question/65066161/answer/275729737
来源:知乎
问题:生物类的小硕毕业后想从事生物信息学的工作,计算机基础0,想问生信入门需要具备啥能力,可具体推荐几本书,thanks.


生信牛人曾 健明的回答:

其实你并非是从零开始学生物信息学,生信是一门交叉学科,甚至可以说就是一门比较复杂的技能,你本硕期间累积的各种 生物学基础都是有效的 ,对计算机学科人士来说也是如此,你们在掌握生信技能的道路上将会殊途同归。

就好像木雕匠人这个职业雕刻木头工艺品的这个技能来说,假如 某厨师 已经熟练掌握各种各样的刀的使用技巧,握刀的姿势,砍/切/削 等,那么他需要的是熟练掌握各种雕刻原材料,树根,枯枝的特性。同理对于 了解原材料的其他木匠 来说,只需要学会雕刻的刀功即可。那么,是不是这两种人就可以成为木雕匠人呢,当然不是,更重要的是雕刻什么东西,掌握需要雕刻的物品的神形,获得只可意会不可言传的感觉。

【匠人】中国那些真正的木雕大师

生物信息学也是如此,完整的掌握了生物学基础,或者计算机基础,都是只是一个最基本的要求罢了。 真正社会上做生物信息学数据分析, 往往更偏向于实战,是有套路的,有流程的,能做到这个就需要一两年的学习了。 更麻烦的是,跟木雕匠人一样,你往往不局限于雕刻一类物品,生信数据处理也是如此,一般人熟知的就有WES,WGS,RNA-seq,ChIP-seq等,上游分析很简单了,都流程化了,但是下游分析五花八门,主要是消耗员工的时间和精力,其中还得是熟手。所谓的大健康方向,其实也是数据分析的个性化,并没有什么特殊之处。

所以对目前的你来说,如果还没工作就很好,可以苦学3个月,装模作样的入门足够你找到工作。如果已经毕业,那么就麻烦了,只能先不计报酬的做实习生,在项目中抓住机会学习了。

好了,扯了这么多鸡汤,下面是干货

生信完全入门线路图及资源大全

成为一个合格的生信工程师必经之路

6大基础知识的掌握

首先你需要了解一些测序基础知识,生物学基础知识,这个主要靠自己看,还有平时多积累。

在生信技能树论坛上面我列了一下,需要自行花时间自学,遇到不懂的名词多搜索,多熟记。对应我们生信技能树的论坛版块是: 生信技能树 » 生信技能树 生信基础 测序原理-数据格式-数据库

然后你需要掌握一门编程语言,可以从http://www.biotrainee.com/forum-90-1.html 里面的题目开始,当然你需要先来一些简单,你先看这个,http://www.biotrainee.com/thread-834-1-1.html 编程学会怎么着也得两三个月了。对应我们生信技能树的论坛版块是:生信技能树 互动作业 脚本能力实践 生信人必练的200个数据处理任务

如果是linux,不妨看看实验楼的练习:

  1. 全部课程   — >Linux, 新手入门, 计算机专业课 — >  Linux 基础入门(新版)

也可以跟着视频来练习,如果你实在是需要,这里推荐业界马哥的视频教程,链接: https://pan.baidu.com/s/1slukNwT 密码: xyq9

这些基础掌握的七七八八了,就可以开始NGS组学之旅了。

NGS组学技术的掌握

首先看 5 篇综述并翻译, 涵盖主流的5个NGS组学技术:WES/RNA-seq/CHIP-seq/miRNA-seq/lncRNA-seq

  • Practical Guidelines for the Comprehensive Analysis of ChIP-seq Data : http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3828144/

  • A survey of tools for variant analysis of next-generation genome sequencing data  : http://bib.oxfordjournals.org/content/15/2/256.short

  • A survey of best practices for RNA-seq data analysis :  http://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0881-8

  • Online resources for miRNA analysis  : http://www.sciencedirect.com/science/article/pii/S0009912013000994

  • Long non-coding RNA discovery pipeline : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0025915

对应这些组学的PPT也需要自行搜索后浏览,掌握概念,原理。

然后看5篇测序数据分析例子

  • miRNA-seq :  RNA expression profiling of human iPSC-derived cardiomyocytes in a cardiac hypertrophy model.  : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0108051

  • CHIP-seq  :  CARM1 Methylates Chromatin Remodeling Factor BAF155 to Enhance Tumor Progression and Metastasis http://www.cell.com/cancer-cell/abstract/S1535-6108(13)00536-9

  • WES :  Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders  http://www.nejm.org/doi/full/10.1056/NEJMoa1306555#t=article

  • LncRNA: Integration of Genome-wide Approaches Identifies lncRNAs of Adult Neural Stem Cells and Their Progeny In Vivo  http://www.sciencedirect.com/science/article/pii/S1934590913000982

  • RNA-seq: RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells

然后看5篇芯片数据分析例子 :lncRNA : http://pubmedcentralcanada.ca/pmcc/articles/PMC3691033/ ,我就不继续罗列了。

转录组流程

https://f1000research.com/articles/4-1070/v1

https://f1000research.com/articles/5-1438/v1

https://www.bioconductor.org/help/workflows/rnaseqGene/

当然,实践这些项目你肯定是需要流程,代码,在我的github里面已经有了,但是你需要掌握了linux,软件安装等等,才能看懂。我的github地址是: https://github.com/jmzeng1314/NGS-pipeline

等你实践经验足够了,你会发现它们本质上都只是数据处理而已,你可以看我以前录制好的总结视频:有参组学(全基因组,全外显子组学,转录组学,表观)的几个NGS测序数据分析的表现形式的异同点,视频在链接:http://pan.baidu.com/s/1jIQFGSA 密码:48uj

当然,我的视频还有很多,如果你感兴趣,可以自行按需下载:

[我做博客3年来录制的所有免费视频: https://pan.baidu.com/s/1pKkA4Q3  密码:8xxd

我还在论坛上面收集整理了很多NGS组学实践项目,欢迎大家前去练习,http://www.biotrainee.com/forum-108-1.html , 这个取决于你的悟性了。

但是如果要真正步入生信的殿堂,编程其实是少不了的,请继续学下去。

关于R语言

知道什么是R语言,了解基本语法,Rstudio编辑器,读写文件,跟Excel的区别,绘图等可视化,生物信息学相关的bioconductor系列包。

首先下载R语言打印版的 cheatsheet , 链接:http://pan.baidu.com/s/1nv5Oulb  密码:4tsn 放在办公桌,或者枕头边上,随时浏览记忆。然后这里有一个网络视频教程,链接:https://pan.baidu.com/s/1slbPogX 密码:ga9x   是 数据分析与R语言视频教程+课件 请务必抽时间听完,一步步跟着操作学习,可以保证你R语言能入门。







请到「今天看啥」查看全文