今天谈谈如何跨越摆在生信入门菜鸟面前的三大障碍的。
第一大障碍:透析数据背后的生物学知识,完成从测序数据到生物问题的连接;
我的做法:
通过谷歌百度了解fasta、fastq格式是什么?想必维基百科上的fastq格式介绍是每位生信菜鸟入门必看的吧~(度娘和谷兄是我一辈子的老师,感激不尽,感激不尽!!!)
基于此,我在论坛给大家列出了十几个常用的生信文件格式:http://www.biotrainee.com/forum-2-1.html
接着,通过陈魏学基因(或者其它中文动画讲解资料)了解测序原理、方法,视频反复的看,个人觉得具体细节比较难记。反正我知道提取的DNA是怎样变成手头上的ATCG这样的测序数据的。自然而然,就知道测序数据以及其它文件代表了什么生物知识了。 (测序原理啥的完全记不住啊,脑容量是硬伤,我要扩容去~)
第二大障碍:掌握一门编程语言完成对数据的任意转换,利用现成的工具-软件和数据库来掌握一门完整的数据分析流程,达到一通百通;
我的做法:
一个月看完鸟哥的私房菜,安装系统以及Linux上面的一些操作基本上没什么问题了。 一个月看完perl小骆驼,完成十道生信实战题,顺利出师,算是掌握了一门编程语言。(到现在没有进步,反而倒退了~让我哭会~)
shell、Perl脚本和R语言的学习基础知识都一样,没什么特别推荐的书籍,但是推荐每一个至少看3本以上,囫囵吞枣的了解基础知识就好,在实践中应用你看到的基础语法。
然后,我就按照某生信服务公司的培训班课表学习了一些软件,捣鼓了fastqc、BWA、samtools、IGV等软件,基本上学会了在Linux上安装各种类型的软件。期间还穿插了学习R语言,入了个门,会装包、看得懂代码、会运行而已。(当初的我软件装到奔溃,参数看到眼花,回想起来都是辛酸泪啊~)
接着,通过生信菜鸟团看到宾夕法尼亚大学的应用生物信息学课程,系统地学习了生信数据分析,学会了如何开展一个生信项目。(这个课程非常棒,感谢乐于分享的群主!!)
在论坛可以看到所有课程列表:http://www.biotrainee.com/forum-100-1.html
最后,去年九月份确定自己的研究方向后,拿到第一批宏基因组数据练手,目前还在建立自己的数据分析流程。(论独立搭建一个pipeline的重要性,让我知道原来我还是那么菜,要学的东西很多很多。)
第三大障碍:充分理解你的数据分析结果并给出可靠的结论;
我还没跨越这个障碍,就拿我看本领域的相关文献来说,如果我最后分析湖泊水体微生物群体的宏基因组数据,在讨论物种多样性及功能这个问题似乎要回归生态学。所以,我可能需要修炼一下内功,了解一下生态学知识。(待我要出成功的时候,再来补充,嘻嘻~)
对找差异基因来说,该设定什么样的阈值来判别是否显著差异呢?最后得到的显著差异基因个数是多少才算是合理范围呢?foldchange和P值的分布应该是怎么样的呢?哪些基因是应该差异的,哪些是不可能差异的呢?
对找变异来说,什么样的突变频率是正常的呢?跟dbSNP或者千人基因组计划比较起来应该有怎么样的overlap呢?纯合杂合比例有范围吗?突变上下文有意义吗?突变发生的部位有什么样的规律,大概哪种结果你能一眼就判断出是错的呢?
对于表达调控来说,调控区域的数量级应该是多少呢?不同调控元件的调控性质在数据结果如何体现?不同批次实验差异应该很大吗?不同细胞组织或者生长环境状态的区别很大吗?该如何在数据里面体现出来呢?
生信菜鸟专栏是生信技能树论坛的版主团队的专栏,团队成员生信技能背景丰富,文件格式,数据资源,软件使用,脚本技巧,统计绘图,组学实战均有对应人才。而本专栏将从基础到深入,为零基础的各位剖析生信技能。
科研路,不孤单!^ ^
FS科研软件库,集合60+医学科研必备神器,现在统统打包分享,点这里
致敬Scihub|Freescience、生信人要一起做些很Cool的事儿