专栏名称: 弗雷赛斯

Freescience由浙江大学医学院几个硕博士发起创建，旨在最广泛分享有价值的科研技能和知识；FreeScience的宗旨：“科学自由分享、人人平等，共求真理”。

漫谈如何跨越摆在生信入门路上的三大障碍

弗雷赛斯 · 公众号 · 科研 · 2017-08-05 12:03

正文

今天谈谈如何跨越摆在生信入门菜鸟面前的三大障碍的。

第一大障碍：透析数据背后的生物学知识，完成从测序数据到生物问题的连接；

我的做法：

通过谷歌百度了解fasta、fastq格式是什么？想必维基百科上的fastq格式介绍是每位生信菜鸟入门必看的吧~（度娘和谷兄是我一辈子的老师，感激不尽，感激不尽！！！）

基于此，我在论坛给大家列出了十几个常用的生信文件格式：http://www.biotrainee.com/forum-2-1.html

接着，通过陈魏学基因(或者其它中文动画讲解资料)了解测序原理、方法，视频反复的看，个人觉得具体细节比较难记。反正我知道提取的DNA是怎样变成手头上的ATCG这样的测序数据的。自然而然，就知道测序数据以及其它文件代表了什么生物知识了。 （测序原理啥的完全记不住啊，脑容量是硬伤，我要扩容去~）

第二大障碍：掌握一门编程语言完成对数据的任意转换，利用现成的工具-软件和数据库来掌握一门完整的数据分析流程，达到一通百通；

我的做法：

一个月看完鸟哥的私房菜，安装系统以及Linux上面的一些操作基本上没什么问题了。一个月看完perl小骆驼，完成十道生信实战题，顺利出师，算是掌握了一门编程语言。（到现在没有进步，反而倒退了~让我哭会~）

shell、Perl脚本和R语言的学习基础知识都一样，没什么特别推荐的书籍，但是推荐每一个至少看3本以上，囫囵吞枣的了解基础知识就好，在实践中应用你看到的基础语法。

然后，我就按照某生信服务公司的培训班课表学习了一些软件，捣鼓了fastqc、BWA、samtools、IGV等软件，基本上学会了在Linux上安装各种类型的软件。期间还穿插了学习R语言，入了个门，会装包、看得懂代码、会运行而已。（当初的我软件装到奔溃，参数看到眼花，回想起来都是辛酸泪啊~）

接着，通过生信菜鸟团看到宾夕法尼亚大学的应用生物信息学课程，系统地学习了生信数据分析，学会了如何开展一个生信项目。（这个课程非常棒，感谢乐于分享的群主！！）

在论坛可以看到所有课程列表：http://www.biotrainee.com/forum-100-1.html

最后，去年九月份确定自己的研究方向后，拿到第一批宏基因组数据练手，目前还在建立自己的数据分析流程。（论独立搭建一个pipeline的重要性，让我知道原来我还是那么菜，要学的东西很多很多。）

第三大障碍：充分理解你的数据分析结果并给出可靠的结论；

我还没跨越这个障碍，就拿我看本领域的相关文献来说，如果我最后分析湖泊水体微生物群体的宏基因组数据，在讨论物种多样性及功能这个问题似乎要回归生态学。所以，我可能需要修炼一下内功，了解一下生态学知识。（待我要出成功的时候，再来补充，嘻嘻~）

对找差异基因来说，该设定什么样的阈值来判别是否显著差异呢？最后得到的显著差异基因个数是多少才算是合理范围呢？foldchange和P值的分布应该是怎么样的呢？哪些基因是应该差异的，哪些是不可能差异的呢?

对找变异来说，什么样的突变频率是正常的呢？跟dbSNP或者千人基因组计划比较起来应该有怎么样的overlap呢？纯合杂合比例有范围吗？突变上下文有意义吗？突变发生的部位有什么样的规律，大概哪种结果你能一眼就判断出是错的呢？

对于表达调控来说，调控区域的数量级应该是多少呢？不同调控元件的调控性质在数据结果如何体现？不同批次实验差异应该很大吗？不同细胞组织或者生长环境状态的区别很大吗？该如何在数据里面体现出来呢？

生信菜鸟专栏是生信技能树论坛的版主团队的专栏，团队成员生信技能背景丰富，文件格式，数据资源，软件使用，脚本技巧，统计绘图，组学实战均有对应人才。而本专栏将从基础到深入，为零基础的各位剖析生信技能。

科研路，不孤单！^ ^

FS科研软件库，集合60+医学科研必备神器，现在统统打包分享

，

点这里

致敬Scihub|Freescience、生信人要一起做些很Cool的事儿