专栏名称: 生信草堂

最权威生信服务，最前沿的生信咨询~

零基础大数据挖掘（一）：基因数据库的利用

生信草堂 · 公众号 · · 2017-09-27 17:00

正文

图片1.png

“

生信草堂

将会与更多的优秀微信公众号合作，把最优秀的微信推文呈现给大家，希望可以帮助读者更多的了解生信技术，培养和提高读者的生信分析能力！

号外，号外，号外

你想和生信分析大神做好朋友么？

你想认识更多爱好生信分析的小伙伴么？

你想让自己的生信分析走上快车道么？

那就赶快加入我们的生信交流微信群吧！

正确加入我们的模式是：

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群”

在群里请大家注明自己本名，单位，研究领域

便于小编管理

freescience联盟

由高校、医院FS公众号和科研技能公众号等百家单位联合创建的科研交流分享平台；联盟的宗旨：“公正至上，自由分享，平等共赢”。欢迎您的关注，让我们共同学习进步。戳这里Freescience联盟公众号原文，请多关注哦~

开篇引言

大数据挖掘和分析就是从大量的、不连续的、随机的生物医学数据中，提取隐含在其中的、但又是潜在有用的数据，并且结合临床资料和生物学方法分析出具有临床和研究价值的信息的过程。

现在的生物医学的研究已经进入一个“大数据”时代，每30秒就有一篇新论文发表，但总体在转化医学和新治疗方法的进展上还是很缓慢，一部分原因是由于许多文章都集中在某几个基因或某一两个疾病，如此便形成了一个个知识孤岛，并不能对生物系统的研究构建一个总体画面，以至于一些有效的知识迟迟得不到发现。

然而生物体是如此复杂，很多疾病机制和治疗手段实际上不是孤立的，它们之间存在千丝万缕的关系。

两个毫不关系的东西很可能通过某种方式联系着，如果发现这种联系，就会产生质的飞跃，为治疗疾病发展新药提供新思路。

例如，没有从文献数据的挖掘和分析，研究人员或许永远不会去测试鱼油能缓解一种循环系统疾病——雷诺综合症的可能。

而对于一名临床医生和基础研究者，掌握了解读和分析大数据的基本能力，就等于拥有“大数据”宝库的钥匙，任你挖掘。怎么样，开不开心？

从此，你可以实现：

1 作为申请课题的方向和基础工作；

2 验证你现有的实验结果，提高文章质量；

3 进行大量数据集的挖掘或采用独创的分析方法，单独发表SCI文章；

4 指导实验研究方向，预测潜在机制，发表SCI文章。

本系列将从实际操作来介绍一些数据挖掘、系统生物学算法和可视化工具，可用于基因、代谢、蛋白质组学和药物等筛选工作的数据进行功能性分析。

例如提供基因、蛋白、转录本列表，找出与之相关的重要通路、网络关系、疾病关系；如何下载原始的高通量数据进行分析；如何将结果可视化，做成文章中高质量的图表。以简单，实用，不编程，人人都能学会为原则进行讲解，适用于所有零基础的科研小伙伴。

生物医学大数据解读和分析——找差异分子案例实践（一）

为了零基础的小伙伴们更直接和方便的理解大数据挖掘，本系列将采用别人已发表的文章来进行数据分析还原，将文章中用到的分析过程和操作，一步一步还原，呈现给大家。

本期挑选的一篇文章是”Differentiallyexpressed gene profiles of intrahepatic cholangiocarcinoma, hepatocellularcarcinoma, and combined hepatocellular-cholangiocarcinoma by integratedmicroarray analysis ”是2015年复旦大学中山医院团队发表在tumor biology。（影响因子为3.611 ，PMID: 25712376）

文章的基本思路是收集别人的含有肝内胆管癌(ICC)，肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据，然后分析得出三组比较差异的基因列表和相关通路和功能，最后挑选出其中的S100A11基因在HCC和ICC细胞系中验证表达。

此文就是典型的用别人的数据，发自己的文章，通过简单的表达验证，补足实验证据不足的缺陷，那么一篇几乎零成本（抗体，细胞系，pcr和wb的试剂总成本在1万以内）的三分以上ResearchArticle就这样完成了。而文章的关键就是在于数据收集和分析。

那么我们就开始还原数据分析过程了，首先要解决一下几个核心问题。

1芯片数据哪里来，怎么找？
2下载哪些文件，怎么下载？
3用什么软件分析获得差异基因？怎么操作？
4通路和功能分析是要用到什么软件，怎么操作？
5挑选其中的某一基因来实验验证有什么原则和方法？

基因芯片数据库

第一期我们将解决第一核心问题：芯片数据哪里来，怎么找？

这是文章中用到的数据库GEO和Array Express，也是全球最大两个基因芯片公共数据。

用过pubmed的小伙伴应该对geo的搜索不陌生吧。

这是Array Express的搜索界面

本期先重点介绍geo数据库

搜索流程

1. 确定关键词

2. 限定类型

3. 物种选择

4. 检测类型选择

5. 记录信息

6. 不断选择关键词反复验证

根据流程共26个数据集，需进入到项目中具体查看实验设计的内容进一步查询判别。

具体解析：

1. 确定关键词：

这里就以肝内胆管癌为关键词搜索，然后进入到项目中具体查看实验设计的内容，来人工寻找到肝内胆管癌(ICC)，肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据。当然也可以"intrahepatic cholangiocarcinoma and hepatocellular carcinoma"关键词搜索来缩小范围。因为数据量不多，本着”宁可多搜不放过一个”的原则，尽量放宽搜索条件。

2. 限定类型：

这里选择Series，表示按数据集显示。

3. 物种选择：

这里选Homo sapiens，表示选人，当然根据自己的实验设计可以选其他物种。

4. 检测类型选择:

这里选Expression profilingby array，表示选基因芯片表达数据，当然根据自己的实验设计可以选其他检测分子芯片。例如甲基化，测序，SNP等。

5. 记录信息：

进入到项目中具体查看实验设计的内容，记录基本信息，例如样本数，设计等和一些特殊的信息。例如下表：

6. 不断选择关键词反复验证：

为了搜全，也可不断放松关键词例如以cholangiocarcinoma搜索。总之，不断查漏补缺，记录好信息。

FS数据挖掘主编

赵忻艺，将大数据应用于医学科研，主要包括临床医学数据的挖掘、收集、整理和利用（标准化和科学化的数据库），医学分子大数据的整理、利用及研究（基因、蛋白及代谢）。特别针对肿瘤个体化的基因测序和数据快速处理，寻找个体化的分子标志物、药物靶标和治疗方案。目前，已建立浙大大数据挖掘团队，旨在降低研究者学习大数据的门槛，推动大数据共享与研究协作，发表更高质量的研究成果，为科研决策提供精准的预测和实验证据。

学术手拉手

长按关注生信草堂

长按关注Freescience联盟