专栏名称: 弗雷赛斯

Freescience由浙江大学医学院几个硕博士发起创建，旨在最广泛分享有价值的科研技能和知识；FreeScience的宗旨：“科学自由分享、人人平等，共求真理”。

（三）零基础大数据挖掘实例讲解——找差异分子案例实践

弗雷赛斯 · 公众号 · 科研 · 2017-07-05 13:24

正文

先来解答下上期几个问题。

首先文章中用到了芯片或测序数据一般杂志都要求上传原始数据到公共数据库，只有生成一个数据集编号才能发表文章。当然如果别人发表的文章用

到了你的数据，那必须要引用你的编号。所以有些数据集未见其对应的发表文章，是因为上传者的文章还在审稿中。

那么文章在审稿中还没有发表前，会不会有别的团队下载数据抢在你之前发表文章呢？这个问题其实也不用担心，因为在上传数据后可以设置一个保护时间，在这个保护时间内是不对外公布的。

其次，别人下载你的数据一般用于整合分析或进一步验证和补充其研究内容，所以一般不会影响你文章发表。

我们继续还原开篇文献（PMID: 25712376）的分析流程，当我们收集和整理完数据集后如何解读其信息和下载哪些数据用于分析？

这是文中最终纳入的三个研究：

分析中发现文章一个笔误:GSE35396应为GSE35306。

一般用于后续分析要收集三个文件：

1.基因表达数据，
2.平台注释文件，
3.实验设计即样本分组信息。

1. 基因表达数据
√原始数据 cel或txt
√矩阵数据 txt
2. 平台注释文件 txt
3. 实验设计即样本分组信息以GSE35306数据为例。

其中平台注释信息的页面。

收集这三部分数据：

这样一个研究所有要用到的数据就收集完成了，用于下一步的分析。

（1） 首先解释下 芯片的原始数据 。cel文件是affy芯片公司平台的检测后产生的原始文件，而txt文件则是Agilent公司产生。这两家公司是全球最大的芯片公司，而我国还没有自主开发的基因芯片检测仪器和平台，国内都是这两家公司的代理商，所以钱都被国外赚走了。

(2) 矩阵数据txt 是标准化后的基因表达数据。行就是代表一个样本编号，列就是代表一个探针号。值就是表达信号值，一般是取对数的（以免值太大）。

（3） 平台注释信息 ，就是所有探针号对应的注释信息，你要知道这些探针号代表的基因是什么，否则怎么筛选出差异基因。

（4） 样本的分组信息 。只有知道样本的分组信息才能进行统计，没有比较就没有差异。

这期就到这里，下期将对这些收集好的数据进行分析，一步一步还原出分析过程。

点公众号菜单里 科研攻略 - 数据挖掘 ，查看完整系列~

作者简介

赵忻艺，FS数据挖掘主编，将大数据应用于医学科研，主要包括临床医学数据的挖掘、收集、整理和利用（标准化和科学化的数据库），医学分子大数据的整理、利用及研究（基因、蛋白及代谢）。特别针对肿瘤个体化的基因测序和数据快速处理，寻找个体化的分子标志物、药物靶标和治疗方案。目前，已建立浙大大数据挖掘团队，旨在降低研究者学习大数据的门槛，推动大数据共享与研究协作，发表更高质量的研究成果，为科研决策提供精准的预测和实验证据。

（三）零基础大数据挖掘实例讲解——找差异分子案例实践

正文

请到「今天看啥」查看全文