专栏名称: 解说科研项目
解说国自然,主要公益解说国家自然科学基金相关政策,提供医学科学部项目撰写策略、注意事项等;同时,还进行医学相关的课题设计、SCI论文撰写投稿、医学统计与meta分析、生物信息学等培训交流。为广大医生朋友们的科研和基金申请提供帮助!
目录
相关文章推荐
安徽省发展改革委  ·  安徽省新能源汽车产业集群建设企业巡展——【2 ... ·  昨天  
安徽省发展改革委  ·  安徽省新能源汽车产业集群建设企业巡展——【2 ... ·  昨天  
羊城晚报金羊网  ·  流浪猫尸首分离被塞进课桌,谁干的?高校公布监控 ·  2 天前  
羊城晚报金羊网  ·  流浪猫尸首分离被塞进课桌,谁干的?高校公布监控 ·  2 天前  
51好读  ›  专栏  ›  解说科研项目

重磅!中文版GEO数据库来了!

解说科研项目  · 公众号  ·  · 2021-02-01 21:08

正文

没有样本,没钱测序,如何拿别人的数据来发自己的文章呢?

公共数据库挖掘呀!

众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的 肿瘤样本数据 (TCGA的0代码可视化已被临床生信之家实现)

后者GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。 它创建于2000年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。

GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据 也不限于肿瘤。 不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行 ID转换(芯片ID对应基因)、数据标准化、去批次效应后 才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。

好在,为“生信分析0代码”而生的 临床生信之家 ,继解决TCGA数据后,1月29日今天上午,终于开始录入GEO数据了,这预示 中文版GEO数据库 的到来!

从体验看,其有以下特点:

1.所有数据都来之GEO,以上提到的难弄的数据预处理过程均自动完成。

2.临床生信之家一贯的:无需代码基础,鼠标点点点即可完成ID转换,数据标准化,去批次,高清出图,原始数据下载一气呵成!

3.数据集介绍全部实行中英文对照。

这样的“中文版GEO数据库”你爱不爱呢?!

临床生信之家之前发起了一个调查,就是GEO数据库你最想录入的是哪些疾病的数据:


从结果看, 心血管,脓毒症,肺损伤,糖尿病,胰腺炎 排名前五,我们今天就拿心血管为例,看看如何在临床生信之家上点点点分析geo的心血管数据。


首先选择 GEO分析 模块,选择 数据集筛选 ,搜索框中直接输入心血管方向的 “高血压”。



右边可以选择是匹配标题还是摘要还是实验设计类型,此处我们选择标题。


临床生信之家官网


点击检索后,就出来匹配到的数据集,根据匹配程度排序,没接触过geo数据库的同学可能有点懵,这里稍微解释下,1. 数据集: 在Geo数据库中代表一个实验项目(就是某个作者上传的集合),包括所有样本信息,GSE是数据集的编号开头。 2.芯片平台: 不同芯片公司使用不同芯片平台,不同芯片以GPL字母开头,不同芯片平台包含不同的探针和基因ID对应关系,所以芯片数据预处理时,需要将探针ID转换为对应的基因,称为“探针ID转换”。 3.样本, 这里直接给出某个数据集的样本量。



然后点开数据集边上的 小三角 ,就展开这个 数据集的详细介绍 ,包括标题,五中,实验类型,概要,实验设计,参考文献,这些信息都是和geo数据库一对一对应的,同时给了 中文翻译, 默认是灰色,鼠标放上去就会变黑。



比如 GSM24752 这个数据集,通过浏览,很容易知道这个实验是人原发性高血压患者外周血细胞差异基因表达的微阵列分析, 对比的是高血压患者和正常血压作为对照组, 如果想更详细了解这个实验,可以直接点击citation里的对应文献查看。


右边看到这个数据集一共 6个样本 ,然后点开样本边上的三角,就显示出各个样本啦。



从样本的名字source name可以看出,前三个HTN是高血压组,后三个样本是NC对照组。


接下里就是分组样本了, 直接鼠标单击,多个样本就用excle里经常操作的shift+单击,样本 变蓝 ,就是选中了。


然后就是输入分组的名字,比如 高血压组 ,点击收录,就创建了样本分组,同理设定了正常血压组。此时会发现 探针的ID转换 就开始自动处理了。样本左边的group已经显示设置的样本名。



这样可以选择多个数据集,进行多个样本分组的设定,所有选择的数据集和样本分组都会在检索区的底部过渡区,此时可以设置项目名,点击收录到位的样本库。就会到主页的左边栏了。



设置好样本之后,就可以开始对geo的芯片数据进行各种分析啦,比如以下这个差异基因,样本一选择高血压组,样本二组选择对照组,此时, 数据标准化,去批次效应 会自动完成,然后点击plot,差异基因分析完毕。



图片是高清矢量图,包含了标准化后的图和去批次效应的结果图, 这2个图发文章的时候可以放在补充材料 ,说明你做过了。然后就是差异基因经典的火山图,热图和kegg通路富集和go功能富集啦。









请到「今天看啥」查看全文