专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
相关文章推荐
新疆949交通广播  ·  出现这些情况可能是流感重症!警惕→ ·  3 小时前  
半月谈  ·  初步核查29人失联,救援最新情况→ ·  4 小时前  
半月谈  ·  就在刚刚,中国代表团首金诞生! ·  昨天  
底线思维  ·  日本的分级诊疗制度会耽误救治吗? ·  2 天前  
学习大国  ·  人民日报刊文谈“加价选座” ·  2 天前  
51好读  ›  专栏  ›  生信技能树

当然是一模一样啊

生信技能树  · 公众号  ·  · 2024-10-24 20:59

正文

小伙伴做了一个单细胞转录组的常规的降维聚类分群图,但是说跟原文一模一样,仅仅是修改了配色,不知道能不能用到自己的数据挖掘课题,主要是这样不知道算不算抄袭!

如下所示,确实是可以很明显的看到原文的umap跟复现的一模一样 :

原文的umap跟复现的一模一样

然后我问了问小伙伴的降维聚类分群代码,但是 对方说其实并没有做降维聚类分群,直接使用了作者给出来的rdata文件,里面就有细胞的亚群信息以及UMAP的坐标,所以直接绘图了。 这,简直是搞笑啊,当然是一模一样啊!

因为文章提供的就有单细胞转录组表达量矩阵以及已经做好了的降维聚类分群分析,还有最后的UMAP坐标,文章是:《 Spatial multi-omic map of human myocardial infarction 》,可以看到投稿说2020但是到2022才方便,看样子发文章确实是不容易 :

https://doi.org/10.1038/s41586-022-05060-x 
Received: 30 November 2020
Accepted: 29 June 2022
Published online: 10 August 2022

数据主要是 Processed snRNA-seq, snATAC-seq, and spatial transcriptomics data are available at

  • cellxgene https://cellxgene.cziscience.com/ collections/8191c283-0816-424b-9b61-c3e1d6258a77
  • the Zenodo data archive (https://zenodo.org/record/6578047).

直接读取作者给出来的rds文件,代码如下所示:

sce.all=readRDS('input/All-snRNA.rds')
sce.all
colnames([email protected]
as.data.frame(sce.all@assays$RNA$counts[1:101:2])

head([email protected]10)
table(sce.all$sample) 
boxplot(table(sce.all$sample) )
sce.all$orig.ident  = sce.all$sample
table(sce.all$cell_type_original) 

DimPlot(sce.all,group.by = 'cell_type_original',label = T,repel = T)
ggsave('paper-umap.pdf',width = 8

如果仅仅是跑上面的代码那必然是做出来一模一样的UMAP图啊,应该是不合规的如果要放自己的数据挖掘课题文章里面。 其实简简单单获取一下作者的rds文件里面的纯粹的表达量矩阵即可,走自己的降维聚类分群,代码如下所示:

ensembl_matrix=sce.all@assays$RNA$counts
head(rownames(ensembl_matrix))
library(AnnoProbe)
head(rownames(ensembl_matrix))
ids=annoGene(rownames(ensembl_matrix),'ENSEMBL','human')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENSEMBL),]
symbol_matrix= ensembl_matrix[match(ids$ENSEMBL,rownames(ensembl_matrix)),]
rownames(symbol_matrix) = ids$SYMBOL

sce.all=CreateSeuratObject(
  counts = symbol_matrix,
  meta.data = [email protected]
)

详细的代码在百度云网盘链接: https://pan.baidu.com/s/1QRFWje5tI6Nodw3I3EX5Tg?pwd=7xp4 提取码: 7xp4

可以看到, 自己做出来的图当然是有自己的独特的坐标,因为每个人的质量控制参数不一样,降维聚类分群的细节也不一样,还有随机数种子也不一样。而且最后的UMAP图可以修改配色,取决于自己的想法:

当然了,如果你自己降维聚类分群发现一些亚群并没有作者那样的泾渭分明,有强迫症的话,可以试试看; 不是造假胜似造假的单细胞降维聚类分群

单细胞网页工具怎么办呢?

很多小伙伴并不想自己学习单细胞转录组降维聚类分群等数据处理,因为有大量的网页工具可以处理公共数据集, 但是呢,网页工具通常来说都是公开的,每个人都可以访问所以同样的需求的小伙伴们肯定是拿到了同样的图表。那么大家使用了同一个网页工具出来的同样的图,不会有学术违规吗? 我们来让人工智能大模型说说看:

使用网页工具处理公共单细胞转录组数据集并生成图表,确实可能会导致多个研究者获得相似或相同的结果。然而,这并不一定构成学术违规,关键在于如何处理和呈现这些结果。以下是一些需要考虑的要点:

  1. 数据所有权

  • 公共数据集通常是由研究者共享给科学界的,目的是促进科学研究和发现。使用这些数据进行分析是被鼓励的,只要遵守数据使用协议。
  • 原创性

    • 学术研究强调原创性。即使多个研究者使用了相同的工具和数据集,他们对数据的解释、分析方法和得出的结论可以是不同的。
  • 透明度和可重复性

    • 科学研究要求透明度和可重复性。使用公共工具和数据集时,应该清楚地记录分析步骤,并在可能的情况下分享代码和方法。
  • 引用数据来源

    • 在发表结果时,应该适当引用数据来源,包括原始数据集和使用的网页工具。
  • 增加价值

    • 研究者可以通过提出新的假设、使用创新的分析方法或将数据与额外的实验结果相结合,来增加研究的价值。
  • 避免抄袭

    • 直接复制他人的分析结果或图表而不进行适当的引用是学术不端行为。应该避免这种行为,并确保研究的独立性和原创性。
  • 个性化分析

    • 即使使用相同的工具,通过调整参数、选择不同的分析方法或关注不同的生物学问题,也可以得到独特的分析结果。






    请到「今天看啥」查看全文