专栏名称: 生信师兄
本公众号旨在帮助广大的生信小白更好、更轻松的入门生信,专注生信干货分享。
目录
相关文章推荐
Foodaily每日食品  ·  三得利2024全年收入达1650亿,霸王茶姬 ... ·  4 天前  
润农畜牧报价  ·  2025年2月23日 ... ·  3 天前  
中国消费者报  ·  近期大量上市,多人吃进急诊室!紧急提醒→ ·  3 天前  
中国消费者报  ·  近期大量上市,多人吃进急诊室!紧急提醒→ ·  3 天前  
吃什么情报局  ·  只有 1% ... ·  4 天前  
51好读  ›  专栏  ›  生信师兄

听说自动注释不够准确?那就试试手动注释吧!

生信师兄  · 公众号  ·  · 2025-01-31 10:38

正文

熟悉师兄公众号的都应该清楚,师兄之前的推文主要集中在各种类型的科研绘图上!但是不少粉丝小伙伴们还是反应,只知道绘图,数据不会分析,还是不行的呀!没错,拿不到可靠的分析结果,只知道绘图,这当然是远远不够的!因此, 学习各种常用的生信数据分析则必然成为了每一个生信人必须要经历的事情。 因此,后续的推文中,师兄会尽可能地多更新一些有关数据分析的内容,可能包含的系列包括《R语言数据处理基本技巧》、《从零开始学单细胞转录组》、《从零开始学空间转录组》等;

本系列,师兄将 从单细胞转录组学开始 ,带领大家一起 从零开始学单细胞 !系列内容可以详见下方大纲!

说明: 由于本系列教程还是强调 面对完全零基础小白 ,所以很多内容师兄会介绍的非常细,对于部分已经入门的老手来说可能比较多余,所以 大家选择性阅读即可!

本系列主要内容目录及单细胞学习交流群,请看Part 1;

本期主要内容,请看Part 2&3;

合作服务器推荐及生信师兄粉丝专属优惠详情,请看Part 4;

如果您觉得本系列文章对你有帮助的话,欢迎 点赞、收藏、在看+转发 !您的支持是师兄持续更新的最大动力!

Part 1 系列介绍

1.1 内容大纲

单细胞转录组系列教程目录

1.2 生信师兄单细胞学习交流群

当然了,好的学习过程离不开详尽地交流讨论和重难点答疑!因此,在发布教程的同时,师兄也成立了 《生信师兄单细胞学习交流群》 用于本系列内容的学习交流。需要的小伙伴可以扫描下方二维码,添加师兄微信后备注 “单细胞学习交流群” 后付费加群!

1.2.1 群内资源

  • 本系列所有免费及付费内容的配套学习资源、代码资源及示例数据;
群内资源(以上图课程目录为准)

1.2.2 入群费用

  • 入群费用: ¥299元(每集赞1个抵扣1元,至多抵扣100元!此优惠永久有效!)

1.2.3 本系列不含视频教程

  • 目前,师兄还没有足够的时间进行视频课程的录制,所以 本系列教程不包含视频课程 !但是如果大家需要,师兄也一定会尽可能抽时间录制课程!

  • 如果后续推出视频课程 ,还是和《R语言科研绘图进阶版视频教程》一样, 加群的小伙伴届时可凭借入群截图,抵扣购课差价。 所以,早入群早享受吧!

1.2.4 声明

  • 是否加群,纯属自愿! 本系列的大部分内容会是免费阅读, 所以完全支持白嫖! 但是看完还请动动你的手指, 点个赞!点个在看!如果能转发那就太感谢了!
  • 加群可以 获取本系列所有付费部分内容,代码,示例数据,以及定期答疑的交流群
  • 如果考虑好加群,就 早加早享受,随着群内资源的增加,入群的费用也可能会随之增加
  • 优惠方式 点赞 + 在看,并转发这个系列任意一篇文章至朋友圈,每集赞1个抵扣1元,至多抵扣100元!此优惠永久有效哦!

Part2 前言

在单细胞转录组数据分析中, 细胞类型注释 是至关重要的一步,也是 主观性最强,难度最大的一步 ,准确的细胞类型注释是后续分析的关键基石。这往往要求分析者有丰富的经验和对数据及研究背景的精准把控。准确的细胞类型注释不仅有助于我们理解细胞的生物学功能,还能揭示疾病发生发展的重要机制。

细胞类型注释的方法大致可以分为 自动注释和手动注释两大类 ,这两大类并没有绝对的好与坏,在实际分析过程中, 单独使用其中之一,亦或是两者联合使用的情况都较为常见 !个人觉得,不管是黑猫白猫,抓到老鼠就是好猫!

本节师兄给大家介绍手动注释的几种方法!

2.1 自动注释与手动注释

2.1.1 自动注释的特点:
  • 高效性与大规模处理 :自动注释方法能够高效地处理大量单细胞数据,通过算法快速对细胞进行分类和注释,大大节省了时间和人力成本。
  • 依赖先验知识和参考数据库 :自动注释 依赖于已有的细胞类型注释信息、基因表达模式或参考数据库 ,通过比对和分析来预测未知细胞的类型或状态。
  • 准确性受限 :尽管高效,但自动注释的 准确性可能受到多种因素的影响 ,如数据质量、参考数据库的完整性和准确性,以及算法本身的局限性。
2.1.2 手动注释的特点:
  • 精确性与专家判断 :手动注释通过领域专家的专业知识和经验,对细胞进行精确的分类和注释,能够捕捉到自动注释可能忽略的细微差异和复杂模式。
  • 过程繁琐 :与自动注释相比,手动注释需要更多的时间和人力投入,尤其是在处理大规模数据集时,可能会变得非常繁琐和耗时。
  • 验证与修正 :手动注释通常作为自动注释的补充和验证步骤,用于修正自动注释中的错误或遗漏,提高整体注释的准确性和可靠性。

2.2 手动注释通常基于两种策略

  • 一种是先通过FindAllMarkers函数找到每个Cluster的Marker基因,然后根据Marker基因对各种数据库或者文献进行检索,找到相匹配的细胞类型,进而对Cluster进行注释;
  • 另一种则是先根据样本的组织信息、细胞来源等,先确定样本中大致存在的细胞类型,并根据细胞类型寻找对应已知的典型Marker基因,根据整理好的Marker基因绘制小提琴图、气泡图、基因表达散点图来手动注释每个Cluster的细胞类型;

Part3 主要内容

3.1 了解常用的Marker基因数据库

3.1.1 CellMarker数据库

CellMarker数据库
  • 简介 :由哈尔滨医科大学李霞/Yun Xiao教授团队出品,2018年发表于《Nucleic Acids Research》。该数据库包含从大量已发表文献中整理出的人类和小鼠的细胞类型及其对应的Marker基因。
  • 内容 :人的158种组织/亚组织、467个细胞类型、13605个Marker基因;小鼠81种组织/亚组织、389个细胞类型、9148个Marker基因。
  • 功能 :用户可以通过选择物种、组织类型、细胞类型来查询marker基因,也可以下载marker基因列表,甚至上传自己的文章或数据。
  • 网址 :http://xteam.xbio.top/CellMarker/

3.1.2 PanglaoDB

PanglaoDB
  • 简介 :来自瑞典卡洛琳学院的研究人员开发的PanglaoDB数据库,用于探索小鼠和人类scRNA-seq数据,为单细胞组学研究提供公共scRNA-seq数据资源。
  • 内容 :收集并整合了来自多个研究的数据,包括小鼠的184种组织、1063个样本、446万细胞;人的74种组织、305个样本、112万细胞。
  • 功能 :用户可以通过Search功能查看基因在细胞中的表达情况,也可以查看某个细胞类型的marker基因,并下载marker基因和原始数据进行分析。
  • 网址 :https://panglaodb.se

3.1.3 其它数据库

  • CancerSEA: 同样由哈尔滨医科大学李霞/Yun Xiao教授团队出品,用于破译癌症单细胞功能状态的数据库,2019年1月发表在《Nucleic acids research》,包含25种癌症的41900个肿瘤细胞,14种癌症相关功能状态,提供了一个癌症单细胞功能状态的图谱。

  • PCMDB(Plant Cell Marker Data Base): 一个植物细胞marker数据库,收录了六种常见模式植物(拟南芥、水稻、玉米、大豆、番茄和烟草)的三种不同类型的细胞标记。包括实验验证的标记基因、基于Bulk RNA-seq数据的差异表达标记基因以及通过scRNA-seq鉴定的特定细胞间的差异表达基因。







请到「今天看啥」查看全文