ImageGP 2.0:用于生物医学研究的强大数据可视化与可重复性分析工具
方法论文
● 期刊:iMeta(IF 23.7)
● 原文链接DOI: https://doi.org/10.1002/imt2.239
● 2024年9月12日,中国中医科学院黄璐琦、陈同和中国农科院深圳基因组所刘永鑫等团队在iMeta在线联合发表了题为“ImageGP 2 for enhanced data visualization and reproducible analysis in biomedical research”的文章。
● 本文在升级版ImageGP 2.0(https://www.bic.ac.cn/BIC/#/)中,引入了最新网络开发技术,重新设计了用户使用界面,大大丰富和增强了原有功能,并显著改善了用户使用体验。
● 第一作者:陈同
● 通讯作者:陈同([email protected]),刘永鑫([email protected]),黄璐琦([email protected] )
● 合作作者:陈涛、杨莓、范思庆、石鸣磊、魏步青、吕慧娇、曹万迪、王崇铭、崔建洲、赵记稳、韩怡来、席娇、郑自强
● 主要单位:中国中医科学院中药资源中心,中国农业科学院深圳基因组研究所,中国科学院西北高原所,江西省、中国科学院庐山植物园,伦敦国王学院,中国农业科学院农业资源与农业区划研究所,中国医学科学院医学实验动物研究所,南京农业大学,华中农业大学,新加坡国立大学,西北农林科技大学,宣武医院,武汉轻工大学
● 升级了用户界面,扩展更多分析功能,增强了数据转换到图形绘制无缝对接;
● 新增数据格式转换模块和数据预校验模块;
● 新增数据格式转换模块和数据预校验模块。
ImageGP是一个被广泛使用的在线数据可视化和生信分析平台,在过去的七年里为全球用户提供了超过700,000次的分析服务(鉴于 15 分钟内的操作只统计 1 次,实际服务次数保守估计是当前统计次数的 30 倍以上),并收到了大量用户的使用反馈。在本次的升级版ImageGP 2.0(https://www.bic.ac.cn/BIC/#/)中,我们引入了最新网络开发技术,重新设计了用户使用界面,大大丰富和增强了原有功能,并显著改善了用户使用体验。其主要改进包括:(i) 增加了数据格式转换模块,便于进行矩阵合并、矩阵筛选以及长、宽矩阵格式的转换等操作,以便为后续绘图和分析工具提供直接可用的数据。(ii) 通过数据预校验、分组相似属性参数、折叠不常用参数等功能,降低了使用成本。(iii) 增加了更多可视化功能和数据分析工具,包括WGCNA分析、差异基因表达分析和FASTA序列处理等。(iv) 为注册用户(注册是免费的,且一般只在需要有数据上传时注册)提供个人中心,用于上传大型数据集、跟踪分析历史、共享分析数据、脚本和结果等。(v) 通过一键式按钮反馈功能让用户更快捷反应自己遇到的使用问题。(vi) 开发R包ImageGP,实现线上和本地数据可视化和分析的联动。这些更新促使ImageGP 2.0的功能进一步完善,成为一个涵盖研究范围更广、涉及分析方法更多的多功能生信工具平台,为湿实验室和干实验室研究人员的生物信息学分析,以及更广泛的科研工作提供了有力的支撑和保障。
Bilibili:https://www.bilibili.com/video/BV1uTxQenEhr/
Youtube:https://youtu.be/IkKN6Ekdk6s
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/
在生命科学的“组学”时代,基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学和临床领域积累了大量的复杂的生物数据集。人类基因组计划、DNA元件百科全书(ENCODE)、人类细胞图谱、地球生物基因组计划、万种原生生物基因组计划以及人体蛋白质组导航国际大科学计划(π-HuB)等大型科学项目已经或正在产生前所未有的海量数据。例如,仅 GenBank 的最新版本(261.0)就包含超过 33.8 亿个全基因组测序记录,含有 27.9 万亿个基因组碱基对数据。同样,国家基因组科学数据中心(NGDC)的 GSA 存储库拥有近 50 P字节的数据(2024 年 6 月),而整合药用植物基因组平台(IMP)收录了来自1000 种植物基因组的 7160 亿个碱基及其相关信息。如此异构多样的数据,给数据的管理和整合带来了严峻挑战,亟需强大的分析工具和方法。
有效利用这些庞大的生物数据集会产生巨大价值,但需要克服众多挑战,包括数据复杂性、跨不同来源数据的整合以及建立大数据处理的标准化原则。用于分析大型生物数据集的工具在数据驱动的生物医学机制解析方面发挥关键作用,这对于转化医学和个性化医疗的应用至关重要。
在这种情况下,数据可视化成为研究人员努力有效理解和传达复杂生物学结论的关键工具。数据可视化工具,特别是那些以交互式形式呈现的工具,提供直观的图形表示,如图表、图形和地图。这些视觉辅助工具使研究人员能够辨别数据变化趋势、识别异常值并揭示数据中的规律,从而增强理解并促进数据驱动的决策。数据可视化所提供的简洁性和可解释性解除了原始大规模数据的理解障碍,使复杂的科学发现能够被更广泛的受众理解。
为了满足数据可视化的各种需求,人们开发了许多工具。这些工具大致可分为命令行工具(如 R、Python、Perl、LaTeX、Javascript、MATLAB、Gnuplot、Graphviz)、桌面软件(如 Excel、Power Point、Cytoscape、Gephi、IGV、Mayavi、Tbtools)和在线平台(如 ImageGP、EVenn、HemI、Sangerbox、OmicStudio、shinyCircos、TOmicsVis、Wekemo Bioincloud、iMeataLab Suite、iNAP、Majorbio Cloud、MetOrigin)。每个类别的工具都具有各自的优势和局限性,在灵活性、易用性和计算资源之间取得各自的平衡。
ImageGP 2.0(https://www.bic.ac.cn/BIC/#/)在线数据可视化和分析平台的一个代表,专为满足生物医学研究人员的高级需求而量身定制。这次更新采用了最先进的网络开发技术、重新设计了更易用的界面、增强了用户交互性。主要新增功能包括数据格式转换模块、简化数据预校验功能的工作流、更多的可视化功能和分析工具(如 WGCNA、差异基因表达分析),以及用于管理大型数据集和分析历史的用户中心。此外,R 软件包 ImageGP 的集成将这些功能扩展到了本地环境,实现线上和本地的联动,解决了湿实验室和干实验室环境中数据管理、分析和安全相关的难题。
ImageGP 2.0 在其第一版的基础上根据用户的反馈和自身功能需求进行了一次重大改版,旨在提升用户体验和满足更多需求。ImageGP 2.0平台集成了6 个部分的45种不同的工具和13项教学资源(如图1所示)。这些功能涵盖专业绘图、数据转换与提取、生物信息学分析、交互式可视化,以及这些工具的文本和视频教程。此外,还专门提供了一个生物信息学学习资源,包括 Bash、R、Python 等的面向生物信息学习的教程。
ImageGP 2.0提供了17种数据可视化工具,专为创建各种图表而设计,如热图、箱线图、柱状图、散点图(包括富集分析结果图和火山图等)、主坐标轴分析(PCoA,PCA)图、直方图、折线图和各种维恩图(如图1所示)。虽然许多工具在早期版本的 ImageGP 中已经存在,但其后台代码已完全重构。此次改版增强了数据校验功能以最大限度地减少用户输入数据中存在的问题,并提供了更多的参数选项,以优化数据筛选和图形各种美学属性的设置。同时提供了详细的文本和视频使用教程,用户可以在首页的教程部分以及每个工具页面的顶部访问这些资源。每个工具还配有轮播图表,概述输入数据格式、参数和输出样例,并附有演示按钮,方便用户重现示例。
内部的环展示了 6 个工具集:专业图形绘制、数据转换和提取、生信分析工具、交互式可视化工具、生物信息资源、图文教程。外部的环展示了代表性的可视化结果输出。
在生物数据分析中,大多数处理后的数据以矩阵格式存储,例如基因表达矩阵以及细菌、蛋白质或代谢物丰度水平的矩阵。通常,这些矩阵都是宽格式 (Wide format)结构,适用于在所有样本间进行比较,例如在热图中显示。然而,像 ggplot2 这样的可视化工具基于《图形语法》,需要使用长格式 (Long format)的数据才能方便地将变量(也就是一列数据)映射到对应的图形视觉属性上。
从语义上理解,宽矩阵应包含更多列,而长矩阵是包含更多行(图 2A)。但这不是主要区别。宽格式矩阵通常包含大量列,其中每一列(除第一列外)存储的是同质数据。例如,在基因表达矩阵中,每列中的数值代表各个样本中的基因表达水平。使用此格式进行可视化时,如果需要将表达值映射到点的大小属性上则很困难,因为这些数据分布在多个列里面,你不知道使用哪些列。
(A) 长宽矩阵展示及其转换。(B)矩阵合并的 4 种模式 展示。(C)矩阵展开功能,把某一列中每一行的值分到各个单行展示。
相反,来自基因表达表的长格式矩阵具有较少的列(例如样本、基因、值)和更多的行,每个数字代表每个基因在对应样本的表达(图 2A)。这种格式适用于列间异质数据,比如第一列是样本名、第二列是基因名、第三列是表达值,便于将特定列直接映射到不同的美学属性。值得注意的是,根据分析需求,同一个矩阵在不同情况可能被视为宽格式或长格式。例如,当比较所有样本时,基因表达矩阵起到宽格式的作用,但在使用散点图生成任意两个样本间的相关性图时,基因表达矩阵又可作为长格式使用,其中每一列代表一种属性。
另一个常见操作是矩阵合并,这里提供了五种合并的模式:以左矩阵为参照的合并(保留左矩阵的所有项)、以右矩阵为参照的合并(保留右矩阵的所有项)、两个矩阵交集合并(保留两个矩阵的共同项)、两个矩阵并集合并(组合两个矩阵的所有项)和 矩阵按列堆叠hstack(连接所有列)(图 2B)。此功能通常用于将长格式丰度矩阵与元数据矩阵集成,从而包含额外的样本属性。此外,该功能支持使用左、右或内模式提取矩阵子集。例如,在左合并模式中,仅提取与左矩阵中目标基因相对应的表达数据子集。此外,矩阵合也可用于基因ID 转换的任务。
在这里,我们利用一个基因表达矩阵来说明这些矩阵操作功能的应用。
通常,基因表达矩阵以宽矩阵格式构建,如下所示:
假设我们想使用密度图(density plot)分析 Gene1 在所有样本中的表达分布。最初,这个矩阵常被视作宽矩阵格式。为了便于分析,我们转置了矩阵:
在这个转置矩阵中,一列代表一个基因;如果我们要做以基因为中心的分析时,每个基因作为一个独立属性,可以视作其为长矩阵格式。将这些数据粘贴到直方图绘图工具(https://www.bic.ac.cn/BIC/#/analysis?page=b%27MTU%3D%27&tool_type=tool)中并配置参数,我们可以生成 Gene1 在所有样本中的表达分布图(图 S1)。
但是上面的图并不能告诉我们 Gene1 在哪个组里面表达更高;为了比较 Gene1 在不同样品组之间基因表达谱分布的差异,我们加入分组文件(实验设计文件,也常称为 metadata,至少 2 列,样品名和分组信息):
使用“合并矩阵”(https://www.bic.ac.cn/BIC/#/analysis?page=b%27NQ%3D%3D%27&tool_type=tool)工具,我们将这两个矩阵合并,获得合并后的数据集(图 S2):
这个合并后的数据集使我们能够比较不同条件或不同样本组间的基因表达差异,使用仍然是直方图绘图工具,直观显示和比较 Gene1 在 2 组数据中的表达分布,Gene1 在 Root 样品中普遍低表达,在 Leaf 样品中普遍高表达(图 S3)。
如果我们想同时分析多个基因或所有基因,该矩阵将不再适用,因为现在每个基因是单独的一列,被视作一个单独的属性。解决方法之一是将所有基因合并为一列,并将所有表达值合并为另一列。这就是“宽转长矩阵”(https://www.bic.ac.cn/BIC/#/analysis?tool_type=tool&page=b%27OA%3D%3D%27)工具的作用(图 S4):
下载后,获得数据如下 (只截取了一部分行,肉眼可见的长;能不长吗?本来是一行可以放多个数值,现在一行只放了一个数值;总的数值还是这么多,行肯定多了):
随后,通过使用直方图绘图工具并进行适当的配置,可以生成所选基因在不同组别中的表达分布图(图 S5)。
另外还有一个“矩阵展开”(explode matrix)的功能,该功能通过拆分一列中的元素并复制同一行中另一列的值来扩展矩阵的大小(图 2C)。这种被称为“展开”的特性能够放大矩阵的维度,如之前在将基因本体(gene ontology)富集表转换为网络图绘制以可视化通路-基因关系的应用中的格式所示,具体可参照最全植物基因组数据平台 IMP中文教程(核基因组更新到 1000 个植物)。
各工具的操作流程做了优化改进以提升用户的交互体验。首先,用户选择自己输入数据的方式和格式,比如是粘贴数据还是使用之前上传的文件,部分工具需要指定输入的矩阵是长格式还是宽格式。在用户给定输入数据后,点击Check data
按钮执行“数据校验”功能,检查输入数据是否符合预定义的规则。对于单个矩阵,校验内容包括检查矩阵是否完整(如每一行的列数是否一致、每一列的行数是否一致)、表头行(第一行)中是否存在特殊字符(第一行通常用做列名,也会出现在程序中,不允许除了数字、字母、下划线之外的字符出现)、第一列是否存在重复项(通常在宽格式矩阵中的第一列被作为行名时做这个检验),以及宽格式矩阵的数字一致性(宽格式矩阵默认除第一行和第一列之外都是数字,主要是防范 Excel 中引入的一些特殊字符)。若系统检测到错误,将提供明确的错误提示,包括错误类型、引发问题的具体条目及其在矩阵中的位置。用户可以在进行后续操作之前修改输入数据,以免因为数据不合规导致后续分析错误。(注:数据格式校验可以尽可能减少后面数据分析中的错误。但不是符合格式要求的数据,后面都不会报错,这里也跟参数选择、数据自身的特征有关,不过后面的错误更好解决,具体看下文一键搞定)。
在涉及多个矩阵的情境中,系统还会检查矩阵之间的关联性。例如,在包含三个矩阵的热图分析中——热图数据、行注释和列注释,系统会校验注释矩阵第一列中的所有项目是否与热图数据矩阵中的对应条目匹配(行注释矩阵的第一列与热图矩阵第一列匹配;列注释矩阵第一列与热图矩阵第一行匹配,自己去体会下这个对应关系)。基于用户反馈,文件校验逻辑也会不断优化,以检测出更多导致运行错误的格式问题。数据验证通过后,用户可以继续下拉工具页面,根据需求调整更多参数。
参数按照功能特征分组放置,不包含必须要填的参数的分组将默认折叠起来,以确保界面的简洁性和减少用户面对大量参数的恐惧感觉。对于“热图”等工具,没有必填参数,所有参数分组在数据验证后会继续维持折叠状态,用户可直接点击提交按钮。相反,对于“箱线图”等工具,其必要参数(如“X轴变量”和“Y轴变量”)会以红星(*)标记,并在初始状态时展开以供用户选择。未标星号的其它参数是可选参数;所谓可选,就是不用选,先提交出来结果看下再说。在初步分析运行后,用户可以自由探索参数的解释,尝试调整并观察其效果。
更多的参数优化措施还包括让参数含义更清晰和功能更强大。例如,删除那些不易于理解的参数,如数据类型指定参数,以减少用户的困惑。在程序中集成自动数据类型检查替代用户的选择,更只能方便。涉及各个绘图形状排序的参数(如“X轴变量顺序”)除了可以方便排序,更增加了数据筛选功能,用户可以通过选择下拉菜单中的值来筛选数据或确定图形布局,以获得目标输出。其它增加的参数选项还包括数据预处理、统计标签、颜色自定义、分面图以及支持多种输出格式(如交互式图表和PowerPoint演示文稿)。此外,ImageGP不限制数据中列的顺序和表头名称(列名称),随便交任何合规的名字都可以,这种灵活性使ImageGP不只适用于可视化生物学数据集,更可以处理化学、物理、社会学等领域各种数据需求。
ImageGP 2.0 增加了更多工具,优化了参数组织方式和提高了使用灵活性。例如,箱线图工具支持各种形式的箱线图绘制,例如单组、多组、成对连线和分面箱线图。同时用户可以调整一个参数将这些绘图轻松转换为小提琴图、点阵图、抖动图或其组合,并调整其垂直呈现和水平呈现2 种不同的布局。针对特定类型的图,比如单细胞标记基因箱线图,提供预设的参数集(图 3A)。
线性判别分析(LEfSe)支持直接可视化用户调整后的输出来展示对应层级的差异信息。此外,用户可以为每个组自定义颜色,并生成带有嵌入文本的可编辑矢量图像 (在原版 LEfSe 中,文字已经路径化,调整是很困难的)。在ImageGP 版的 LEfSe 中所有结果都显示在一个压缩文件中;ImageGP 2.0 更新后,LEfSe会生成一个在线结果报告,用户可直接在线浏览各个部分的结果。目前LEfSe也上线了交互式图的呈现,鼠标悬浮查看对应节点的信息,同时支持收起不关注的分支,更好的定制结果。这种文档式的结果呈现方法不仅有助于对多个步骤和结果进行全面展示,还支持集成到其他生物信息学工具,例如加权基因共表达网络分析(WGCNA)和差异基因/蛋白质表达分析等。
除了数据转换功能外,该版本还引入了10种新的生物信息学分析工具,包括 WGCNA、limma 差异表达分析、多序列比对、FATSA序列反向互补、RNA 翻译、基序(motif)搜索、FASTA 提取、区域的点检测、GXF(GTF,GFF)到BED的转换以及从GXF文件中提取CDS/蛋白质序列。此外,还整合了三个交互式绘图工具 (交互式环形进化树、交互式水平进化树、交互式地图,现在还上线了交互式棒棒糖图)。
例如,WGCNA 分析是一个由八个步骤组合起来的分析过程。经过包装后,用户只需粘贴或上传他们的表达数据并点击提交按钮动分析,即可获得一份详细的结果报告。这个报告包含与分析步骤相对应的八个部分的结果,其中包含具有静态或交互式视觉图、表格、对应的解释,还可以一键下载所有结果(图3B)。此报告格式可以扩展,用于后面开发时把多个工具的结果汇总成整个工作流的结果进行展示。
多序列比对工具可视化是 ImageGP 2.0 的第一个交互式绘图工具,允许用户动态调整布局,而无需在获得第一次结果后重新计算。交互式功能使用户能够将鼠标悬停在绘图元素上以获取详细信息(图 3C)。值得注意的是,圆形系统发育树工具支持基于newick格式输入的系统发育分析,并可增加各种类型的注释(图3D)。系统发育树可以更好展示生物多样性知识、层级分类信息,并从进化角度提出解释。用户可以使用属性矩阵赋予树更多属性信息,比如设置分支和节点颜色、粘贴注释矩阵增加定性和定量信息以增强数据可视化。
(A)通过参数组合生成的多种箱线图布局和样式。(B)WGCNA 代表性结果和结果报告目录。(C)多序列比对结果的交互式可视化展示。(D)增加了多层注释的系统进化树展示。
ImageGP 2.0不要求登录,但注册登录后(免费)可以在个人中心更高效地管理大数据集。例如,当用户直接将大型输入矩阵粘贴到网页矩阵输入框时,可能会导致浏览器卡顿甚至崩溃,从而导致用户体验不佳。为了解决这一问题,用户可以免费注册,在个人中心进行管理。个人中心主要包括两个组件:文件管理和工具记录。注册过程简单且免费。
在文件管理部分,用户可以上传、复制、移动、重命名文件,并组织调整目录结构。上传的文件可在工具页面中选用,并在用户选择文件后展示其前五行的文本内容,以供用户预览。对于每行字符数超过500的超长行,每行只显示前500个字符。如果用户选择的是目录,将显示其中包含的前五个文件/文件夹,让用户能够高效确认自己选择的文件或目录是否正确,又不会因为内容过多而使网页过载。当然,在随后的参数选择和实际分析阶段,使用的是完整的文件内容。
在工具记录部分,已登录的用户可以查看其登录后每个任务的提交时间、执行状态和结果。这些结果或分析参数可直接分享给合作者,合作者也可在这个基础上调整后继续分析。用户可以基于之前的选择调整参数,重新分析任务,保留先前的参数或指定新的参数,并将结果保存到不同的文件夹中,作为现有任务的更新或全新的分析。这一功能增强了用户对多个分析会话的控制和工作流管理能力。
虽然我们在提交前对输入数据进行了详细检查,但因用户自定义参数或特定数据内容(如空值、符号冲突)影响,仍可能发生意外错误。这些情况是所有在线工具的一大挑战,你永远不知道用户会怎么输入、怎么选择。为积极应对此等问题,我们依据丰富经验,实施了严格的数据和参数验证流程。然而,用户仍然可能遇到运行时错误。对于很多用户来说,反馈错误不是一件容易的事情,提供全面的信息以便针对这个运行错误进行调试基本是不可能的。
为了简化错误解决流程,我们在结果页面新增了一个“请求帮助”按钮。此按钮在程序执行出错时出现在结果加载页面,并提示用户直接向我们开发团队提交错误日志。开发人员在收到这些日志后,会立即启动调试程序、优化代码并解决问题。选择留下联系邮箱的用户通常会在1至3天内收到包含相关调试信息和解决方案的回复(如果是已注册用户遇到问题,会直接回复到注册时使用的邮箱中)。
这一功能增强不仅简化了用户的错误报告流程,还通过实际反馈推动了ImageGP 2.0功能和参数的持续优化。因此,ImageGP 2.0通常每2天都会有更新,通过不断迭代更新和功能增强,灵活应对不断变化的数据复杂性和用户需求。
ImageGP 2.0 的重构还在于其背后代码的优化,绘图和分析功能大部分集成到了 R 包 ImageGP中,这对于平台内各种分析和可视化工具的功能至关重要。
ImageGP第一版使用 bash 脚本根据用户输入动态生成 R 脚本,导致脚本中存在重复的代码逻辑。这一实现方式使得代码调试和新功能的加入都变得复杂。此外,不熟悉 bash 脚本的用户在执行这些脚本也比较困难。在ImageGP 2.0 中,我们使用纯 R 代码来处理用户输入和参数验证。功能相似的代码块被模块化为 R 函数,总计 96 个函数,包括 12 个主要的绘图函数。这些函数涵盖数据转换、逻辑检查和属性映射,系统地应用于所有可视化工具和其他操作环境中。因此,应用于单个函数的 bug 修复会自动修复所有涉及此函数的工具,反过来一个工具发现的问题,也会解决其它相关工具,从而提高了效率和维护性。而且通过 ImageGP 2.0 大量的使用反馈,整个代码的可靠性越来越强。
R 包 ImageGP 与 ImageGP 2.0 平台共享参数。每个数据可视化工具都会根据用户输入和参数生成一个 R 脚本。用户可以选择下载这个脚本,在 RStudio 或其他 R 集成开发环境(IDE)中打开,并修改文件路径和输出前缀,就可以在本地直接执行。这种功能带来了几个好处:首先,它允许用户使用具有相同格式的模拟数据在线调整参数、生成可视化结果后,再在本地替换为自己的真实数据生成最终结果,保护的数据的隐私和安全。其次,用户可以直接在本地 R 脚本中引入额外的调节参数,以进行更多定制分析。第三,本地脚本可以通过循环进行批量绘图生成。
ImageGP 是为了增强研究人员的数据可视化能力而开发的在线工具,经过 7 年的长期运行和维护,已被很多用户认可。然而,用户必须认识到对大量数据的可视化是一项复杂的工作,设计不当的可视化方案可能会引入偏见或混淆信息。简单的图表可能无法吸引注意力或展示复杂信息,复杂的可视化可能会让结果更清晰,也有可能曲解了数据的本意。
近年来,数据可视化的需求日益增加,特别是在科学研究中。成功的数据可视化超越了单纯的图形描述,它需要明确的目标来驱动设计。研究人员必须确定他们希望可视化数据的哪些具体方面。这涉及到选择几何元素(例如点、线、柱)、将数据列映射到颜色、形状和大小等美学属性、应用统计变换以及指定绘图的坐标系统等。诸如分面之类的技术使得可以可视化不同的数据子集,这些组件的整合定义了图形输出。
在设计 ImageGP 时,我们的平台会引导用户选择图表类型并配置数据属性,如 X 轴、Y 轴、颜色、大小和形状。这种方法旨在让用户熟悉数据可视化过程,并提高对结果的解释能力。ImageGP 还为用户提供了灵活性参数调整,以试验各种可视化类型,以选择最适合他们需求的可视化类型。
ImageGP 2.0 相比于第一版升级很大,我们也会持续更新,增加更多功能,完善已有功能,改善用户使用体验。目前,我们提供有文本和视频教程以及培训课程,提高工具的可用性。展望未来,我们对 ImageGP 的开发工作将集中在两个主要目标上:首先,将 ImageGP 转变为一个计算平台,简化从命令行工具到在线工具的过渡,从而让更多工具能被大家直接使用。其次,整合单个工具到工作流中,使用户能够直接从原始数据(如 FASTQ 格式的原始序列数据)开始分析,无缝地进行比对、定量和后续的可视化。
代码和数据可用性
ImageGP 2.0 访问链接:https://www.bic.ac.cn/BIC/#/ 。R 包ImageGP访问链接https://github.com/Tong-Chen/ImageGP和https://gitee.com/ct5869/ImageGP 。所有的补充材料(文本、图、表、中文翻译版本或视频)也可从线上获取。
引文格式:
Tong Chen, Yong-Xin Liu, Tao Chen, Mei Yang, Siqing Fan, Minglei Shi, Buqing Wei, Huijiao Lv, Wandi Cao, Chongming Wang, Jianzhou Cui, Jiwen Zhao, Yilai Han, Jiao Xi, Ziqiang Zheng, Luqi Huang. 2024. "ImageGP 2 for enhanced data visualization and reproducible analysis in biomedical research." iMeta 3: e239. https://doi.org/10.1002/imt2.239
● 中国中医科学院副研究员,道地药材品质保障与资源持续利用全国重点实验室青年 PI,iMeta期刊执行主编,生信宝典公众号创始人。
● 主要研究方向是中药资源大数据+人工智能驱动的高质量中药材的鉴定、遗传改造、生态重塑、异源合成和中药新资源的发现等,在Cell Stem Cell (封面文章),Nucleic Acids Research,Nature communications, Protein & Cell, iMeta等高水平杂志以第一或通讯作者发表文章十余篇,累积引用 3000 +次;开发在线绘图和分析平台 ImageGP、BIC、EVenn、植物整合基因组平台IMP (获中华中医药学会 2023 年年度十大学术进展之一),使用超 70 万人次;运营有十五万人关注的微信公众号《生信宝典》,分享有1400 多篇生物信息分析原创文章、教程和视频,阅读播放千万次。联合创办iMeta期刊,现为执行主编,致力于打造微生物和生物信息领域的国产高水平综合性杂志。
● 中国农科院基因组所研究员,微生物组与营养健康团队首席,iMeta执行主编,宏基因组公众号创始人。
● 聚焦微生物组方法开发、功能挖掘和科学传播,在Nature Biotechnology、Nature Microbiology等发表论文80余篇,被引21000余次,连续入选2022/2023年度全球前2%顶尖科学家。开发了培养组(Nature Protocols, 2021)、扩增子(iMeta, 2023)、宏基因组等分析流程(Protein Cell, 2021; GPB, 2022),数据可视化平台和网络分析R包(iMeta, 2022a/b),为本领域提供了系统的分析环境。发现了宿主基因介导根系菌群参与氮利用(NBT, 2019)和挖掘抗赤霉病的生防菌(NM, 2022),推动了菌群在植物营养与健康研究中的发展。主持国自然青年/面上/区域联合子课题、中科院、农科院、深圳市等项目。兼任中国微生物学会微生物组专委会、中国生物信息学会计算合成生物学专委会委员。创办宏基因组公众号,17万+同行关注,累计阅读量超6千万。主编《微生物组实验手册》专著,由300多位同行共同编写且长期更新的百科全书。发起iMeta期刊,影响因子23.7,位列微生物学科研究类期刊全球排名第一,填补亚太地区本领域高水平期刊空白,助力华人主导的国际学术话语权体系建立。兼职为Nature Communications、Nucleic Acids Research、Microbiome等90种期刊审稿260次。
● 天津中医药大学,中药学在读博士生。
● 目前研究方向为中药基因组,转录组等数据分析和多组学工具开发。以第一作者或共同第一作者在iMeta,Nucleic Acids Research,Frontiers in Plant Science,Phytochemical Analysis等期刊发表论文5篇,副主编著作1部,参编著作1部。
● 江西省、中国科学院庐山植物园,硕士。
● 主要研究方向为药用植物功能基因的挖掘与鉴定,运用多组学技术,深入解析药用植物关键经济性状形成的调控分子机制。已发表学术论文6篇,其中SCI收录4篇,CSCD 1篇,中国科技核心期刊 1 篇;生物信息软件专利授权 2 项,发明专利授权 1 项。
● 南京医科大学临床医学本科,伦敦国王学院公共卫生专业硕士,博士已录取。
● 从事公共卫生统计学方向研究,发表一篇Meta分析(IF 5.7)。目前主要研究方向为利用统计模型分析脑卒中治疗、中风康复等领域。
● 中国农业科学院资源区划所(北方干旱半干旱耕地高效利用全国重点实验室)在读硕士。
● 目前主要通过定量稳定性同位素探针技术 (qSIP),微生物组,宏代谢组学,宏基因组学等技术进行黑土地保护利用,土壤健康评价,土壤碳氮循环等方面的研究。曾获得华中农业大学“三好学生”和中国农业科学院“研究生一等奖学金”等奖励。相关学术成果已发表于iMeta,Environmental science & technology等期刊。
● 华中农业大学资源与环境学院,农业农村部长江中下游耕地保育重点实验室,华中农业大学微量元素研究中心,武汉,430070 华中农业大学资源与环境学院在读博士。
● 目前从事植物营养生理方面研究。曾获得华中农业大学“三好学生”和企业奖学金等奖励。相关学术成果已发表于iMeta,The plant Journal等期刊。
● 新加坡国立大学杨潞龄医学院免疫转化研究计划高级研究员(SRF),生物信息学中心主管,硕士生导师。
● 担任: iMeta,Research,Protein & cells,Pharmacological Research,iScience等期刊编委或审稿人,曾入选日本学术振兴会(JSPS)特别研究员。主要从事肿瘤免疫和临床医学多组学的生物信息分析工作。利用单细胞测序,空间转录组以及微生物代谢组等分析方法,结合机器学习及人工智能揭示应激压力以及自噬对肿瘤的作用。在iMeta, Pharmacological Research、Theranostics、Biochim Biophys Acta等国际学术期刊发表SCI收录论文40余篇。
● 西北农林科技大学农学院作物遗传育种硕士研究生。
● 主要学习小麦抗病遗传分析与多组学等相关内容,对生物信息数据分析和可视化具有浓厚兴趣,公众号“生信分析笔记”作者,研究生期间个人累计分享生物信息学习笔记172篇,累计阅读量超过40万次。利用容器技术搭建交互式在线分析工具,使用弹性云计算技术提高生信分析效率,开发便捷实用性科研分析工具。
● 武汉轻工大学专任教师,从事农作物与食品病原群体基因组与群体进化、微生物资源挖掘与利用、病虫害生物防控及生物材料等方面研究。
● 获华中农业大学微生物学博士学位,并从事博士后(植物保护)研究。江苏省常州市“龙城英才计划”领军人才,湖北省及武汉市科技特派员,湖北省“第十三批博士服务团”成员,全国大学生生命科学竞赛和全国本科毕业论文评审专家,iMeta(IF=23.7)及iMetaomics(IF预计>10)青年编委和审稿人,参编教材《微生物病毒学》(教育部战略性新兴领域“十四五”高等教育教材),在iMeta及ISME J等期刊发表学术论文11篇,其中第一作者和通讯作者学术论文6篇,主持和参与国家和省部级项目10余项,授权专利1项。指导学生获全国大学生生命科学竞赛国家及省级奖3次。
● 中共党员,中国工程院院士。现任国家中医药管理局副局长、党组成员,中国中医科学院院长。
● 任中国科协第十届全国委员会副主席,国家监察委员会第一届特约监察员,第十五届、十六届北京市人民代表大会代表。政协第十三届全国委员会常务委员。荣获全国优秀共产党员称号。从事中药资源学与分子生药学研究。提出和发展了“分子生药学”学科,揭示和阐明了道地药材形成理论,建立珍稀濒危常用中药资源五种保护模式,组织实施第四次全国中药资源普查,摸清我国中药资源本底。获国家科学技术进步二等奖5项、全国创新争先奖章、国家杰出青年科学基金资助、中国标准创新突出贡献奖、全国优秀博士学位论文指导教师等荣誉。主持研发我国首个具有完全自主知识产权的治疗新冠肺炎的中药新药,荣获全国抗击新冠肺炎疫情先进个人称号。以第一作者或通讯作者发表论文580余篇,包括BMJ,NAT COMMUN,PNAS,JACS等SCI论文300余篇。
“iMeta” 是由威立、肠菌分会和本领域数百千华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述,重点关注微生物组、生物信息、大数据和多组学等。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行!发行后相继被Google Scholar、ESCI、PubMed、DOAJ、Scopus等数据库收录!2024年6月获得首个影响因子23.7,位列全球SCI期刊前千分之五(107/21848),微生物学科2/161,仅低于Nature Reviews,同学科研究类期刊全球第一,中国大陆11/514!
“iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任,是定位IF>10的高水平综合期刊,欢迎投稿!
iMeta主页:
http://www.imeta.science
姊妹刊iMetaOmics主页:
http://www.imeta.science/imetaomics/
出版社iMeta主页:
https://onlinelibrary.wiley.com/journal/2770596x
出版社iMetaOmics主页:
https://onlinelibrary.wiley.com/journal/29969514
iMeta投稿:
https://wiley.atyponrex.com/journal/IMT2
iMetaOmics投稿:
https://wiley.atyponrex.com/journal/IMO2
邮箱:
[email protected]