2025-06-12
宏基因组学研究可分为环境宏基因组学和医学宏基因组学两大方向。本文聚焦宏基因组学数据分析,精选了该领域最常用的几种可视化图表,从以下三个维度进行系统解析:分别是图表介绍、分析设置、图表调整。通过这种方式,帮助老师们,准确解读宏基因组数据可视化结果,提升研究论文的图表呈现质量。
一、高级热图
通过聚类热图展示不同样本中物种 / 功能丰度变化,颜色深浅反映了物种/功能丰度高低。此外进行层次聚类,将更相似的微生物 / 功能或分组聚到一起。能够直观地展示微生物 / 功能在不同样本中的趋势变化以及它们之间的聚类关系。
热图设置行 / 列聚类
行分块算法:Z_Score、Mean_Centering、Pareto_Scaling、None
行分块算法:C-Means、K-Means、Cutree
行 / 列聚类算法:提供8种算法分别是Ward.D、Ward.D2、Single、Complete、Average等
行 / 列距离算法:提供6种算法分别是Euclidean、Maximum、Manhattan、Canberra等
行 / 列分块数:自定义数目
微生物数据物种 / 功能
物种分类水平、物种未注释处理、功能数据库、功能水平

二、Alpha多样性指数
alpha多样性是指局部均匀生境下的物种在丰富度(richness)、多样性(diversity)和均匀度(evenness)等方面的指标,也被称为生境内多样性(within-habitat diversity)。
指数选择
Chao1;Good's_coverage;Simpson;Pielou_e;等
分析方法
分组数为2:Student's t-test;Welch's t-test等
分组数≥3:Kruskal-Wallis test;ANOVA
图表类型
普通箱线图、散点箱线图、提琴箱线图、蜂群箱线图、柱状图
我们把静态的Alpha多样性指数图表,研发升级成交互式图表。对于图表调整部分,能帮助老师们快速得到绘图结果。
三、富集分析分面气泡图
气泡图:可以按照KEGG L1功能水平进行分面展示。气泡大小为富集到这条通路的差异基因个数。X轴可选Z_Score/RichFactor。默认Z_Score,表示上调(logFC>0)基因数和下调基因数的差与注释到通路的基因数平方根的商。RichFactor表示差异表达基因的数量与注释到该通路的所有基因数量的比值。Y轴为-log(adjPvalue/Pvalue)
富集分析设置
多重检验校正:Holm、Hochberg、Hommel、Bonferroni等
P值选择:Pvalue、adjPvalue
展示变化类型:上调、下调、全部
图表设置
图表宽高:自定义百分比
图表展示方式:常规气泡图、分面气泡图
展示面板:根据图表展示面板、可拖动调换面板顺序、可勾选面板进行展示
四、网络分析Hub节点散点图
Hub节点散点图是网络分析中用于识别关键节点(Hub)的一种可视化方法。它通常结合多个中心性指标(如度中心性、介数中心性、接近中心性等)来展示节点在网络中的重要性,帮助研究者快速发现网络中的核心节点、桥梁节点或异常节点。
网络设置
是否边剔除、自定义边剔除阈值、是否删除独立节点
hubs节点设置
Degree、Betweenness、Closeness等
图表设置
自定义图表宽高、图表颜色、图表添加虚线以及文字
典型Hub节点散点图示例:
Module Hubs(模块枢纽):在某个模块(社区)内部高度连接的节点,但在整个网络中的全局影响力较低。
Network Hubs(网络枢纽):在整个网络中具有全局影响力的关键节点,通常连接多个模块。
Connectors(连接器 / 桥梁节点):连接不同模块的节点,但不一定是高度连接的 Hub。
Peripherals(边缘节点):连接度低,通常位于网络的边缘,对信息流动影响较小。

五、高级饼图
圈图从内到外依次代表域、门、纲、目、科、属,种七个分类水平(或其他指定分类水平),扇形的大小反映了不同分类单元的相对丰度高低,并给出具体数值。在每个分类水平,各分类单元以不同的颜色加以区分。
物种分类水平
Domain、Phylum、Class、Order、Family、Genus、Species
物种未注释处理
删除未注释、合并未注释、合并入Others、不处理
功能数据库
KEGG、GO、ARDB、BacMet、MCyc等
功能水平
L3、L2、L1等

六、RDA / CCA分析
在RDA / CCA分析结果图中:点代表不同的样本,箭头代表不同的环境因子。
样本点:
样本点的不同颜色表示属于不同分组,两点之间的距离越接近,说明两个样本的菌群组成/功能相似度越高。
样本点到环境因子箭头及其延长线的垂直距离表示环境因子对样本的影响强度,样本点与箭头距离越近,该环境因子对样本的作用越强。
样本点位于箭头同方向,表示环境因子与样本物种群落的变化正相关,样本位于箭头的反方向,表示环境因子与样本物种群落的变化负相关。
箭头:箭头的长度代表该环境因子对于物种组成的影响程度(解释量)的大小,箭头的长度越长,表示环境因子的影响越大。环境因子射线间的夹角代表环境因子间的正、负相关性(锐角:正相关;钝角:负相关;直角:无相关性)。
分析方式
RDA、CCA、dbRDA
得分缩放
None、Sites、Species、Symmetric
椭圆置信度
0.95、0.9、0.8、0.7

七、桑基图
桑基图展示数据的“流动”变化,分支的宽度表示流量的大小,应用于不同层级物种丰度数据的可视化。桑基图由于每个流向的数据不一样,桑基图中的流线也宽窄不一,边的宽度与丰度成比例的显示,边越宽,丰度数值越大。
丰度单位
Reads_Count、TPM、PPM、RPKM
未注释处理
删除所有水平、删除最低水平、不处理
分类水平
Phylum、Class、Order、Family等
图表设置
样本 / 节点颜色设置

百度搜索“派森诺基因云”,或直接访问官方网站https://www.genescloud.cn/home,点击进入“云分析”,通过输入“ 宏基因”关键词,开启您的个性化体验之旅。温馨提示:平台现已正式接入DeepSeek-R1满血版,您可以根据需求切换不同模型进行体验。在绘图过程中,如果遇到常见问题,建议先使用PAI绘图小助手进行自助解决;若有个性化需求或遇到无法解决的问题,欢迎通过【工单中心】与平台联系,提出您的需求或建议。派森诺基因云始终秉持“持续创新,不断升级”的理念,未来将推出更多精美的可视化图表与实用的分析工具,期待您的使用与反馈!
