GSVA算法

用途与运行方式

  • 场景一:指定具体对象进行gsva分析,例如指定leiden聚类中的1、2、3这几个cluster进行gsva分析

    SDAS geneSetEnrichment gsva-i st.h5ad -o outdir \
    --group_key leiden --idents 1,2,3 --species human
  • 场景二:对obs的某列做子集后再进行gsva分析,例如只对某种细胞类型的不同样本进行gsva分析

    SDAS geneSetEnrichment gsva-i st.h5ad -o outdir \
    --group_key leiden --idents 1,2,3 --species human \
    --subset_key cell_type --subset_values B
  • 场景三:只用感兴趣的数据库进行分析

    SDAS geneSetEnrichment gsva-i st.h5ad -o outdir \
    --group_key leiden --idents 1,2,3 \
    --gmt sdas_deg_enrichment/lib/GSEADB/h.all.v2024.1.Hs.symbols.gmt,sdas_deg_enrichment/lib/GSEADB/KEGG_2021_Human.gmt
  • 场景四:对obs中某列的所有元素一起进行gsva分析,要将某列中的所有元素放到一起进行gsva分析,此时--idents参数应该写为特定字符all

    SDAS geneSetEnrichment gsva-i st.h5ad -o outdir \
    --group_key leiden --idents all --species human \

输入参数说明

gsva参数
是否必须
默认值
描述

-i / --input

Stereo-seq h5ad,要求原始矩阵

--group_key

需要进行gsva分析的对象所在的obs名称

--idents

需要用于进行gsva分析的对象,用','分隔多个对象

-o / --output

结果存放路径

--subset_key

需要提取的信息所属的obs名称

--subset_values

需要提取的信息,存在多个时用','分隔

--layer

指定表达矩阵,不指定时使用adata.raw.X或adata.X

--gene_symbol_key

real_gene_name

指定gene name所在列,默认real_gene_name,如果没有则使用矩阵中的原始基因信息

--species

human

指定数据库,'human' 或 'mouse',默认 'human',当指定--gmt参数时,该参数不起作用

--sample_size

0

对输入文件的bin数量进行随机取样以减小内存消耗,默认值为0,不做采样

--gmt

gmt格式的数据库文件,其中gene name信息必须为大写,多个文件时用','隔开

--kernel_cdf

Gaussian

基于原始表达矩阵时选'Poisson',其他选'Gaussian'

-v / --verbose

启用详细模式,打印任务进度。默认:False

--mx_diff

设置时,富集分数(ES)将计算为随机游走的最大偏离距离。默认:False

--abs_ranking

仅当未设置--mx_diff时生效,使用原始的Kuiper统计量计算方法。默认:False

--min_size

15

基因集中包含的输入基因最小数量。默认:15

--max_size

20000

基因集中包含的输入基因最大数量。默认:20000

--weight

1

定义GSVA随机游走中的τ(tau)参数。默认:1

--seed

123

随机数种子值。默认:123

--threads

1

并行计算使用的进程数。默认:1

输出结果展示

gsva结果文件
描述

GSVA.{database}.csv

csv格式的结果文件

GSVA.{database}.pdf/png

pdf和png格式的图像文件

  • GSVA csv文件格式: GSVA.{database}.csv ,这个文件是gsva分析结果文件,第一列是Term表示功能名称,后面每一列表示一个样本,数值为正表示该样本在对应的功能上活性较高,数值为负表示活性较低。

Term
ident1
ident2
...

HALLMARK_ADIPOGENESIS

-0.32809425650271146

-0.306805475112318

....

HALLMARK_ALLOGRAFT_REJECTION

-0.3052190348950549

0.22055475913564931

....

HALLMARK_ANDROGEN_RESPONSE

-0.39290236695613107

-0.3080397441881526

....

...

...

...

...

  • gsva分析结果热图: GSVA.{database}.pdf/png,图中纵列表示功能通路名称横列表示样本名称,图例表示gsva计算的得分。

Last updated