基因集评分模块

用途

本模块基于AUCell、GSVA、IOBR等R包,对自定义基因集在bulk RNA-Seq数据的表达矩阵中的活性进行多种方法打分,并可视化分组热图

支持的基因集评分算法

  • ssGSEA: 基于基因表达排序的累积分布计算富集分数,支持单样本分析

  • GSVA: 核密度估计基因表达分布,输出标准化富集分数

  • PCA: 基因表达标准化后主成分分析,取第一主成分得分

  • Z-score: 计算基因集内基因的Z-score均值

  • AUCell: 基于基因表达排名,计算基因集在前5%高表达基因的曲线下面积(AUC)

输入文件示例

  • expression表达矩阵文件:每行一个基因名,每列一个样本名,数值为对应的表达量,tab分割

GeneID
Sample1
Sample2
Sample3

GENE1

1.234

2.345

3.456

GENE2

4.567

5.678

6.789

  • clinical临床信息文件:每行一个样本名,每列一个临床特征,tab分割

SampleID
tissue_type.samples
age
gender

Sample1

Tumor

45

Male

Sample2

Normal

50

Female

Sample3

Tumor

55

Male

  • gene_set基因集合文件:表头为基因集合名称,每行一个基因名

test_geneset

CD8A

CD8B

GZMA

GZMB

运行方式

SDAS bulkValidate geneSetScore --expression fpkm.txt --gene_set geneset.txt --clinical clinical.txt --group_col tissue_type.samples --group_type discrete --output result_dir

输入参数说明

参数
是否必需
默认值
描述

--expression

表达矩阵文件路径。制表符分隔,行:基因ID,列:样本ID,值为FPKM/TPM等,不可为原始counts,不可log

--clinical

临床信息文件路径。制表符分隔,行:样本ID,列:临床特征

--group_col

分组列名(需在临床信息文件中存在)

--gene_set

自定义基因集文件路径。第一行为基因集名称(如test_geneset)后续每行一个基因名

--output

输出目录路径

--group_type

discrete

分组类型:discrete/continuous,默认discrete

  • --group_type 分组类型说明

    • 离散分组 (discrete):直接使用临床信息中的分类变量进行分组,例如:Tumor vs Normal, Stage I vs Stage II vs Stage III

    • 连续分组 (continuous):将连续变量按分位数分为三组:Low, Medium, High

      分位数:0%, 30%, 70%, 100%

输出结果展示

结果文件
描述

genescore_combine.txt

所有打分方法的合并结果

geneset_score_heatmap.png/pdf

不同打分方法分组热图

  • 基因集评分结果表:genescore_combine.txt 每行一个样本,每列为不同打分方法的结果。

SampleID
test_geneset_AUCell
test_geneset_GSVA
test_geneset_zscore
test_geneset_ssGSEA
test_geneset_PCA

Sample1

0.123

0.456

9.065

9.065

9.065

Sample2

0.234

0.567

0.0677

0.0677

0.0677

  • 基因集打分热图:geneset_score_heatmap.png/pdf 展示所有样本指定基因集的表达分数。

结果解读说明

  • 基因集评分结果表:genescore_combine.txt

    • ​若使用TCGA bulk转录组​,优先选择GSVA或ssGSEA​进行解读,这两种方法结果稳健,可支持复杂通路

    • 若​需保留基因相关性​,优先选择PCA​进行解读

    • 若想​快速分析​,优先选择Z-score​进行解读

Last updated