基因集评分模块
用途
本模块基于AUCell、GSVA、IOBR等R包,对自定义基因集在bulk RNA-Seq数据的表达矩阵中的活性进行多种方法打分,并可视化分组热图
支持的基因集评分算法
ssGSEA: 基于基因表达排序的累积分布计算富集分数,支持单样本分析
GSVA: 核密度估计基因表达分布,输出标准化富集分数
PCA: 基因表达标准化后主成分分析,取第一主成分得分
Z-score: 计算基因集内基因的Z-score均值
AUCell: 基于基因表达排名,计算基因集在前5%高表达基因的曲线下面积(AUC)
输入文件示例
expression
表达矩阵文件:每行一个基因名,每列一个样本名,数值为对应的表达量,tab分割
GENE1
1.234
2.345
3.456
GENE2
4.567
5.678
6.789
clinical
临床信息文件:每行一个样本名,每列一个临床特征,tab分割
Sample1
Tumor
45
Male
Sample2
Normal
50
Female
Sample3
Tumor
55
Male
gene_set
基因集合文件:表头为基因集合名称,每行一个基因名
CD8A
CD8B
GZMA
GZMB
运行方式
SDAS bulkValidate geneSetScore --expression fpkm.txt --gene_set geneset.txt --clinical clinical.txt --group_col tissue_type.samples --group_type discrete --output result_dir
输入参数说明
--expression
是
表达矩阵文件路径。制表符分隔,行:基因ID,列:样本ID,值为FPKM/TPM等,不可为原始counts,不可log
--clinical
是
临床信息文件路径。制表符分隔,行:样本ID,列:临床特征
--group_col
是
分组列名(需在临床信息文件中存在)
--gene_set
是
自定义基因集文件路径。第一行为基因集名称(如test_geneset)后续每行一个基因名
--output
是
输出目录路径
--group_type
否
discrete
分组类型:discrete/continuous,默认discrete
--group_type
分组类型说明离散分组 (discrete):直接使用临床信息中的分类变量进行分组,例如:Tumor vs Normal, Stage I vs Stage II vs Stage III
连续分组 (continuous):将连续变量按分位数分为三组:Low, Medium, High
分位数:0%, 30%, 70%, 100%
输出结果展示
genescore_combine.txt
所有打分方法的合并结果
geneset_score_heatmap.png/pdf
不同打分方法分组热图
基因集评分结果表:
genescore_combine.txt
每行一个样本,每列为不同打分方法的结果。
Sample1
0.123
0.456
9.065
9.065
9.065
Sample2
0.234
0.567
0.0677
0.0677
0.0677
基因集打分热图:
geneset_score_heatmap.png/pdf
展示所有样本指定基因集的表达分数。

结果解读说明
基因集评分结果表:
genescore_combine.txt
若使用TCGA bulk转录组,优先选择GSVA或ssGSEA进行解读,这两种方法结果稳健,可支持复杂通路
若需保留基因相关性,优先选择PCA进行解读
若想快速分析,优先选择Z-score进行解读
Last updated