# 基因集评分模块

## 用途

本模块基于AUCell、GSVA、IOBR等R包，对自定义基因集在bulk RNA-Seq数据的表达矩阵中的活性进行多种方法打分，并可视化分组热图

支持的基因集评分算法

* **ssGSEA**: 基于基因表达排序的累积分布计算富集分数，支持单样本分析
* **GSVA**: 核密度估计基因表达分布，输出标准化富集分数
* **PCA**: 基因表达标准化后主成分分析，取第一主成分得分
* **Z-score**: 计算基因集内基因的Z-score均值
* **AUCell**: 基于基因表达排名，计算基因集在前5%高表达基因的曲线下面积（AUC）

## 输入文件示例

* `expression`表达矩阵文件：每行一个基因名，每列一个样本名，数值为对应的表达量，tab分割

| GeneID | Sample1 | Sample2 | Sample3 |
| ------ | ------- | ------- | ------- |
| GENE1  | 1.234   | 2.345   | 3.456   |
| GENE2  | 4.567   | 5.678   | 6.789   |

* `clinical`临床信息文件：每行一个样本名，每列一个临床特征，tab分割

| SampleID | tissue\_type.samples | age | gender |
| -------- | -------------------- | --- | ------ |
| Sample1  | Tumor                | 45  | Male   |
| Sample2  | Normal               | 50  | Female |
| Sample3  | Tumor                | 55  | Male   |

* `gene_set`基因集合文件：表头为基因集合名称，每行一个基因名

<table><thead><tr><th width="137.818115234375">test_geneset</th></tr></thead><tbody><tr><td>CD8A</td></tr><tr><td>CD8B</td></tr><tr><td>GZMA</td></tr><tr><td>GZMB</td></tr></tbody></table>

## 运行方式

```bash
SDAS bulkValidate geneSetScore --expression fpkm.txt --gene_set geneset.txt --clinical clinical.txt --group_col tissue_type.samples --group_type discrete --output result_dir
```

## 输入参数说明

| 参数               | 是否必需  | 默认值      | 描述                                                         |
| ---------------- | ----- | -------- | ---------------------------------------------------------- |
| **--expression** | **是** |          | 表达矩阵文件路径。制表符分隔，行：基因ID，列：样本ID，值为FPKM/TPM等，不可为原始counts，不可log |
| **--clinical**   | **是** |          | 临床信息文件路径。制表符分隔，行：样本ID，列：临床特征                               |
| **--group\_col** | **是** |          | 分组列名（需在临床信息文件中存在）                                          |
| **--gene\_set**  | **是** |          | 自定义基因集文件路径。第一行为基因集名称（如test\_geneset）后续每行一个基因名              |
| **--output**     | **是** |          | 输出目录路径                                                     |
| --group\_type    | 否     | discrete | 分组类型：discrete/continuous，默认discrete                        |

* `--group_type` **分组类型说明**
  * 离散分组 (discrete)：直接使用临床信息中的分类变量进行分组，例如：Tumor vs Normal, Stage I vs Stage II vs Stage III
  * 连续分组 (continuous)：将连续变量按分位数分为三组：Low, Medium, High

    分位数：0%, 30%, 70%, 100%

## 输出结果展示

| 结果文件                            | 描述          |
| ------------------------------- | ----------- |
| `genescore_combine.txt`         | 所有打分方法的合并结果 |
| `geneset_score_heatmap.png/pdf` | 不同打分方法分组热图  |

* **基因集评分结果表：**`genescore_combine.txt` 每行一个样本，每列为不同打分方法的结果。

| SampleID | test\_geneset\_AUCell | test\_geneset\_GSVA | test\_geneset\_zscore | test\_geneset\_ssGSEA | test\_geneset\_PCA |
| -------- | --------------------- | ------------------- | --------------------- | --------------------- | ------------------ |
| Sample1  | 0.123                 | 0.456               | 9.065                 | 9.065                 | 9.065              |
| Sample2  | 0.234                 | 0.567               | 0.0677                | 0.0677                | 0.0677             |

* **基因集打分热图：**`geneset_score_heatmap.png/pdf` 展示所有样本指定基因集的表达分数。

<figure><img src="https://2512275466-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FaaKaKxoqTIFT7FAUUQFl%2Fuploads%2FZ6aqNXlH3bbUYv29UtZM%2Fp5.png?alt=media&#x26;token=47731249-d18a-48d7-a53f-c879dad6523a" alt="" width="563"><figcaption></figcaption></figure>

## 结果解读说明

* **基因集评分结果表：**`genescore_combine.txt`
  * ​若使用TCGA bulk转录组​，优先选择GSVA或ssGSEA​进行解读，这两种方法结果稳健，可支持复杂通路
  * 若​需保留基因相关性​，优先选择PCA​进行解读
  * 若想​快速分析​，优先选择Z-score​进行解读
