# hdWGCNA算法

## 用途

使用hdWGCNA 算法进行空间基因共表达基因集识别

## 运行方式

```bash
SDAS coexpress hdwgcna -i st.h5ad -o outdir --bin_size 100 \
--input_layer raw_counts \
--selected_genes top5000  \
--moran_path ./moran.csv \
--n_cpus 8 \
--seed 42 \
--knn_neighbors 50  \
--max_shared_cells 15 \
--soft_power 8
```

## 输入参数说明

| 参数                   | 是否必须  | 默认值     | 描述                                             |
| -------------------- | ----- | ------- | ---------------------------------------------- |
| **-i / --input**     | **是** |         | Stereo-seq h5ad，要求有原始表达矩阵                      |
| **-o / --output**    | **是** |         | 输出文件夹                                          |
| **--bin\_size**      | **是** | 50      | 分辨率Bin大小（20, 50, 100, 200, cellbin），与输入h5ad一致  |
| --layer              | 否     |         | 指定h5ad中原始表达矩阵的layer层 （例如layers\[‘raw\_counts’] |
| --selected\_genes    | 否     | top5000 | 基因列表（topn高变基因, full全部基因）                       |
| --moran\_path        | 否     |         | 已计算好的基因莫兰指数列表路径                                |
| --n\_cpus            | 否     | 8       | 并行计算进程数                                        |
| --seed               | 否     | 42      | 随机种子                                           |
| --knn\_neighbors     | 否     | 50      | 合并细胞时KNN算法覆盖的邻域spot/细胞个数（k neighbor）           |
| --max\_shared\_cells | 否     | 15      | 合并细胞时KNN算法覆盖的最多交集spot/细胞个数                     |
| --soft\_power        | 否     |         | 网络构建时使用，默认自动选择无标度拓扑模型拟合度达到 0.8 的最低 soft\_power |

## 输出结果展示

| 结果文件                                               | 描述                                                        |
| -------------------------------------------------- | --------------------------------------------------------- |
| `<input_name>_hdwgcna.module.csv`                  | 空间高变基因（gene symbol+gene id）对应的共表达基因集（module）的共表达基因集的结果csv |
| `<input_name>_hdwgcna.module_score.csv`            | 共表达基因集的基因集打分结果csv                                         |
| `<input_name>_hdwgcna.coexpress.rds`               | 含有共表达基因集结果的rds文件                                          |
| `<input_name>_hdwgcna.module_score.png/pdf`        | 共表达基因集的基因集打分空间热图                                          |
| `<input_name>_hdwgcna.all_coex_dendrogram.png/pdf` | 共表达基因集的相似性树状图                                             |
| `<input_name>_hdwgcna.softpowers.png/pdf`          | 构建网络的soft\_power阈值图                                       |
| `<input_name>_hdwgcna.moran.csv`                   | 如果使用topn计算，输出全部基因的莫兰指数以及P值                                |

* **共表达基因集的结果csv**：`<input_name>_hdwgcna.module.csv`，以逗号分隔。hdWGCNA输出结果展示识别的空间高变基因对应的共表达基因集（module），kME表示某个基因的表达模式与所在模块的​​模块特征基因（Module Eigengene, ME）​​之间的相关性强度，kME值越接近1或-1，表明该基因越可能是枢纽基因（hub gene）

| real\_gene\_name | geneid          | Module  | color  | kME\_Module1       | kME\_Module2       | kME\_grey          | kME\_Module3        | kME\_Module4       | kME\_Module5        | kME\_Module6         | kME\_Module7       | kME\_Module8        | kME\_Module9        |
| ---------------- | --------------- | ------- | ------ | ------------------ | ------------------ | ------------------ | ------------------- | ------------------ | ------------------- | -------------------- | ------------------ | ------------------- | ------------------- |
| A2M              | ENSG00000175899 | Module1 | green  | 0.47946868988301   | -0.107096403482606 | -0.178114022165641 | 0.0676792398874597  | 0.095966109797419  | -0.0907050325056857 | -0.0529390531160642  | -0.150612945887371 | 0.0878907827651177  | 0.0249952108382643  |
| A2M-AS1          | ENSG00000237094 | Module1 | green  | 0.54370397007705   | -0.150011910577089 | -0.254597937099371 | 0.0926882061841318  | 0.140032173496191  | -0.115227951266487  | -0.101675353602963   | -0.222107282189061 | 0.0803636102659976  | 0.0426306888623326  |
| A2ML1            | ENSG00000166535 | Module2 | yellow | 0.0404144692736028 | 0.479908573141937  | 0.194701680726881  | -0.327610748128114  | 0.0430624759042059 | 0.429681007497005   | -0.342984504779987   | 0.145625804577339  | -0.386999928188458  | 0.08281144751312791 |
| A2MP1            | ENSG00000256069 | grey    | grey   | -0.046660656715667 | 0.20294339804614   | 0.284819067476003  | -0.0506850476403686 | -0.205976941174478 | 0.244779685854094   | 0.000250607520833238 | 0.170101997387916  | -0.0177549796818324 | 0.0639042087827032  |

* **共表达基因集的基因集打分结果csv**：`<input_name>_hdwgcna.module_score.csv`，以逗号分隔。hdWGCNA输出结果展示识别的每个共表达基因集（module）的表达量打分的高低

|             | Module6           | Module3           | Module8            | Module2           | grey              | Module7            | Module5           | Module9           | Module1            | Module4          |
| ----------- | ----------------- | ----------------- | ------------------ | ----------------- | ----------------- | ------------------ | ----------------- | ----------------- | ------------------ | ---------------- |
| 2200\_16100 | -3.23688863476392 | -4.34756288337066 | -2.3278151796256   | -8.21694142422341 | -14.8112682710791 | -9.12253218247156  | -10.174563894144  | -3.09447240000024 | 0.481660736850741  | 3.91787079378259 |
| 2200\_17200 | 5.77873502485046  | 0.783016254503074 | 1.06582091429724   | -6.03050203635639 | -3.71256039305597 | -0.825856084852031 | -3.67468239887104 | -2.09159016878048 | -2.639251117267012 | 5.41583186417414 |
| 2300\_16700 | 7.90521666109811  | 2.93759207152763  | -0.391450035802177 | -3.02639637030598 | 1.63013439679168  | 1.66371621513915   | -1.51360146647437 | -0.8975499248414  | -4.66703690157902  | 1.40723191567521 |

* **共表达基因集的基因集打分空间热图**`<input_name>_hdwgcna.module_score.png/pdf`：可视化所有共表达基因集（Module）的空间分布模式。图中颜色强度表示共表达基因集表达量的高低

<figure><img src="https://2512275466-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FaaKaKxoqTIFT7FAUUQFl%2Fuploads%2FezeqMyJfo9RO0JQobHCH%2F%E5%85%B1%E8%A1%A8%E8%BE%BE%E5%9F%BA%E5%9B%A0%E9%9B%86%E7%9A%84%E5%9F%BA%E5%9B%A0%E9%9B%86%E6%89%93%E5%88%86%E7%A9%BA%E9%97%B4%E7%83%AD%E5%9B%BE.png?alt=media&#x26;token=08df19ab-cce9-4cef-9653-77a17b1e3d4b" alt="" width="375"><figcaption></figcaption></figure>

* **构建网络的soft\_power阈值图**`<input_name>_hdwgcna.softpowers.png/pdf`：分析不同软阈值参数的网络构建效果，默认自动选择无标度拓扑模型拟合度达到 0.8 的最低 soft\_power

<figure><img src="https://2512275466-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FaaKaKxoqTIFT7FAUUQFl%2Fuploads%2FI49H8W2vFlNQFtDtkkSl%2F%E6%9E%84%E5%BB%BA%E7%BD%91%E7%BB%9C%E7%9A%84soft_power%E9%98%88%E5%80%BC%E5%9B%BE.png?alt=media&#x26;token=d85bace6-2bb1-4303-a252-560e026c0f02" alt="" width="375"><figcaption></figcaption></figure>

* **共表达基因集的相似性树状图**`<input_name>_hdwgcna.all_coex_dendrogram.png/pdf`：展示不同共表达基因集（Module）之间的相似性聚类树状图

<figure><img src="https://2512275466-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FaaKaKxoqTIFT7FAUUQFl%2Fuploads%2FpmasuUPBX0kbJ8WBYbjB%2F%E5%85%B1%E8%A1%A8%E8%BE%BE%E5%9F%BA%E5%9B%A0%E9%9B%86%E7%9A%84%E7%9B%B8%E4%BC%BC%E6%80%A7%E6%A0%91%E7%8A%B6%E5%9B%BE.png?alt=media&#x26;token=1c11d1f5-fa61-498d-85d7-078cd19a5d05" alt="" width="375"><figcaption></figcaption></figure>

## 结果解读说明

* 共表达基因集从Module1开始，grey为不符合共表达基因集聚类要求的基因。

## 调参建议

* 若样本bin20/50基因数低于200，或其他特殊样本，识别的空间共表达基因集较少，可根据`soft_power`测试图调低阈值。
* 可自定义`knn_neighbors`、`max_shared_cells`参数以获得更多可解读结果。
