hdWGCNA算法
用途
使用hdWGCNA 算法进行空间基因共表达基因集识别
运行方式
SDAS coexpress hdwgcna -i st.h5ad -o outdir --bin_size 100 \
--input_layer raw_counts \
--selected_genes top5000 \
--moran_path ./moran.csv \
--n_cpus 8 \
--seed 42 \
--knn_neighbors 50 \
--max_shared_cells 15 \
--soft_power 8
输入参数说明
-i / --input
是
Stereo-seq h5ad,要求有原始表达矩阵
-o / --output
是
输出文件夹
--bin_size
是
50
分辨率Bin大小(20, 50, 100, 200, cellbin),与输入h5ad一致
--layer
否
指定h5ad中原始表达矩阵的layer层 (例如layers[‘raw_counts’]
--selected_genes
否
top5000
基因列表(topn高变基因, full全部基因)
--moran_path
否
已计算好的基因莫兰指数列表路径
--n_cpus
否
8
并行计算进程数
--seed
否
42
随机种子
--knn_neighbors
否
50
合并细胞时KNN算法覆盖的邻域spot/细胞个数(k neighbor)
--max_shared_cells
否
15
合并细胞时KNN算法覆盖的最多交集spot/细胞个数
--soft_power
否
网络构建时使用,默认自动选择无标度拓扑模型拟合度达到 0.8 的最低 soft_power
输出结果展示
<input_name>_hdwgcna.module.csv
空间高变基因(gene symbol+gene id)对应的共表达基因集(module)的共表达基因集的结果csv
<input_name>_hdwgcna.module_score.csv
共表达基因集的基因集打分结果csv
<input_name>_hdwgcna.coexpress.rds
含有共表达基因集结果的rds文件
<input_name>_hdwgcna.module_score.png/pdf
共表达基因集的基因集打分空间热图
<input_name>_hdwgcna.all_coex_dendrogram.png/pdf
共表达基因集的相似性树状图
<input_name>_hdwgcna.softpowers.png/pdf
构建网络的soft_power阈值图
<input_name>_hdwgcna.moran.csv
如果使用topn计算,输出全部基因的莫兰指数以及P值
共表达基因集的结果csv:
<input_name>_hdwgcna.module.csv
,以逗号分隔。hdWGCNA输出结果展示识别的空间高变基因对应的共表达基因集(module),kME表示某个基因的表达模式与所在模块的模块特征基因(Module Eigengene, ME)之间的相关性强度,kME值越接近1或-1,表明该基因越可能是枢纽基因(hub gene)
A2M
ENSG00000175899
Module1
green
0.47946868988301
-0.107096403482606
-0.178114022165641
0.0676792398874597
0.095966109797419
-0.0907050325056857
-0.0529390531160642
-0.150612945887371
0.0878907827651177
0.0249952108382643
A2M-AS1
ENSG00000237094
Module1
green
0.54370397007705
-0.150011910577089
-0.254597937099371
0.0926882061841318
0.140032173496191
-0.115227951266487
-0.101675353602963
-0.222107282189061
0.0803636102659976
0.0426306888623326
A2ML1
ENSG00000166535
Module2
yellow
0.0404144692736028
0.479908573141937
0.194701680726881
-0.327610748128114
0.0430624759042059
0.429681007497005
-0.342984504779987
0.145625804577339
-0.386999928188458
0.08281144751312791
A2MP1
ENSG00000256069
grey
grey
-0.046660656715667
0.20294339804614
0.284819067476003
-0.0506850476403686
-0.205976941174478
0.244779685854094
0.000250607520833238
0.170101997387916
-0.0177549796818324
0.0639042087827032
共表达基因集的基因集打分结果csv:
<input_name>_hdwgcna.module_score.csv
,以逗号分隔。hdWGCNA输出结果展示识别的每个共表达基因集(module)的表达量打分的高低
2200_16100
-3.23688863476392
-4.34756288337066
-2.3278151796256
-8.21694142422341
-14.8112682710791
-9.12253218247156
-10.174563894144
-3.09447240000024
0.481660736850741
3.91787079378259
2200_17200
5.77873502485046
0.783016254503074
1.06582091429724
-6.03050203635639
-3.71256039305597
-0.825856084852031
-3.67468239887104
-2.09159016878048
-2.639251117267012
5.41583186417414
2300_16700
7.90521666109811
2.93759207152763
-0.391450035802177
-3.02639637030598
1.63013439679168
1.66371621513915
-1.51360146647437
-0.8975499248414
-4.66703690157902
1.40723191567521
共表达基因集的基因集打分空间热图
<input_name>_hdwgcna.module_score.png/pdf
:可视化所有共表达基因集(Module)的空间分布模式。图中颜色强度表示共表达基因集表达量的高低

构建网络的soft_power阈值图
<input_name>_hdwgcna.softpowers.png/pdf
:分析不同软阈值参数的网络构建效果,默认自动选择无标度拓扑模型拟合度达到 0.8 的最低 soft_power

共表达基因集的相似性树状图
<input_name>_hdwgcna.all_coex_dendrogram.png/pdf
:展示不同共表达基因集(Module)之间的相似性聚类树状图

结果解读说明
共表达基因集从Module1开始,grey为不符合共表达基因集聚类要求的基因。
调参建议
若样本bin20/50基因数低于200,或其他特殊样本,识别的空间共表达基因集较少,可根据
soft_power
测试图调低阈值。可自定义
knn_neighbors
、max_shared_cells
参数以获得更多可解读结果。
Last updated