hdWGCNA算法

用途

使用hdWGCNA 算法进行空间基因共表达基因集识别

运行方式

SDAS coexpress hdwgcna -i st.h5ad -o outdir --bin_size 100 \
--input_layer raw_counts \
--selected_genes top5000  \
--moran_path ./moran.csv \
--n_cpus 8 \
--seed 42 \
--knn_neighbors 50  \
--max_shared_cells 15 \
--soft_power 8

输入参数说明

参数
是否必须
默认值
描述

-i / --input

Stereo-seq h5ad,要求有原始表达矩阵

-o / --output

输出文件夹

--bin_size

50

分辨率Bin大小(20, 50, 100, 200, cellbin),与输入h5ad一致

--layer

指定h5ad中原始表达矩阵的layer层 (例如layers[‘raw_counts’]

--selected_genes

top5000

基因列表(topn高变基因, full全部基因)

--moran_path

已计算好的基因莫兰指数列表路径

--n_cpus

8

并行计算进程数

--seed

42

随机种子

--knn_neighbors

50

合并细胞时KNN算法覆盖的邻域spot/细胞个数(k neighbor)

--max_shared_cells

15

合并细胞时KNN算法覆盖的最多交集spot/细胞个数

--soft_power

网络构建时使用,默认自动选择无标度拓扑模型拟合度达到 0.8 的最低 soft_power

输出结果展示

结果文件
描述

<input_name>_hdwgcna.module.csv

空间高变基因(gene symbol+gene id)对应的共表达基因集(module)的共表达基因集的结果csv

<input_name>_hdwgcna.module_score.csv

共表达基因集的基因集打分结果csv

<input_name>_hdwgcna.coexpress.rds

含有共表达基因集结果的rds文件

<input_name>_hdwgcna.module_score.png/pdf

共表达基因集的基因集打分空间热图

<input_name>_hdwgcna.all_coex_dendrogram.png/pdf

共表达基因集的相似性树状图

<input_name>_hdwgcna.softpowers.png/pdf

构建网络的soft_power阈值图

<input_name>_hdwgcna.moran.csv

如果使用topn计算,输出全部基因的莫兰指数以及P值

  • 共表达基因集的结果csv<input_name>_hdwgcna.module.csv,以逗号分隔。hdWGCNA输出结果展示识别的空间高变基因对应的共表达基因集(module),kME表示某个基因的表达模式与所在模块的​​模块特征基因(Module Eigengene, ME)​​之间的相关性强度,kME值越接近1或-1,表明该基因越可能是枢纽基因(hub gene)

real_gene_name
geneid
Module
color
kME_Module1
kME_Module2
kME_grey
kME_Module3
kME_Module4
kME_Module5
kME_Module6
kME_Module7
kME_Module8
kME_Module9

A2M

ENSG00000175899

Module1

green

0.47946868988301

-0.107096403482606

-0.178114022165641

0.0676792398874597

0.095966109797419

-0.0907050325056857

-0.0529390531160642

-0.150612945887371

0.0878907827651177

0.0249952108382643

A2M-AS1

ENSG00000237094

Module1

green

0.54370397007705

-0.150011910577089

-0.254597937099371

0.0926882061841318

0.140032173496191

-0.115227951266487

-0.101675353602963

-0.222107282189061

0.0803636102659976

0.0426306888623326

A2ML1

ENSG00000166535

Module2

yellow

0.0404144692736028

0.479908573141937

0.194701680726881

-0.327610748128114

0.0430624759042059

0.429681007497005

-0.342984504779987

0.145625804577339

-0.386999928188458

0.08281144751312791

A2MP1

ENSG00000256069

grey

grey

-0.046660656715667

0.20294339804614

0.284819067476003

-0.0506850476403686

-0.205976941174478

0.244779685854094

0.000250607520833238

0.170101997387916

-0.0177549796818324

0.0639042087827032

  • 共表达基因集的基因集打分结果csv<input_name>_hdwgcna.module_score.csv,以逗号分隔。hdWGCNA输出结果展示识别的每个共表达基因集(module)的表达量打分的高低

Module6
Module3
Module8
Module2
grey
Module7
Module5
Module9
Module1
Module4

2200_16100

-3.23688863476392

-4.34756288337066

-2.3278151796256

-8.21694142422341

-14.8112682710791

-9.12253218247156

-10.174563894144

-3.09447240000024

0.481660736850741

3.91787079378259

2200_17200

5.77873502485046

0.783016254503074

1.06582091429724

-6.03050203635639

-3.71256039305597

-0.825856084852031

-3.67468239887104

-2.09159016878048

-2.639251117267012

5.41583186417414

2300_16700

7.90521666109811

2.93759207152763

-0.391450035802177

-3.02639637030598

1.63013439679168

1.66371621513915

-1.51360146647437

-0.8975499248414

-4.66703690157902

1.40723191567521

  • 共表达基因集的基因集打分空间热图<input_name>_hdwgcna.module_score.png/pdf:可视化所有共表达基因集(Module)的空间分布模式。图中颜色强度表示共表达基因集表达量的高低

  • 构建网络的soft_power阈值图<input_name>_hdwgcna.softpowers.png/pdf:分析不同软阈值参数的网络构建效果,默认自动选择无标度拓扑模型拟合度达到 0.8 的最低 soft_power

  • 共表达基因集的相似性树状图<input_name>_hdwgcna.all_coex_dendrogram.png/pdf:展示不同共表达基因集(Module)之间的相似性聚类树状图

结果解读说明

  • 共表达基因集从Module1开始,grey为不符合共表达基因集聚类要求的基因。

调参建议

  • 若样本bin20/50基因数低于200,或其他特殊样本,识别的空间共表达基因集较少,可根据soft_power测试图调低阈值。

  • 可自定义knn_neighborsmax_shared_cells参数以获得更多可解读结果。

Last updated