GN/MCL/Kmeans聚类

用途

基于STRING数据库,自动构建基因集蛋白互作网络,同时输出3种聚类结果

运行方式

使用如下方式自定义数据库或使用默认物种数据库,均可运行

SDAS PPI --input gene_300.txt --species human --score_threshold 600 --centers 9 --output results_300
SDAS PPI -i gene_300.txt -o ./result --species human --cluster GN kmeans
SDAS PPI -i gene_300.txt -o ./result --links_db 9606.protein.links.v12.0.txt --aliases_db 9606.protein.aliases.v12.0.txt --cluster GN kmeans

输入参数说明

参数
是否必须
默认值
描述

-i/--input

输入基因名列表文件(基因symbol,每行一个)

-o/--output

输出文件夹,未创建则自动新建

--species

human

物种(human/mouse),(自定义数据库时可忽略该参数,输入--links_db--aliases_db

--links_db

自定义蛋白互作文件路径(与--species互斥)

--aliases_db

自定义蛋白别名文件路径(与--species互斥)

--score_threshold

700

蛋白间互作分数阈值,在400-900中选择,分数越大可信度越高,网络节点越少,默认700

--cluster

GN

聚类算法(GN/kmeans/mcl),可多选,使用空格连接,默认GN

--centers

5

kmeans聚类中心数,默认5

--inflation

2.0

MCL聚类inflation参数,1.5-3.0,默认2.0

输出结果展示

结果文件
描述

PPI_results.csv

两基因间互作分数,支持Cytoscape导入

cluster_results.csv

输入基因节点连接度及聚类归属

network_<cluster>_visualization.png/pdf

所有基因互作网络图,连线粗细代表互作分数大小,节点大小代表连接度,颜色为聚类

network_<cluster>_top_clusters.png/pdf

节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列(对选定的聚类方式会分别出图)

  • 蛋白互作关系表:PPI_results.csv 每行表示一对基因的互作分数,可直接导入Cytoscape。

from_gene
to_gene
combined_score

MEPIA1

CDH17

466

LGLA3

CDH17

561

PTK2

CDH17

482

  • 聚类结果表:cluster_results.csv 每行一个基因,包含其连接度(与多少基因有互作关系)、各聚类算法归属的cluster。

gene
degree
mcl_cluster
kmeans_cluster
betweenness_cluster

MEPIA1

6

1

2

5

LGLA3

5

1

2

5

  • 互作网络可视化图: network_<cluster>_visualization.png/pdf:展示所有基因互作网络,节点间连线粗细代表互作分数大小,相同颜色为一个cluster,节点大小表示连接度大小。(对选定的聚类方式会分别出图)。

  • 最大聚类子网圈图: network_<cluster>_top_clusters.png/pdf展示节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列。

性能说明

需要几分钟运行时间,内存消耗1G以内

Last updated