GN/MCL/Kmeans聚类
用途
基于STRING数据库,自动构建基因集蛋白互作网络,同时输出3种聚类结果
运行方式
使用如下方式自定义数据库或使用默认物种数据库,均可运行
SDAS PPI --input gene_300.txt --species human --score_threshold 600 --centers 9 --output results_300
SDAS PPI -i gene_300.txt -o ./result --species human --cluster GN kmeans
SDAS PPI -i gene_300.txt -o ./result --links_db 9606.protein.links.v12.0.txt --aliases_db 9606.protein.aliases.v12.0.txt --cluster GN kmeans
输入参数说明
-i/--input
是
输入基因名列表文件(基因symbol,每行一个)
-o/--output
是
输出文件夹,未创建则自动新建
--species
否
human
物种(human/mouse),(自定义数据库时可忽略该参数,输入--links_db
与--aliases_db
)
--links_db
否
自定义蛋白互作文件路径(与--species互斥)
--aliases_db
否
自定义蛋白别名文件路径(与--species互斥)
--score_threshold
否
700
蛋白间互作分数阈值,在400-900中选择,分数越大可信度越高,网络节点越少,默认700
--cluster
否
GN
聚类算法(GN/kmeans/mcl),可多选,使用空格连接,默认GN
--centers
否
5
kmeans聚类中心数,默认5
--inflation
否
2.0
MCL聚类inflation参数,1.5-3.0,默认2.0
输出结果展示
PPI_results.csv
两基因间互作分数,支持Cytoscape导入
cluster_results.csv
输入基因节点连接度及聚类归属
network_<cluster>_visualization.png/pdf
所有基因互作网络图,连线粗细代表互作分数大小,节点大小代表连接度,颜色为聚类
network_<cluster>_top_clusters.png/pdf
节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列(对选定的聚类方式会分别出图)
蛋白互作关系表:
PPI_results.csv
每行表示一对基因的互作分数,可直接导入Cytoscape。
MEPIA1
CDH17
466
LGLA3
CDH17
561
PTK2
CDH17
482
聚类结果表:
cluster_results.csv
每行一个基因,包含其连接度(与多少基因有互作关系)、各聚类算法归属的cluster。
MEPIA1
6
1
2
5
LGLA3
5
1
2
5
互作网络可视化图:
network_<cluster>_visualization.png/pdf
:展示所有基因互作网络,节点间连线粗细代表互作分数大小,相同颜色为一个cluster,节点大小表示连接度大小。(对选定的聚类方式会分别出图)。

最大聚类子网圈图:
network_<cluster>_top_clusters.png/pdf
展示节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列。

性能说明
需要几分钟运行时间,内存消耗1G以内
Last updated