# 细胞注释

## 用途

使用`SCimilarity`做细胞注释，只适用于人类样本

## 运行方式

模型下载：<https://zenodo.org/records/10685499>

下载完成后解压模型文件夹，并指定--model\_dir参数

使用预构建的数据库（建议添加--cell\_type\_file参数指定需要注释细胞类型，可用的细胞类型参见模型文件夹中的label\_ints.csv）：

```bash
SDAS cellAnnotation scimilarity -i st.h5ad -o outdir --bin_size 20 \
--model_dir ./model_v1.1 \
--cell_type_file celltype.txt
```

使用scimilarityMakeRef构建的单细胞参考数据库：

```bash
SDAS cellAnnotation scimilarity -i st.h5ad -o outdir --bin_size 20 \
--model_dir ./model_v1.1 --reference_database scimilarity_ref 
```

## 输入参数说明

| 参数                         | 是否必须  | 默认值              | 描述                                                                      |
| -------------------------- | ----- | ---------------- | ----------------------------------------------------------------------- |
| **-i / --input**           | **是** |                  | Stereo-seq h5ad，要求有原始表达矩阵                                               |
| **-o / --output**          | **是** |                  | 输出文件夹                                                                   |
| **--bin\_size**            | **是** |                  | Bin大小，用于控制图中点的大小，不用于计算,比如20,50,100, cellbin (等效于20)                     |
| --input\_layer             | 否     |                  | Stereo-seq h5ad存放raw counts的layer                                       |
| --input\_gene\_symbol\_key | 否     | real\_gene\_name | Stereo-seq h5ad.var中表示基因名(symbol)的列的名称                                  |
| --slice\_key               | 否     | sampleID         | 多片h5ad.obs中表示片编号的列的名称，用于画图                                              |
| --model\_dir               | 否     | ./model\_v1.1    | Scimilarity模型文件夹路径                                                      |
| --reference\_database      | 否     |                  | 用scimilarityMakeRef构建的单细胞数据库路径。如果不指定，则使用\<model\_dir>中预构建的数据库           |
| --cell\_type\_file         | 否     |                  | 需要注释的细胞类型文件，每行一个细胞类型。如果不提供则使用模型中的所有细胞类型。可用的细胞类型参见模型文件夹中的label\_ints.csv |
| --k\_nearest\_neighbor     | 否     | 50               | 搜索最近的K个细胞                                                               |
| --ef                       | 否     | 100              | HNSW KNN算法的ef。ef越大搜索越准确，但是更耗时                                           |
| --weighting                | 否     | False            | 是否使用最近K个细胞的距离加权值而不是原始个数值作为细胞注释的结果                                       |
| --seed                     | 否     | 42               | 随机种子设置                                                                  |
| --gpu\_id                  | 否     | -1               | 使用的GPU的编号，如果为-1，则使用CPU                                                  |
| --n\_threads               | 否     |                  | CPU模式下使用的线程数，默认为全部CPU                                                   |

## 输出结果展示

| 结果文件                                          | 描述                                                                                            |
| --------------------------------------------- | --------------------------------------------------------------------------------------------- |
| `<input_name>_anno_scimilarity.csv`           | 每个spot的注释结果，包括每种细胞类型的分数                                                                       |
| `<input_name>_anno_scimilarity.h5ad`          | 输入h5ad+注释结果。每个细胞类型的分数存在obsm\['anno\_score\_scimilarity']中，分数最高的类型存在obs\['anno\_scimilarity']中 |
| `<input_name>_anno_scimilarity.png/pdf`       | 总体注释结果图，多片情况下每片画一张图，同时输出png和pdf                                                               |
| `<input_name>_anno_scimilarity_split.png/pdf` | 每个细胞类型分开展示图，多片情况下每片画一张图，同时输出png和pdf                                                           |
| `<input_name>_anno_score_scimilarity.png/pdf` | 每个细胞类型的分数图，多片情况下每片画一张图，同时输出png和pdf                                                            |

详细说明与具体结果展示可参考以下[链接](https://mysite.gitbook.io/sdas_manual_cn/readme/04_manual/03_cell2location/02_anno#shu-chu-jie-guo-zhan-shi)。(cell2location算法-->细胞注释-->输出结果展示)。
