Linux环境下使用DIA-NN软件
DIA-NN,首次与2020年发表在nature methods杂志。软件一经发表就备受关注。
DIA-NN软件使用深度神经网络 (DNN) 来区分真实信号和噪声,并采用了新的定量和信号校正策略,可以有效的提高DIA分析结果的蛋白数,并显著提高蛋白的覆盖度。 DIA-NN软件兼容window和Linux平台, 由于目前本人主要的工作环境是基于Linux系统,本文介绍Linux环境下DIA-NN软件使用。
文档参考自DIA-NN说明文档DiaNN v1.8 (opens new window)。
# 1. Linux环境下DIA-NN的安装
目前DIA-NN最新版本为v1.8,相比于v1.7.x版本,添加了在Linux系统下使用深度神经网络的功能。
在Linux安装DIA-NN v1.8,需要系统含有glibc 2.27以上的版本。比如ubuntu 18.04, 或centos 8.0。
如果系统的glibc版本不支持,升级glibc版本比较麻烦,而且有导致系统崩溃的风险,这里推荐使用Docker安装DIA-NN。
# 1. 下载diann_1.8.deb
mkdir diann & cd diann
wget https://github.com/vdemichev/DiaNN/releases/download/1.8/diann_1.8.deb
# 2. 创建Dockerfile
FROM ubuntu:18.04
RUN apt-get update
RUN apt-get install -y gdebi
WORKDIR /software
ADD diann_1.8.deb ./
RUN gdebi -n diann_1.8.deb
ENV PATH=$PATH:/usr/diann/1.8/
WORKDIR /
# 3. 构建diann 镜像
docker build -t diann:1.8 --network host .
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 2. DIA-NN的使用
DIA-NN支持2种DIA数据的搜索方式:
- 基于蛋白序列库的搜索(Library-free)
- 基于谱库的搜索(Library-based)
在多数情况下,Library-free的搜索方式优于Library-based的搜索方式,但需要花费更多的时间。
# 2.1. Library-free 搜索
在以下情况,Library-free搜索方式优于Library-based的搜索方式:
- 样本中肽段数较多
- 数据异质性较大 (e.g. 肿瘤样本的异质性较大)
- 色谱梯度较长
- 数据集较大
对于大多数实验,推荐优先尝试Library-free搜索。
# 大多数参数均为默认参数
docker run -d --name diann -v /mnt/dellfs/:/mnt/dellfs/ diann:1.8 diann-1.8 \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_1.mzML \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_2.mzML \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_3.mzML \
--lib "" \
--threads 12 \
--verbose 1 \
--out "/mnt/dellfs/projects/proteomics/result/report.tsv" \
--predictor \
--qvalue 0.01 \
--matrices \
--temp "/mnt/dellfs/projects/proteomics/quant/" \
--fasta "/mnt/dellfs/projects/proteomics/swissprot_human_20180209_target_IRT_contaminant.fasta" \
--fasta-search \
--met-excision \
--cut K*,R* \
--missed-cleavages 1 \
--min-pep-len 5 \
--max-pep-len 30 \
--min-pr-mz 400 \
--max-pr-mz 1200 \
--min-pr-charge 1 \
--max-pr-charge 4 \
--unimod4 \
--var-mods 1 \
--var-mod UniMod:35,15.994915,M \
--reanalyse \
--smart-profiling
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
# 2.2. Library-based 搜索
指定spectral library即可进行Library-based 搜索。
docker run -d --name diann -v /mnt/dellfs/:/mnt/dellfs/ diann:1.8 diann-1.8 \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_1.mzML \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_2.mzML \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_3.mzML \
--lib "/mnt/dellfs/projects/proteomics/lib/lib.tsv" \
--threads 12 \
--verbose 1 \
--out "/mnt/dellfs/projects/proteomics/result/report.tsv" \
--qvalue 0.01 \
--matrices \
--temp "/mnt/dellfs/projects/proteomics/quant/" \
--fasta "/mnt/dellfs/projects/proteomics/swissprot_human_20180209_target_IRT_contaminant.fasta" \
--reannotate \
--met-excision \
--cut K*,R* \
--missed-cleavages 1 \
--min-pep-len 5 \
--max-pep-len 30 \
--min-pr-mz 400 \
--max-pr-mz 1200 \
--min-pr-charge 1 \
--max-pr-charge 4 \
--unimod4 \
--var-mods 1 \
--var-mod UniMod:35,15.994915,M \
# enable Match Between Run
--reanalyse \
--smart-profiling
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
# 2.3. DIA-NN建库
DIA-NN建库有两种方法:
- 在library-free模式中,通过in silico-predicted spectral构建谱库。
- 在library-based模式中,完善已有的谱库。
建立谱库需要在命令行中添加--gen-spec-lib
和 --out-lib
。
# 大多数参数均为默认参数
docker run -d --name diann -v /mnt/dellfs/:/mnt/dellfs/ diann:1.8 diann-1.8 \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_1.mzML \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_2.mzML \
--f /mnt/dellfs/projects/proteomics/data/DIA/mzML/A20181130_DIA_b1_3.mzML \
--lib "" \
--threads 12 \
--verbose 1 \
--out "/mnt/dellfs/projects/proteomics/result/report.tsv" \
--out-lib "/mnt/dellfs/projects/proteomics/lib/lib.tsv" \
--gen-spec-lib \
--predictor \
--qvalue 0.01 \
--matrices \
--temp "/mnt/dellfs/projects/proteomics/quant/" \
--fasta "/mnt/dellfs/projects/proteomics/swissprot_human_20180209_target_IRT_contaminant.fasta" \
--fasta-search \
--met-excision \
--cut K*,R* \
--missed-cleavages 1 \
--min-pep-len 5 \
--max-pep-len 30 \
--min-pr-mz 400 \
--max-pr-mz 1200 \
--min-pr-charge 1 \
--max-pr-charge 4 \
--unimod4 \
--var-mods 1 \
--var-mod UniMod:35,15.994915,M \
--reanalyse \
--smart-profiling
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
编辑 (opens new window)
上次更新: 2021/07/20, 10:35:05