在linux环境下进行ngs数据处理时,采用批处理方法可以显著提高工作效率。以下是两种不同级别的批处理方法的详细介绍。
入门级批处理方法
熟悉我们生信技能树线下培训的粉丝们应该知道,我们的课程中介绍了一种批处理方法,如下所示:


创建配置文件
首先,我们需要创建一个配置文件,这里命名为
config
$ cat config SRR1039510_1.fastq.gz SRR1039510_2.fastq.gz SRR1039511_1.fastq.gz SRR1039511_2.fastq.gz SRR1039512_1.fastq.gz SRR1039512_2.fastq.gz
编写命令脚本文件
接下来,将我们的代码写入一个shell脚本中,这里命名为
qc.sh
$1
config
$ cat qc.sh
#!/bin/bash
cat $1 | while read id
do
arr=(${id})
fq1=${arr[0]}
fq2=${arr[1]}
trim_galore -q 25 --phred33 \
--length 36 --stringency 3 --paired \
-o ./ $fq1 $fq2
done提交至后台
最后,将脚本提交至后台运行:
nohup bash qc.sh config &
提交后,通过
top

进阶级批处理方法
如果您觉得逐个处理数据速度太慢,可以考虑以下进阶处理方法:
创建配置文件
同样,创建一个名为
config
$ cat config SRR1039510_1.fastq.gz SRR1039510_2.fastq.gz SRR1039511_1.fastq.gz SRR1039511_2.fastq.gz SRR1039512_1.fastq.gz SRR1039512_2.fastq.gz ......这里省略若干行......
编写命令脚本文件
编写一个更复杂的
qc.sh
$ cat qc.sh
#!/bin/bash
number1=$2
number2=$3
cat $1 | while read id
do
if((i%$number1==$number2))
then
arr=(${id})
fq1=${arr[0]}
fq2=${arr[1]}
trim_galore -q 25 --phred33 \
--length 36 --stringency 3 --paired \
-o ./ $fq1 $fq2
fi
## end for number1
i=$((i+1))
done提交至后台
最后,将脚本提交至后台运行:
for i in {0..2}
do
(nohup bash qc.sh config 3 $i 1>log.$i.txt 2>&1 & )
done 提交后,通过
top

补充一个错误的例子
在提交命令后,一定要检查任务运行情况,最直接的方法是使用
top
这个例子的配置文件如下:
$ cat config SRR1039510 SRR1039510_1.fastq.gz SRR1039510_2.fastq.gz SRR1039511 SRR1039511_1.fastq.gz SRR1039511_2.fastq.gz SRR1039512 SRR1039512_1.fastq.gz SRR1039512_2.fastq.gz ......这里省略若干行......
脚本如下(这个脚本是有问题的,我们先留个悬念):
$ cat qc.sh
#!/bin/bash
number1=$2
number2=$3
cat $1 | while read id
do
if [ ! -f ok.trim.$sample.status ]
then
touch ok.trim.$sample.status
echo "start trim for $sample" `date`
arr=(${id})
sample=${arr[0]}
fq1=${arr[1]}
fq2=${arr[2]}
trim_galore -q 25 --phred33 \
--length 36 --stringency 3 --paired \
-o ./ $fq1 $fq2
echo "end trim for $sample" `date`
fi
done最后提交命令:
for i in {0..2}
do
(nohup bash qc.sh config 3 $i 1>log.$i.txt 2>&1 & )
done 使用
top

检查生成的文件,发现只生成了一个样本的文件:
$ ll -th -rw-rw-r-- 1 hcguo hcguo 1.2G Jun 18 17:45 SRR1039510_1_trimmed.fq.gz -rw-rw-r-- 1 hcguo hcguo 1.6K Jun 18 17:45 log.0.txt -rw-rw-r-- 1 hcguo hcguo 1.6K Jun 18 17:45 log.2.txt -rw-rw-r-- 1 hcguo hcguo 1.6K Jun 18 17:45 log.1.txt -rw-rw-r-- 1 hcguo hcguo 544 Jun 18 17:39 SRR1039510_1.fastq.gz_trimming_report.txt -rw-rw-r-- 1 hcguo hcguo 0 Jun 18 17:39 ok.trim..status
仔细查看
top
log
nohup.out

以上就是批量与并行不一样的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号