首页 > 运维 > linux运维 > 正文

四种获取fasta序列长度的方法

星夢妙者
发布: 2025-07-13 10:04:01
原创
846人浏览过

在处理fasta序列时,我们常常需要知道每条序列的长度。今天小编将与大家分享四种获取fasta序列长度的方法。

一、使用awk

以下是使用awk获取fasta序列长度的代码:

awk '/^>/{if (l!="") print l; print; l=0; next}{l+=length($0)}END{print l}' test.fasta
登录后复制

该命令的输出如下:

>Chr115704606>Chr108327059>Chr118696443>Chr127853492>Chr134340075>Chr146288713>Chr29509017>Chr311222275>Chr47647452>Chr57499939>Chr64872821>Chr78973615>Chr88275968>Chr98318069
登录后复制

二、使用bioawk

安装bioawk并使用以下命令获取fasta序列长度:

conda install bioawkbioawk -c fastx '{ print $name, length($seq) }' 
登录后复制

输出结果如下:

Chr1    15704606Chr10   8327059Chr11   8696443Chr12   7853492Chr13   4340075Chr14   6288713Chr2    9509017Chr3    11222275Chr4    7647452Chr5    7499939Chr6    4872821Chr7    8973615Chr8    8275968Chr9    8318069
登录后复制

三、使用samtools

首先生成.fai文件,然后提取前两列:

#生成.fai文件samtools faidx test.fasta#提取前两列cut -f1-2 test.fasta.fai
登录后复制

生成的.fai文件如下,前两列显示fasta序列的名字和长度。

四种获取fasta序列长度的方法

.fai文件的每一列具体含义:

第一列 NAME   :   序列的名称,只保留“>”后,第一个空白之前的内容;第二列 LENGTH:   序列的长度, 单位为bp;第三列 OFFSET :   第一个碱基的偏移量, 从0开始计数,换行符也统计进行;第四列 LINEBASES : 除了最后一行外, 其他代表序列的行的碱基数, 单位为bp;第五列 LINEWIDTH : 行宽, 除了最后一行外, 其他代表序列的行的长度, 包括换行符,
登录后复制

四、使用seqkit

安装seqkit并使用以下命令获取fasta序列长度:

conda install seqkitseqkit fx2tab --length --name --header-line  test.fasta
登录后复制

四种获取fasta序列长度的方法

以上就是四种获取fasta序列长度的方法的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
相关标签:
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号