blast
简介
简介
BLAST(Basic Local Alignment Search Tool)是生物序列相似性比较及区域查找的分析工具。可用于推断序列之间的功能和进化关系,以及帮助鉴定基因家族的成员。
该BLAST WDL 工作流程采用 ncbi-BLAST+ 2.13.0 软件
其主要包括以子程序:
- blastp:蛋白序列与蛋白库做比对。
- blastx:核酸序列对蛋白库的比对。
- blastn:核酸序列对核酸库的比对。
- tblastn:蛋白序列对核酸库的比对,将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对。
- tblastx: 核酸序列对核酸库的比对,检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。
可以通过method
参数切换不同子程序,默认 为blastn。
BLAST详细说明请查阅NCBI 说明文档
使用案例
1.使用预设BLAST Database
目前该流程收纳了国家基因库新冠数据库数据,未来我们会收纳更多国家基因库归档数据,您可以配置通过 input 中dbname
参数,选择不同数据库。
2. 自定义BLAST Database
你可以通过 File 类型参数 custom_db
及 String 类型参数 custom_db_dbtype
分别定义您需要检索自定义数据库序列文件和文件类型。
除此之外,我们支持用户个性化修改不同子程序的默认参数,从而达到理想的结果。
如:修改Task name
中 blast.runtblastn 的 Attribute name
为word_size即修改blast工作流中blastn中特异的word_size 参数。
详细参数介绍查看下文input参数。
联系我们
该工具由国家基因库团队提供。如有任何问题或疑虑,请联系CNGBdb@cngb.org
脚本
输入
任务名称 | 变量名称 | 类型 | 描述 |
---|---|---|---|
* blast | queryfa | File | 输入fasta序列搜索文件 |
blast.runtblastx | word_size | Int | 字符搜索算法的字节长度 |
blast.runtblastx | taxids | String | 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开) |
blast.runtblastx | seg | String | 用SEG过滤查询序列 |
blast.runtblastx | negative_taxids | String | 将数据库搜索限制为除指定的分类ID外的所有内容 |
blast.runtblastx | max_target_seqs | Int | 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。 |
blast.runtblastx | max_hsps | Int | 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。 |
blast.runtblastx | matrix | String | 打分矩阵名称(默认 BLOSUM62) |
blast.runtblastx | lcase_masking | Boolean | 是否对查询序列和参考序列的小写字母进行过滤? |
blast.runtblastn | word_size | Int | 字符搜索算法的字节长度 |
blast.runtblastn | taxids | String | 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开) |
blast.runtblastn | seg | String | 用SEG过滤查询序列 |
blast.runtblastn | negative_taxids | String | 将数据库搜索限制为除指定的分类ID外的所有内容 |
blast.runtblastn | max_target_seqs | Int | 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。 |
blast.runtblastn | max_hsps | Int | 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。 |
blast.runtblastn | matrix | String | 打分矩阵名称(默认 BLOSUM62) |
blast.runtblastn | lcase_masking | Boolean | 是否对查询序列和参考序列的小写字母进行过滤? |
blast.runtblastn | gapopen | Int | 新建一个空位的罚分。 |
blast.runtblastn | gapextend | Int | 拓展一个空位的罚分 |
blast.runtblastn | comp_based_stats | String | 使用基于成分的统计 |
blast.runblastx | word_size | Int | 字符搜索算法的字节长度 |
blast.runblastx | taxids | String | 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开) |
blast.runblastx | seg | String | 用SEG过滤查询序列 |
blast.runblastx | negative_taxids | String | 将数据库搜索限制为除指定的分类ID外的所有内容 |
blast.runblastx | max_target_seqs | Int | 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。 |
blast.runblastx | max_hsps | Int | 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。 |
blast.runblastx | matrix | String | 打分矩阵名称(默认 BLOSUM62) |
blast.runblastx | lcase_masking | Boolean | 是否对查询序列和参考序列的小写字母进行过滤? |
blast.runblastx | gapopen | Int | 新建一个空位的罚分。 |
blast.runblastx | gapextend | Int | 拓展一个空位的罚分 |
blast.runblastx | comp_based_stats | String | 使用基于成分的统计 |
blast.runblastp | word_size | Int | 字符搜索算法的字节长度 |
blast.runblastp | taxids | String | 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开) |
blast.runblastp | seg | String | 用SEG过滤查询序列 |
blast.runblastp | negative_taxids | String | 将数据库搜索限制为除指定的分类ID外的所有内容 |
blast.runblastp | max_target_seqs | Int | 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。 |
blast.runblastp | max_hsps | Int | 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。 |
blast.runblastp | matrix | String | 打分矩阵名称(默认 BLOSUM62) |
blast.runblastp | lcase_masking | Boolean | 是否对查询序列和参考序列的小写字母进行过滤? |
blast.runblastp | gapopen | Int | 新建一个空位的罚分。 |
blast.runblastp | gapextend | Int | 拓展一个空位的罚分 |
blast.runblastp | comp_based_stats | String | 使用基于成分的统计 |
blast.runblastn | word_size | Int | 字符搜索算法的字节长度 |
blast.runblastn | taxids | String | 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开) |
blast.runblastn | tasks | String | 执行任务名称 |
blast.runblastn | strand | String | 该值表示查询序列使用何种方向进行序列搜索。 |
blast.runblastn | reward | Int | 核苷酸错配罚分 |
blast.runblastn | penalty | Int | 核苷酸配置加分 |
blast.runblastn | negative_taxids | String | 将数据库搜索限制为除指定的分类ID外的所有内容 |
blast.runblastn | max_target_seqs | Int | 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。 |
blast.runblastn | max_hsps | Int | 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。 |
blast.runblastn | lcase_masking | Boolean | 是否对查询序列和参考序列的小写字母进行过滤? |
blast.runblastn | gapopen | Int | 新建一个空位的罚分。 |
blast.runblastn | gapextend | Int | 拓展一个空位的罚分 |
blast.runblastn | dust | String | DUST查询序列过滤器配置。 |
blast | threads | Int | Blast 搜索使用的线程数 |
blast | outfmt | Int | 比对结果的展示形式 |
blast | method | String | Blast组件:blastn blastp blastx tblastn tblasx |
blast | dbname | String | 由CNGBdb 团队预设blast数据库的文件路径,可在详情页查看 |
blast | evalue | Float | 比对结果筛选期望值,即E-value。取值必须大于0。 |
blast | blast_docker_override | String | blast软件的docker地址 |
blast | custom_db | File | 用户自定义blast数据库文件 |
blast | custom_db_dbtype | File | 用户自定义blast数据库文件数据类型,核酸或者蛋白质 |
输出
任务名称 | 变量名称 | 类型 | 描述 |
---|---|---|---|
blast | fina_output | File | 通过填写 this.xxx将输出文件地址返回到对应表格 xxx 列 |