Codeplot
blast
简介

简介

BLAST(Basic Local Alignment Search Tool)是生物序列相似性比较及区域查找的分析工具。可用于推断序列之间的功能和进化关系,以及帮助鉴定基因家族的成员。

该BLAST WDL 工作流程采用 ncbi-BLAST+ 2.13.0 软件
其主要包括以子程序:

  • blastp:蛋白序列与蛋白库做比对。
  • blastx:核酸序列对蛋白库的比对。
  • blastn:核酸序列对核酸库的比对。
  • tblastn:蛋白序列对核酸库的比对,将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对。
  • tblastx: 核酸序列对核酸库的比对,检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。

可以通过method参数切换不同子程序,默认 为blastn。

BLAST详细说明请查阅NCBI 说明文档

使用案例

1.使用预设BLAST Database

目前该流程收纳了国家基因库新冠数据库数据,未来我们会收纳更多国家基因库归档数据,您可以配置通过 input 中dbname 参数,选择不同数据库。

2. 自定义BLAST Database

你可以通过 File 类型参数 custom_db 及 String 类型参数 custom_db_dbtype 分别定义您需要检索自定义数据库序列文件和文件类型。

除此之外,我们支持用户个性化修改不同子程序的默认参数,从而达到理想的结果。

如:修改Task name 中 blast.runtblastn 的 Attribute name 为word_size即修改blast工作流中blastn中特异的word_size 参数。

详细参数介绍查看下文input参数。

联系我们

该工具由国家基因库团队提供。如有任何问题或疑虑,请联系CNGBdb@cngb.org

脚本
输入
任务名称变量名称类型描述
* blast queryfaFile 输入fasta序列搜索文件
* blast.runtblastx word_sizeInt 字符搜索算法的字节长度
* blast.runtblastx taxidsString 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开)
* blast.runtblastx segString 用SEG过滤查询序列
* blast.runtblastx negative_taxidsString 将数据库搜索限制为除指定的分类ID外的所有内容
* blast.runtblastx max_target_seqsInt 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。
* blast.runtblastx max_hspsInt 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。
* blast.runtblastx matrixString 打分矩阵名称(默认 BLOSUM62)
* blast.runtblastx lcase_maskingBoolean 是否对查询序列和参考序列的小写字母进行过滤?
* blast.runtblastn word_sizeInt 字符搜索算法的字节长度
* blast.runtblastn taxidsString 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开)
* blast.runtblastn segString 用SEG过滤查询序列
* blast.runtblastn negative_taxidsString 将数据库搜索限制为除指定的分类ID外的所有内容
* blast.runtblastn max_target_seqsInt 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。
* blast.runtblastn max_hspsInt 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。
* blast.runtblastn matrixString 打分矩阵名称(默认 BLOSUM62)
* blast.runtblastn lcase_maskingBoolean 是否对查询序列和参考序列的小写字母进行过滤?
* blast.runtblastn gapopenInt 新建一个空位的罚分。
* blast.runtblastn gapextendInt 拓展一个空位的罚分
* blast.runtblastn comp_based_statsString 使用基于成分的统计
* blast.runblastx word_sizeInt 字符搜索算法的字节长度
* blast.runblastx taxidsString 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开)
* blast.runblastx segString 用SEG过滤查询序列
* blast.runblastx negative_taxidsString 将数据库搜索限制为除指定的分类ID外的所有内容
* blast.runblastx max_target_seqsInt 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。
* blast.runblastx max_hspsInt 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。
* blast.runblastx matrixString 打分矩阵名称(默认 BLOSUM62)
* blast.runblastx lcase_maskingBoolean 是否对查询序列和参考序列的小写字母进行过滤?
* blast.runblastx gapopenInt 新建一个空位的罚分。
* blast.runblastx gapextendInt 拓展一个空位的罚分
* blast.runblastx comp_based_statsString 使用基于成分的统计
* blast.runblastp word_sizeInt 字符搜索算法的字节长度
* blast.runblastp taxidsString 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开)
* blast.runblastp segString 用SEG过滤查询序列
* blast.runblastp negative_taxidsString 将数据库搜索限制为除指定的分类ID外的所有内容
* blast.runblastp max_target_seqsInt 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。
* blast.runblastp max_hspsInt 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。
* blast.runblastp matrixString 打分矩阵名称(默认 BLOSUM62)
* blast.runblastp lcase_maskingBoolean 是否对查询序列和参考序列的小写字母进行过滤?
* blast.runblastp gapopenInt 新建一个空位的罚分。
* blast.runblastp gapextendInt 拓展一个空位的罚分
* blast.runblastp comp_based_statsString 使用基于成分的统计
* blast.runblastn word_sizeInt 字符搜索算法的字节长度
* blast.runblastn taxidsString 将数据库搜索限制为仅包括指定的分类ID(多个用,隔开)
* blast.runblastn tasksString 执行任务名称
* blast.runblastn strandString 该值表示查询序列使用何种方向进行序列搜索。
* blast.runblastn rewardInt 核苷酸错配罚分
* blast.runblastn penaltyInt 核苷酸配置加分
* blast.runblastn negative_taxidsString 将数据库搜索限制为除指定的分类ID外的所有内容
* blast.runblastn max_target_seqsInt 该值表示,对于每一条查询序列比对结果中保留的最大数量的参考序列。
* blast.runblastn max_hspsInt 该值表示,对于每一条查询序列比对结果中的每一条参考序列,保留的高分片断配对的最大数量。
* blast.runblastn lcase_maskingBoolean 是否对查询序列和参考序列的小写字母进行过滤?
* blast.runblastn gapopenInt 新建一个空位的罚分。
* blast.runblastn gapextendInt 拓展一个空位的罚分
* blast.runblastn dustString DUST查询序列过滤器配置。
* blast threadsInt Blast 搜索使用的线程数
* blast outfmtInt 比对结果的展示形式
* blast methodString Blast组件:blastn blastp blastx tblastn tblasx
* blast dbnameString 由CNGBdb 团队预设blast数据库的文件路径,可在详情页查看
* blast evalueFloat 比对结果筛选期望值,即E-value。取值必须大于0。
* blast blast_docker_overrideString blast软件的docker地址
* blast custom_dbFile 用户自定义blast数据库文件
* blast custom_db_dbtypeFile 用户自定义blast数据库文件数据类型,核酸或者蛋白质
输出
任务名称变量名称类型描述
* blast fina_outputFile 通过填写 this.xxx将输出文件地址返回到对应表格 xxx 列