“ESTtools.exe”使用说明书
4.3 转换多个文本文档中的序列为 FASTA 格式:... 5
4.4 提取多个文本文档中的 ncbi BLAST 结果:... 7
4.5 提取一个文本文档中的 ncbi BLAST 结果:... 10
ESTtools是EST数据库建立系统辅助软件,可大批量的将原始序列转换为FASTA格式,大批量的将Blast软件分析结果中大量的基因注释项提取出来,将目标序列从序列库中提取出来等。以Microsoft Visual Basic 6.0(SP6)为平台编写。
在EST数据库建立过程中,DNA测序后,一般要对DNA序列进行处理,首先要转换为通用格式——FASTA格式,基因注释分析,根据同源性比较信息如得分值(score值)、一致性百分率(identity,%)和e值(expect)等,推测查询序列属何种物种,及该序列上含有何种基因及其功能。在常规的GenBank中的Blastn进行同源分析时,如果查询序列是某种已知基因或同源基因的序列,在Blastn结果列表中,每一条这样的查询序列都会有大量的同源基因的信息。实际上,在每一条查询序列的同源性比较分析的信息结果中,有相当数量的信息项对注释结果的解释“意义不大”,因此,在处理这些信息项时,可以予以“剔除”,而将那些对查询序列注释结果的解释起关键作用的信息项如同源基因所属物种的名称、基因名称和索引号、同源性参数(得分值,一致性百分率,e值)和基因功能等予以提取保存。筛选出目标序列后要将目标序列从总序列库中提取出来。
我们在进行玉米 EST的测序和注释过程中,利用Microsoft Visual Basic 6.0开发了大规模地将原始序列转换为FASTA格式,将Blast软件分析结果中大量的基因注释项提取出来,将目标序列从序列库中提取出来等功能的软件——ESTtools。
注意:该序列所处理的数据文件均为纯文本文档“*.txt”。
3.1 转换多个文本文档中的序列为 FASTA 格式:所测序列保存在文本文档中,而且每个文档中只有一条序列,该功能可将其转换为通用格式——FASTA格式,并将这些分散到多个文档中的序列合并到一个文本文档中,以便于操作。
3.2 提取多个文本文档中的 ncbi BLAST 结果:将Blast结果中Score值最高的同源基因信息保存在一个文本文档中,每个文本文档只保存一条同源基因的信息。然后,提取关键信息项(gi号、注释、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand、function、product、chromosome)。
3.3 提取一个文本文档中的 ncbi BLAST 结果:从保存于一个文本文档里的批量Blast结果中选出Score值最高的同源基因信息,然后,提取关键信息项(注释、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand)。
3.4 从总序列文件库中提取目标序列:只需要目标序列的文件名列表文件(不包括扩展名的文本文档),可一次性自动地将这些条件序列从的所有查询序列文本文档库中提取出来。
注意:ESTtools所处理的文件均为纯文本格式文档中的数据!
转换多个文本文档中的序列为 FASTA 格式:每条测序序列(即查询序列)保存一个文本文档,文本文档的命名是以序列的克隆号命名。
提取多个文本文档中的 ncbi BLAST 结果:利用NCBI (http://www.ncbi.nlm.nih.gov/)中的Blast分析软件对每条查询序列进行同源性分析,将每条查询序列的分析结果中的Score值最高的同源基因信息用一个文本文档保存(图2),每个文本文档只保存一条同源基因的信息。
提取一个文本文档中的 ncbi BLAST 结果:利用NCBI (http://www.ncbi.nlm.nih.gov/)中的Blast分析软件对多条查询序列进行同源性分析,Blast结果保存于一个文本文档里,克隆号长度不超过14个字符。
从总序列文件库中提取目标序列:将要提取的目标序列的文件名保存在一个文本文档中,每行一个文件名,要提取的文件为文本文档,可以是序列,也可以是其它信息文件。

将程序保存在要处理文件的文件夹里运行可方便于操作(容易选择文件夹),双击图标即可运行,或选定图标后按回车键。

点击“转换多个文本文档中的序列为 FASTA 格式”按钮,选择序列文件所在的文件夹(用鼠标双击该文件夹),

点击“确定”, 在弹出的“保存文件名”对话框中选择转换所得的FASTA格式序列文件要保存的文件夹(用鼠标双击该文件夹),输入要保存文件的文件名,自动保存为文本文档。

点击“转换”按钮等待4~5秒即可。

转换后的序列如图所示

对序列克隆号中的“.txt”可用记事本中的“替换”工具“全部替换”即可:

点击“提取多个文本文档中的 ncbi BLAST 结果”按钮,选择序列文件所在的文件夹(用鼠标双击该文件夹),

点击“确定”, 在弹出的“保存文件名”对话框中选择转换所提取信息文件要保存的文件夹(用鼠标双击该文件夹),输入要保存文件的文件名,自动保存为Excel文档。

点击“提取”按钮等待8~9秒即可。

打开所提取的文件(如图),选定“A”列,Microsoft Excel菜单中依次选择:“数据”——>“分列”

在“文本分列向导-3步骤之

在“文本分列向导-3步骤之

点击“完成”,再将每列缩放至适当宽度(如图),保存即可。

点击“提取一个文本文档中的 ncbi BLAST 结果”按钮,选择要提取BLAST结果的文件,点击“确定”

在弹出的“保存文件名”对话框中选择转换所提取信息文件要保存的文件夹(用鼠标双击该文件夹),输入要保存文件的文件名,自动保存为Excel文档。

点击“提取”按钮等待8~9秒即可。

打开所提取的文件(如图),选定“A”列,Microsoft Excel菜单中依次选择:“数据”——>“分列”

在“文本分列向导-3步骤之

在“文本分列向导-3步骤之

点击“完成”,再将每列缩放至适当宽度(如图),保存即可。

将要提取的目标序列的文件名保存在一个文本文档中,不包括扩展名,每行一个文件名(如图),

点击“从总序列文件库中提取目标序列”按钮,选择总序列库的文件夹(用鼠标双击该文件夹),点击“确定”,

选择目标序列保存文件夹(用鼠标双击该文件夹)点击“确定”,

在“目标序列文件名列表”框中选择目标序列文件名列表文件(文本文档),点击“提取”。

要提取的目标文件就可复制到新的文件夹中了。
ESTtools对最终用户是免费的。作者拥有ESTtools的著作权。您一旦安装、复制或使用ESTtools,表示您已经同意本协议条款。
您可以任意使用和复制本软件,包括在任意多台计算机上同时使用。
机构用户可以为任意多人在任意多台计算机上复制并安装使用本软件。
您可将本软件复制提供给他人使用,但在未经许可的情况下,不得将本软件用于商业用途。
在带有商业性目的的情况下,将本软件销售、捆绑销售或者捆绑赠送给他人等行为,不属于本协议授权范围,您必须另外取得作者的授权。
本软件受版权保护,您无权对软件的程序和文档进行修改。作者保留一切其它未授予权利。
作者对ESTtools的使用不提供任何担保。就安装、复制、使用中导致的任何损害(包括衍生性损害),作者不承担赔偿责任。
ESTtools因使用或性能(包括软件可能存在的缺陷)引起的风险,完全由您自己承担。
本软件所有版权归焦岳宏、李有志所有
地址:广西大学生命科学与技术学院
广西亚热带生物资源保护利用重点实验室
广西
南宁 530005
如果您在使用该软件的过程中发现到了问题,或者对该软件有什么好的要求和建议,请发电子邮件给作者:
电子信箱: