欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

如何下载一个物种的全部EST序列 | NCBI | 表达序列标签

发布时间:2024/4/14 51 豆豆
生活随笔 收集整理的这篇文章主要介绍了 如何下载一个物种的全部EST序列 | NCBI | 表达序列标签 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

EST:表达序列标签,expressed sequence tags 。

顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列的cDNA片段。

“标签”:就是指这些序列可能比较短,但是可以用来标定一个物种。

常见下载方式有两种:

1. NCBI Web下载

https://www.ncbi.nlm.nih.gov/dbEST/

打开,搜索你要的物种,比如 Camellia ,可以看到结果EST (50287)。

Web下载几个还行,想要批量下载就有点费力了,ncbi反爬虫,也不好爬。

2. NCBI ftp下载

ftp://ftp.ncbi.nih.gov/repository/dbEST/

直接wget就可以批量下载了。

for one in `seq 1 81` do echo $one wget ftp://ftp.ncbi.nih.gov/repository/dbEST/dbEST.reports.000000.${one}.gz done  

下载后的文件格式是:

IDENTIFIERSdbEST Id: 5 EST name: EST00006 GenBank Acc: M61958 GDB Dsegment: D0S2525ECLONE INFO Clone Id: HHCSB86 Source: ATCC Id in host: 77063 DNA type: cDNAPRIMERS Sequencing: M13 Forward PolyA Tail: UnknownSEQUENCETGCACAACCAAGTTTTGTGACTACGGGAAGGCTCCCGGGGCAGAGGAGTACGCTCAACAAGATGTGTTAAAGAAATCTTACTCCAAGGCCTTCACGCTGACCATCTCTGCCCTCTTTGTGACACCCAAGACGACTGGGGCCCNGGTGGAGTTAAGCGAGCAGCAACTNCAGTTGTNGCCGAGTGATGTGGACAAGCTGTCACCCACTGACAEntry Created: May 26 1992 Last Updated: Dec 18 2012PUTATIVE ID Assigned by submitter2',3'-cyclic nucleotide phoshodiesteraseLIBRARY Id: LIBEST_000004 Lib Name: LIBEST_000004 Hippocampus, Stratagene (cat. #936205) Organism: Homo sapiens Vector: lambdaZAP-II Description: Female, 2 years; oligo-dT + random primed cDNA synthesis;

信息是挺全面的,自己想要哪个物种就只能自己提取了。

提取成FASTA的脚本我就不贴了(效率很重要,因为文件很大)。

 最后我还是自己写了个脚本,biopython实在是太慢了。

import gzip inf = gzip.open("dbEST.reports.000000.49.gz","rb") raw_id = "" seq = ""for line in inf:if line.stratswith("GenBank Acc"):id = line.split(":")[1].strip() if line.stratswith("SEQUENCE"):seq = ""while True:rline = inf.readline()seq+=rline.strip()if not line.stratswith(" "):breakif line.stratswith("Organism"):organism = line.split(":")[1].strip()if organism.startswith("Camellia"):print(">"+id+" "+organism, seq, sep="\n")

  

我的脚本可以用,但是不一定很快。

我用awk试了很久,没有成功。

 

2018年3月16日  

总结

以上是生活随笔为你收集整理的如何下载一个物种的全部EST序列 | NCBI | 表达序列标签的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。