Me gustaría recopilar la secuencia de proteínas FASTA de Entrez con python 2.7. Estoy buscando proteínas que tengan las palabras clave: "terminasa" y "grande" en su nombre. Hasta ahora obtuve este código:
de Bio import EntrezEntrez.email = "example@example.org" searchResultHandle = Entrez.esearch (db = "protein", term = "terminase large", retmax = 1000) searchResult = Entrez.read (searchResultHandle) ids = searchResult ["IdList"] handle = Entrez.efetch (db = "protein", id = ids, rettype = "fasta", retmode = "text") record = handle.read () out_handle = open ('myfasta.fasta', 'w') out_handle.write (record.rstrip ('\ n'))
Sin embargo, puede conseguirme varias terminaciones de varios organismos, mientras que solo necesito bacteriófagos de forma terminaasa (específicamente Virus [taxid 10239], huésped: bacteria). Me las arreglé para obtener los identificadores de acceso nuccore de NCBI de los virus en los que estoy interesado, pero no sé cómo combinar esas dos informaciones. El archivo de identificación se ve así:
NC_001341NC_001447NC_028834NC_023556 ...
¿Necesito acceder a cada archivo gb de cada ID y buscar mi proteína deseada en eso?