Estoy intentando ensamblar un transcriptoma bivalvo. Dado que los bivalvos se alimentan por filtración, sus transcriptomas tienden a estar altamente contaminados por bacterias, algas y otras cosas. Dado que reuní varias transcriptomas, tengo una gran cantidad de lecturas (> 2B lecturas). También tengo un genoma de referencia de calidad no tan alta.
Ahora, no estoy seguro de cuándo realizar un filtro basado en BLAST en estas lecturas:
- Hacer ¿Filtro las lecturas con BLAST antes de ensamblarlas?
- ¿Ensamblo el transcriptoma y luego filtro los contigs contaminantes?
- Ya que tengo un genoma de referencia, simplemente no me importan las lecturas de contaminantes porque no se alinearán con él?
Teniendo esta cantidad de lecturas, me inclinaría a filtrar primero aquellas lecturas que no coinciden con Metazoa, y luego realizar un segundo filtro después del ensamblaje para poder retenga solo aquellos contigs que coincidan con Lophotrochozoa.
Si conoce recursos sobre cómo manejar la contaminación de lectura, no dude en compartirlos.