Pregunta:
¿Cómo puedo detectar sistemáticamente secuencias desconocidas de códigos de barras / adaptadores dentro de un conjunto de muestras?
story
2017-05-31 14:49:30 UTC
view on stackexchange narkive permalink

A menudo he descargado conjuntos de datos de la SRA donde los autores no mencionaron qué adaptadores se recortaron durante el procesamiento.

Las alineaciones locales tienden a superar este obstáculo, pero se siente un poco bárbaro.

fastQC trabaja ocasionalmente para detectarlos, pero a veces no encuentra las secuencias de adaptadores reales.

Por lo general, terminaba buscando los kits que usaban y tratando de grep para todos los códigos de barras posibles.

¿Existe una forma más sólida / eficiente de hacer esto?

Esto no responde a su pregunta, pero espero que exista la posibilidad de informar dichos problemas a la SRA para que pidan a los autores que publiquen la información que falta.
¿Por qué cree que la alineación local es un poco bárbara? Debería ser el método predeterminado en la actualidad, a menos que esté trabajando con secuenciación de ARN pequeño. Tiendo a recortar adaptadores para estar en el lado seguro, pero hice mucho trabajo sin molestarme y solo confiando en la alineación local.
Cuatro respuestas:
#1
+4
ewels
2017-06-02 12:52:08 UTC
view on stackexchange narkive permalink

Mencionas que FastQC "no encuentra las secuencias de adaptadores reales" . Supongo que te refieres a la gráfica de Contaminación de secuencias de adaptadores. Sin embargo, los gráficos de contenido de secuencia y kmer suelen ser útiles incluso cuando el primero falla. Los he usado en el pasado; a veces puede leer la secuencia del adaptador desde el comienzo del Gráfico de contenido de la secuencia (o al menos ver cuántas bases recortar).

#2
+2
gringer
2017-05-31 15:45:23 UTC
view on stackexchange narkive permalink

No conozco ningún método existente para hacer esto, pero aquí hay un par de ideas sobre cómo se podría hacer:

Canu tiene un método de recorte de adaptadores que implica buscar la ausencia de superposición para lecturas. Si no hay otras lecturas que compartan la secuencia en una región en particular, la lectura se interrumpe en el punto de baja cobertura y se descartan las piezas pequeñas. Sería posible utilizar un método como este para buscar posibles secuencias de adaptadores / códigos de barras conservando las lecturas cortas.

Otra opción es hacer una búsqueda kmer al comienzo de las lecturas y ver si alguna de los kmers de alta abundancia se pueden ensamblar y / o combinar con adaptadores o códigos de barras conocidos existentes.

#3
+1
bli
2017-05-31 15:28:26 UTC
view on stackexchange narkive permalink

Si conoce una secuencia que debería ser muy abundante en la biblioteca, puede hacer grep de su principio o final (con resaltado de coincidencia de patrón) y ver si la misma secuencia viene sistemáticamente justo antes o justo después, respectivamente. Este tipo de inspección visual puede ayudarlo a encontrar el adaptador.

Por ejemplo, en un laboratorio anterior, estábamos trabajando en D. melanogaster pequeños datos de secuenciación de ARN y mi colega sabía por experiencia previa con este tipo de datos que era probable que el siguiente ARN pequeño fuera abundante: http://flybase.org/reports/FBgn0065042.html

Solo tuvimos que grep en el archivo fastq para ver muchas líneas con esta secuencia, junto a otra secuencia que resultó ser siempre la misma: el adaptador desconocido.

¿Puedo saber el motivo del voto negativo? He visto este método aplicado en un caso de pequeña secuencia de ARN, donde se esperaba una secuencia muy abundante. La inspección visual de la salida de grep de esta secuencia (con resaltado de patrón) dio una muy buena pista de lo que era el adaptador (la parte no resaltada).
La pregunta es cómo detectar secuencias de adaptadores desconocidas, por lo que el OP no conocerá de antemano las secuencias abundantes. Ese es el punto de la pregunta ...
@tallphil No veo el vínculo entre no conocer el adaptador y no saber de una secuencia abundante que se espera que esté presente en los datos. Si mal no recuerdo, en el ejemplo que menciono en mi comentario, mi colega sabía por experiencia previa con este tipo de datos que era probable que el siguiente ARN pequeño fuera abundante: http://flybase.org/reports/FBgn0065042.html Tuve que grep en el archivo fastq para ver muchas líneas con esta secuencia, junto a otra secuencia que resultó ser siempre la misma: el adaptador desconocido.
De hecho, acabo de volver a leer tu publicación y ahora veo lo que querías decir. Ésta es una idea razonable. Sin embargo, creo que lo explicaste mal en el sentido de que un lector podría estar confundido y pensar que querías decir que al buscar la secuencia más abundante podría surgir el código de barras. Debería haber especificado que la "secuencia abundante" en este caso era una secuencia de ácido nucleico conocida que se esperaría que tuviera adaptadores ligados a uno o ambos extremos.
Ah, sí, disculpas, así es exactamente como lo leo. Probablemente no ayudó que la pregunta original mencione grepping para las secuencias de adaptadores esperadas, así que esto estaba fresco en mi mente :) ¡Lo siento @bli! El voto negativo no fue mío, así que me temo que no puedo retractarme.
Intenté aclarar mis explicaciones.
#4
+1
Nils
2017-06-02 16:41:16 UTC
view on stackexchange narkive permalink

La utilidad minion del kit de herramientas kraken / reaper puede ser útil para esto: http://wwwdev.ebi.ac.uk/enright-dev/kraken/reaper/src/ reaper-latest / doc / minion.html

Parece exactamente el tipo de herramienta correcto. Aunque es una lástima, fue diseñado principalmente para el adaptador de extremo de 3 '. Me pregunto si podrías voltear todas tus lecturas y aplicarlas al final de 5 '.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...