Pregunta:
¿Por qué secuenciar el genoma humano a una cobertura de 30x?
719016
2017-08-04 20:10:40 UTC
view on stackexchange narkive permalink

Una pregunta un poco histórica sobre un número, cobertura 30 veces mayor, que se ha vuelto tan familiar en el campo: ¿por qué secuenciamos el genoma humano a una cobertura 30 veces mayor?

Mi pregunta tiene dos partes:

  • ¿A quién se le ocurrió el valor 30x y por qué?
  • ¿Es necesario actualizar el valor para reflejar el estado actual de la técnica?

En resumen, si el valor 30x es un número que se basó en las tasas de error y lecturas de Solexa GAIIx 2x35bp anteriores, y la secuenciación estándar de Illumina actual es 2x150bp, ¿es necesario actualizar el valor 30x?

enter image description here

Cuatro respuestas:
chrisamiller
2017-08-04 20:46:52 UTC
view on stackexchange narkive permalink

La primera mención del paradigma 30x que pude encontrar está en el artículo original de secuenciación del genoma completo de Illumina: Bentley, 2008. Específicamente, en la Figura 5, muestran que se han encontrado la mayoría de los SNP y que hay pocas bases descubiertas / sin llamar para cuando llega a 30x: 30xSequencingDepth

En estos días , 30x sigue siendo un estándar común, pero los proyectos de secuenciación de líneas germinales a gran escala a menudo se acercan más a 25x y lo encuentran adecuado. Cada grupo que hace esto en serio ha realizado cálculos de potencia basados ​​en detalles específicos de sus máquinas y preparación (¡cosas como las tasas de error y las longitudes de lectura son importantes!).

La genómica del cáncer va en la otra dirección. Cuando tiene que lidiar con la pureza, la ploidía y las poblaciones subclonales, se necesita mucha más cobertura que 30x. Nuestro grupo mostró en este artículo de 2015 que incluso la cobertura del genoma completo 300 veces superior de un tumor probablemente carecía de variantes raras reales en un tumor.

En general, la cobertura de secuencia que necesita realmente depende de las preguntas que esté haciendo, y recomendaría que cualquiera que diseñe un experimento de secuenciación consulte con un experto en secuenciación y un estadístico de antemano (y es ¡incluso mejor si son la misma persona!)

Esto es lo más lejos que pude rastrear, pero me encantaría saber si alguien puede encontrar una mención anterior de 30x como profundidad estándar.
Probablemente sea el primero. Las tecnologías anteriores no podían alcanzar esa profundidad a un costo razonable.
user172818
2017-08-06 08:27:18 UTC
view on stackexchange narkive permalink

Solexa Inc. secuenció NA12878 chrX a ~ 30x a principios de 2007, que luego pasó a formar parte de Bentley (2008). Creo que esta fue la primera vez que apareció 30x. No recuerdo que tuvieran una razón particular para eso. La Figura 5 en el artículo publicado fue una secuela. Realmente no explica por qué no 25x o 35x, dado que las curvas entre 25x y 35x en esa figura son lineales.

En el resumen de Ajay et al (2011) , los autores argumentaron que "la recomendación actual de una cobertura de ~ 30x no es adecuada". No obstante, la sección de discusión parece sugerir que se necesitarían 50-60x con GAIIx, pero 35x fue adecuado con HiSeq2000 además de una mejor química reciente. En general, este documento proporciona un análisis más completo. La calidad de los datos en ese momento también está más cerca de los datos que producimos hoy.

La cobertura requerida está determinada en gran medida por dos factores: sesgo de ubicación de lectura (por ejemplo, sesgo de GC) y tasa de error de base / mapeo. Si bien el sesgo de GC se ha reducido con el protocolo sin PCR, la tasa de error base ha ido descendiendo desde HiSeq2500. Supongo que sería necesaria una cobertura de 30x si desea lograr la sensibilidad con los datos de 30x más antiguos. Illumina, como proveedor de servicios de secuenciación, y nuestra instalación de secuenciación aún insisten en el umbral de 30x.

Curiosamente, también encontramos en Sudbery et al, 2009 (https://genomebiology.biomedcentral.com/articles/10.1186/gb-2009-10-10-r112), que el número de regiones continuas sin una interrupción en la cobertura era mayor o menos lineal en el número de lecturas secuenciadas entre 25x y 60x al secuenciar el genoma del ratón.
miroxlav
2017-08-05 01:51:38 UTC
view on stackexchange narkive permalink

La cobertura 30 veces mayor no es exclusiva de este problema, pero el número 30 tiene su papel empírico en las estadísticas:

En el análisis estadístico, la regla de tres establece que si un evento determinado no ocurrió en una muestra con n sujetos, el intervalo de 0 a 3 / n es un intervalo de confianza del 95% para la tasa de ocurrencias en la población. Cuando n es mayor que 30, esta es una buena aproximación a los resultados de pruebas más sensibles.

fuente: Wikipedia: Regla de tres (estadísticas)

De manera similar, puede buscar preguntas relacionadas como esta:

De acuerdo con esto, he visto procesamiento de datos en otras disciplinas que requerían n ≥ 30 para una confiabilidad suficiente de los resultados.

En este tipo de comunidad, esperaría alguna oposición bajo la respuesta, pero hasta ahora solo estoy obteniendo votos negativos (puntuación actual: + 6 / -3).
finswimmer
2017-08-10 21:58:43 UTC
view on stackexchange narkive permalink

El punto que siempre pierdo en la discusión sobre la cobertura es que nadie dice cómo se calculó. ¿Se eliminaron los duplicados? ¿Cómo se cuentan las lecturas emparejadas superpuestas? ¿Como 2 o 1? Solo para señalar dos cosas que influyen en la cobertura.

Cualquiera que cuente lecturas de pares de extremos superpuestos como 2 lo está haciendo mal. Nunca hay excusa para eso.
@DevonRyan ¿por qué? Las partes superpuestas de las lecturas de pares son dos réplicas técnicas independientes de la misma región. ¿Cuál es la diferencia con la superposición de dos lecturas que no están emparejadas? ¿Deberían también contarse como una? Por supuesto, si fusiona lecturas superpuestas en secuencias más largas antes de un ensamblaje, entonces debe contarlo una vez, pero de lo contrario no veo una razón por la que deberían contarse como uno ...
@KamilSJaron Representan un fragmento secuenciado, contarlos de otra manera es mentir.
@DevonRyan Mismo fragmento, pero diferente secuenciación y es una cobertura de secuenciación, no una cobertura de fragmentos. No te entiendo.
@KamilSJaron Estás siendo demasiado literal. El objetivo de la métrica es evaluar la cantidad de datos que tiene por puesto. Las lecturas de PE superpuestas no representan puntos de datos diferentes, por eso se tratan como una sola unidad en las llamadas de variante y pico.
En mi opinión, la cobertura debería representar el número de moléculas diferentes. Por lo tanto, es obligatorio contar las lecturas emparejadas superpuestas y eliminar los duplicados. De lo contrario, el recuento de lecturas es solo un número más o menos inútil.
@KamilSJaron,, si desea utilizar esa información, existen algoritmos que colapsan los segmentos superpuestos de dichas lecturas de una manera inteligente (por ejemplo, para cada base superpuesta, use la que tenga la mayor calidad y descarte la otra). Devon tiene razón en que no deben tratarse en absoluto como eventos independientes para el descubrimiento de variantes, cálculo de profundidad, etc.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...