Alineación de secuencias utilizando el modelo de Markov

Pregunta:

Zeyuan

2018-09-11 13:30:16 UTC

view on stackexchange narkive permalink

Estoy aprendiendo a aplicar el modelo de Markov a la alineación de secuencias. El profesor dice que las probabilidades de transición de una alineación de espacio-residuo a una alineación de residuo-espacio y viceversa son ambas 0. ¿Hay alguna razón biológica / matemática detrás de esta declaración? ¿Por qué las celdas (X, Y) e (Y, X) son 0? Esta es una diapositiva de la conferencia 1, semana 4 del curso "Bioinformática: Introduación y métodos" en Coursera.

Dos respuestas:

Chris_Rands

2018-09-11 14:09:49 UTC

view on stackexchange narkive permalink

Si entiendo correctamente su pregunta, creo que para el caso de alineación por pares, hay una explicación simple.

Creo que la información clave es que: una falta de coincidencia siempre debe obtener una puntuación mejor que un espacio . *

Esto se sigue biológicamente ya que la tasa de inserción / eliminación (indel) es aproximadamente una décima parte de la tasa de sustitución (es decir, la aparición de cambios de un solo nucleótido), al menos en vertebrados. (Esto varía a lo largo del árbol de la vida, pero creo que la tasa de sustitución prácticamente siempre excede la tasa de indel.)

Para comprender por qué esto es importante, considere un ejemplo:

  ATG -AGATGT-G

Esta es una 'alineación imposible' bajo las probabilidades que proporcionó, ya que aquí tenemos una transición de una alineación de brecha-residuo a una de residuo-brecha.

Sin embargo, bajo nuestra suposición de que las discrepancias son biológicamente más probables que los indeles, la alineación correcta debería ser:

  ATGAGATGTG

De hecho, este último parece como una mejor alineación.

Esto también sigue para ejemplos más complejos, así que esto:

  ATG - AAGATGTT-AG

Se convierte en esto:

  ATG-AAGATGTTAG

(O esto:

  ATGA-AGATGTTAG

)

* Estrictamente, me refiero a que una sustitución debería puntuar mejor que un indel (con la apertura de hueco asociada y penalizaciones por extensión). De hecho, para que la suposición sea siempre cierta, una serie de desajustes debería puntuar peor que un solo indel. Esta puede no ser siempre una suposición correcta, considere este ejemplo a continuación, ¿el verdadero caso de alineación es 1) o 2) o algo más? ¿O de hecho una alineación global es mala aquí y debería dividirse en 2 alineaciones locales? ¿Existe un posible evento biológico mutacional que pueda explicar esto? Hago estas preguntas solo para señalar que no es en blanco y negro, no tengo respuestas claras

  CGTACGTAGAGGAATGCCCCCCCCC ------ --AGCAACGTAGCAT CGTACGTAGAGGAATG --------- TTTTTTTTAGCAACGTAGCAT

  CGTACGTAGAGGAATGCCCCCCCCCAGCAACGTAGCAT CGTACGTAGAGGAATGTTTTTTTT-AGCAACGTAGCAT

user172818

2018-09-12 23:51:02 UTC

view on stackexchange narkive permalink

Todo lo que Chris_Rands dijo es correcto: usted establece la probabilidad de $ X \ a Y $ y $ Y \ a X $ en 0 para prohibir inserciones / eliminaciones adyacentes en la alineación. Muchos libros de texto, incluidos algunos clásicos, usan esta regla, pero de hecho, la regla es cuestionable. Es más fácil ver esto en la alineación de Smith-Waterman bajo la penalización por brecha afín, que es en gran parte la visión no probabilística de HMM emparejados.

Con la penalización por brecha afín, una brecha de longitud $ k>0 $ es puntuado como $$ g (k) = - (d + k \ cdot e) $$ donde $ d \ ge0 $ es la penalización por apertura del hueco y $ e>0 $ es la penalización por extensión del hueco. Suponga que estamos usando una matriz de puntuación simple donde una discrepancia obtiene $ -b $, $ b>0 $. Es posible que veamos una inserción seguida inmediatamente de una eliminación (y viceversa) si $ b>2e $. En realidad, no es tan difícil que esto suceda. Por ejemplo, para la alineación humano-ratón (ver el papel blastz), $ e = 30 $ y $ b $ van de 31 a 125. Es posible que un $ X \ a Y $ Se prefiere la transición en la alineación.

Teóricamente hablando, tiene más sentido considerar las transiciones inmediatas entre inserciones y eliminaciones. En la práctica, sin embargo, la diferencia entre permitir / rechazar tales transiciones es probablemente menor la mayor parte del tiempo.

EDITAR: en el ejemplo de Chris

  CGTACGTAGAGGAATGCCCCCCCCC ------ --AGCAACGTAGCAT CGTACGTAGAGGAATG --------- TTTTTTTTAGCAACGTAGCAT

Si usamos una matriz de puntuación con $ b>2e $ pero no permitimos transiciones adyacentes de ins a del, probablemente terminaremos con una alineación como

  CGTACGTAGAGGAATGCCCCCCCCC ------- AGCAACGTAGCAT CGTACGTAGAGGAATG -------- TTTTTTTTAGCAACGTAGCAT

Esta puntuación de alineación será menor .

ⓘ

Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 4.0 bajo la que se distribuye.

acerca de - nota legal