Si entiendo correctamente su pregunta, creo que para el caso de alineación por pares, hay una explicación simple.
Creo que la información clave es que: una falta de coincidencia siempre debe obtener una puntuación mejor que un espacio . *
Esto se sigue biológicamente ya que la tasa de inserción / eliminación (indel) es aproximadamente una décima parte de la tasa de sustitución (es decir, la aparición de cambios de un solo nucleótido), al menos en vertebrados. (Esto varía a lo largo del árbol de la vida, pero creo que la tasa de sustitución prácticamente siempre excede la tasa de indel.)
Para comprender por qué esto es importante, considere un ejemplo:
ATG -AGATGT-G
Esta es una 'alineación imposible' bajo las probabilidades que proporcionó, ya que aquí tenemos una transición de una alineación de brecha-residuo a una de residuo-brecha.
Sin embargo, bajo nuestra suposición de que las discrepancias son biológicamente más probables que los indeles, la alineación correcta debería ser:
ATGAGATGTG
De hecho, este último parece como una mejor alineación.
Esto también sigue para ejemplos más complejos, así que esto:
ATG - AAGATGTT-AG
Se convierte en esto:
ATG-AAGATGTTAG
(O esto:
ATGA-AGATGTTAG
)
* Estrictamente, me refiero a que una sustitución debería puntuar mejor que un indel (con la apertura de hueco asociada y penalizaciones por extensión). De hecho, para que la suposición sea siempre cierta, una serie de desajustes debería puntuar peor que un solo indel. Esta puede no ser siempre una suposición correcta, considere este ejemplo a continuación, ¿el verdadero caso de alineación es 1) o 2) o algo más? ¿O de hecho una alineación global es mala aquí y debería dividirse en 2 alineaciones locales? ¿Existe un posible evento biológico mutacional que pueda explicar esto? Hago estas preguntas solo para señalar que no es en blanco y negro, no tengo respuestas claras
1)
CGTACGTAGAGGAATGCCCCCCCCC ------ --AGCAACGTAGCAT CGTACGTAGAGGAATG --------- TTTTTTTTAGCAACGTAGCAT
2)
CGTACGTAGAGGAATGCCCCCCCCCAGCAACGTAGCAT CGTACGTAGAGGAATGTTTTTTTT-AGCAACGTAGCAT