¿Cuál es la distribución de los tamaños de indel en un genoma humano sano? de inserción: ratios de deleción?

Pregunta:

ShanZhengYang

2017-06-20 01:49:17 UTC

view on stackexchange narkive permalink

Según tengo entendido, los indels tienen entre 1 pb y 10 Kb, y un genoma sano tiene ~ 400K-500K Indels. Seguramente la mayoría de estos son pequeños.

¿Cuál es la distribución de los tamaños de inserción en un genoma humano sano? ¿Cuál es la distribución de tamaños de eliminación? ¿Cuál es una proporción promedio de inserciones: eliminaciones?

No he encontrado una referencia definitiva.

Dos respuestas:

Devon Ryan

2017-06-20 02:43:05 UTC

view on stackexchange narkive permalink

Uno de los artículos de 2015 del proyecto 1000 genomes tiene una bonita figura (figura 1) que muestra la distribución de tamaño de inserciones y deleciones de tamaño mediano a grande:

De otro artículo de 1000 genomas de 2015, se puede ver que el número absoluto de indeles más pequeños es mucho mayor, aunque un rango de tamaño exacto no es ' t dado (por lo que vi). Si realmente desea saber eso, simplemente descargue los archivos VCF de 1000 genomas más recientes y calcule el tamaño medio exacto y / o la distribución que desea.

user172818

2017-06-20 07:17:29 UTC

view on stackexchange narkive permalink

Genome-In-A-Bottle (GIAB; versión 3.3.2) contiene 3,21 M SNP en cromosomas auto + X y 0,51 M INDEL en regiones de confianza de 2,58 Gb. La relación ins: del es 0.92. En el conjunto pacbio CHM1-CHM13 (ascendencia europea), hay 3,57 M auto + X SNP y 0,58 M INDEL en regiones seguras de 2,71 Gb [ referencia] con una relación ins: del 0,99. Estos le dan una idea de los INDEL relativamente cortos.

Para indels de más de 50 pb, le recomiendo leer este artículo de Chaisson et al. Este conjunto de llamadas se construye a partir del ensamblaje del genoma completo del genoma CHM1. Es mucho más completo y probablemente más preciso que todos los demás conjuntos de llamadas. La siguiente es la Tabla 1 del artículo:

Tengo que decir que la alta proporción de ins-/ del-del-ratio me sorprende , pero esto es lo que nos dicen los datos. Hice un análisis similar y alcancé una proporción similar.

PD: Estos números son esencialmente de un haplotipo. Serán más altos para una muestra diploide.

EDITAR: algunos números en la publicación original son incorrectos.

"GIAB ignora las regiones duras que tienden a albergar más indeles", eso es interesante. ¿Tiene una fuente para eso o podría explicar más?

@Randoms Lo siento. Algunos de mis números están equivocados. Consulte la actualización. En cuanto a su pregunta, GIAB excluye STR largos, mientras que la mitad de los indeles provienen de STR. Puede ver que "(0.58-0.51) / (2.71-2.58) = 0.54" indels por kb fuera de la región de confianza de GIAB es mucho más alto que "0.51 / 2.58 = 0.20" dentro de su región de confianza.

OK gracias. ¿De dónde vienen esos números en eso?

@Randoms Estos VCF son públicos. Puedes contar por ti mismo.

¿Podría explicar de dónde provienen los números para el conjunto de datos CHM1-CHM13? El documento de Syndip que vinculó se refiere a "0,38 millones de INDEL de 2 a 50 pb". El VCF `rep2.37.broad.hc.raw.vcf.gz`, según mi cuenta, tiene 936587 indeles, 493900 están dentro de [2, 50]. El VCF `full.37m.vcf.gz` tiene 1145454 indels — 556256 en [2, 50].

La intersección de los VCF con el `full.37m.bed.gz`, lo que supongo que debería haber estado haciendo, arroja estimaciones más bajas, aunque todavía no es lo que está citando, o lo que está extrañamente en el periódico.

@Randoms Hay mucho que contar: la versión de los datos y el manuscrito, y la forma en que se toma la intersección y se cuenta. Los comentarios no son el mejor lugar para las discusiones.

ⓘ

Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.

acerca de - nota legal