Pregunta:
Imputación de genotipos faltantes de paneles de genotipado separados
Greg
2017-06-01 12:27:26 UTC
view on stackexchange narkive permalink

¿Cuál es el estándar actual para imputar genotipos faltantes entre dos paneles de genotipificación? Tengo dos poblaciones genotipadas usando dos paneles diferentes (A & B), y me gustaría imputar todos los genotipos en la población B para esas posiciones que se usan en el panel A.

He leído los ejemplos de impute2, y creo que lo más parecido a lo que estoy buscando es este ejemplo, "Imputación con un panel de referencia sin fases".

En pocas palabras, quiero proporcionar una lista de SNP, algún archivo de variantes para la población B e información de haplotipos de 1,000 genomas y obtener genotipos imputados para cada SNP en la lista. ¿Es impute2 el estado del arte para esto?

Depende, si estamos imputando el genoma completo, todos los cromosomas, entonces impute2 es bastante sólido. El panel sin fases daría un mejor resultado, pero un rendimiento lento. Si estamos imputando una región, creo que beagle es mejor.
No quiero imputar todo el genoma, solo ciertos sitios específicos.
One responder:
#1
+4
winni2k
2017-06-01 20:22:21 UTC
view on stackexchange narkive permalink

Dado que mencionas que quieres usar 1000 genomas como panel de referencia para imputar genotipos en tus dos paneles de chips SNP, voy a asumir que estás trabajando con datos humanos.

En ese caso, hay varias opciones con las que puede optar:

  • Si sus dos paneles son de ascendencia europea, probablemente sea mejor que use el HRC panel de referencia junto con una herramienta rápida de imputación de genotipos como Beagle 4.1 para imputar genotipos en cada uno de sus dos paneles de chips SNP por separado.
  • Si sus paneles no son de De ascendencia europea, es probable que desee utilizar el panel de referencia de fase 3 de 1000 genomas con Beagle 4.1, Impute2 o Minimac3.

En cualquier caso, hay dos servicios de fases disponibles que servirán gran parte del trabajo pesado para usted 1, 2.

El segundo documento del Consorcio de casos y controles de Wellcome Trust realizó una análisis de imputación cruzada como usted describe. No veo muchos estudios que utilicen varios paneles de chips SNP. Deberá tener cuidado en su análisis de no verse afectado por los efectos por lotes de usar dos paneles de chips SNP diferentes.

Además, ninguno de estos métodos funcionará si la región en la que está imputando tiene muy pocos variantes. No estoy seguro de cuál es el número mínimo de variantes, pero si está utilizando un panel de genotipificación del genoma completo de al menos 500k SNP, debería estar bien si imputa un cromosoma completo a la vez.

¡Gracias! Parecen buenas opciones. Y sí, estoy trabajando con datos humanos. No sé exactamente de qué origen étnico son los participantes, y sospecho que probablemente sea una población diversa, por lo que 1000 genomas tiene más sentido para mí. Mencionas a Beagle un par de veces, ¿hay alguna razón por la que lo prefieras?
No tengo suficiente experiencia comparando los tres programas Beagle 4.1, Impute2 y Minimac3 para expresar realmente una preferencia. Debe obtener una imputación de buena calidad con cualquiera de ellos, pero pruebe usted mismo, lo cual es fácil de hacer imputando genotipos extendidos. La única advertencia a esto es que creo que Impute2 probablemente tomará un poco más de tiempo que los otros programas al imputar desde un panel de referencia el tamaño del HRC.
Beagle funcionó muy bien y fue fácil de usar. Lo recomiendo altamente


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...