Pregunta:
¿Cómo seleccionar estructuras de alta calidad del Protein Data Bank?
marcin
2017-06-01 18:04:41 UTC
view on stackexchange narkive permalink

Los modelos de estructuras depositadas en el banco de datos de proteínas varían en calidad, dependiendo tanto de la calidad de los datos como de la experiencia y la paciencia de la persona que construyó el modelo. ¿Existe un subconjunto bien aceptado de las entradas de PDB que solo tiene estructuras de "alta calidad"? Idealmente, estas estructuras serían representativas de clases de proteínas en todo el AP.

basado en una pregunta real de biology.SE

Dos respuestas:
#1
+9
Davidmh
2017-06-01 18:55:33 UTC
view on stackexchange narkive permalink

Hay una base de datos muy buena, pdbcull (también conocido como el servidor PISCES en la literatura). Filtra el PDB para alta resolución e identidad de secuencia reducida. También parece actualizarse con regularidad. Dependiendo de los límites, obtendrá entre 3000 y 35000 estructuras.

Si está interesado específicamente en rotámeros, es posible que desee mirar top8000 en su lugar, donde han verificado para alta resolución y buenas puntuaciones de MolProbity. También proporcionan una base de datos de rotámeros.

PDB también proporciona su propia agrupación. Primero agrupan las secuencias y luego extraen una estructura representativa para cada una, según el factor de calidad ( 1 / resolution - R_value ). Esto tiene la ventaja de ser completo, pero tendrá estructuras malas cuando nunca se obtuvieron buenas.

#2
+5
Rosalind Was Robbed
2017-06-15 03:56:46 UTC
view on stackexchange narkive permalink

Si eliges realizar tu propia selección del PDB, la resolución es probablemente lo primero que querrás ver, que como menciona Davidmh es el principal criterio de selección para PISCIS. Las estructuras de alta calidad también tendrán mejores valores de factor R. También puede dar preferencia según la técnica experimental, en orden descendente de calidad:

Difracción de neutrones, difracción de rayos X, RMN en solución / estado sólido, microscopía electrónica / cristalografía, difracción de fibra, dispersión en solución.

sí, estos son criterios de PISCIS, aunque parecen bastante simplistas. Se usa el factor R pero se ignora la brecha entre el factor R y Rfree. La resolución (presumiblemente d_min) es el único criterio de calidad de los datos (se ignora la integridad de los datos). Sin validación de geometría.
La discrepancia de factor R y libre de R es algo excelente para observar, pero en mi experiencia, el número de estructuras que informan ambos de manera estandarizada es bastante pequeño. BioJava solo recientemente los puso a disposición, IIRC, y esa es generalmente la herramienta que uso.
El [80,7%] (http://mmcif.wwpdb.org/dictionaries/mmcif_pdbx_v50.dic/Items/_refine.ls_R_factor_R_free.html) de estructuras PDB informa sin R, un poco menos del [86,8%] (http: // mmcif .wwpdb.org / diccionarios / mmcif_pdbx_v50.dic / Items / _refine.ls_d_res_high.html) que informa la resolución.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...