Esta pregunta se basa en una pregunta en BioStars publicada> hace 2 años por el usuario jack.
Describe un problema muy frecuente de generar anotaciones GO para organismos que no son modelo. . Si bien se basa en un formato específico y una aplicación única (Ontologizer), sería útil tener una descripción general del camino para acceder a un archivo GAF.
Tenga en cuenta que al formato de entrada le falta un poco de información esencial, como cómo se obtuvo. Por lo tanto, es difícil asignar un código de evidencia. Por lo tanto, supongamos que las asignaciones de términos de GO se realizaron de forma automática.
Quiero hacer el enriquecimiento genético usando Ontologizer sin un archivo de asociación predefinido (no es un organismo modelo).
He analizado un archivo con dos columnas para ese organismo como este:
geneA GO: 0006950, GO: 0005737geneB GO: 0016020, GO: 0005524, GO: 0006468 , GO: 0005737, GO: 0004674, GO: 0006914, GO: 0016021, GO: 0015031geneC GO: 0003779, GO: 0006941, GO: 0005524, GO: 0003774, GO: 0005516, GO: 0005737, GO: 0005863geneD GO: 0005634 , GO: 0003677, GO: 0030154, GO: 0006350, GO: 0006355, GO: 0007275, GO: 0030528
He descargado el archivo .ob del archivo de ontología Gen que contiene esta información (de aquí):
!! GO ID (solo primario) y cadenas de texto de nombre. GO: 0000000 [tabulación] cadena de texto [tabulación] F | P | C! donde F = función molecular, P = proceso biológico, C = componente celular! GO: 0000001 herencia de mitocondrias PGO: 0000002 mantenimiento del genoma mitocondrial PGO: 0000003 reproducción PGO: 0000005 actividad de chaperona ribosomal FGO: 0000006 alta afinidad absorción de zinc actividad transportadora transmembrana FGO: 0000007 ión de zinc de baja afinidad actividad transportadora transmembrana FGO: 0000008 tiorredoxina FGO: 0000009 actividad alfa-1,6-manosiltransferasa FGO: 0000010 actividad trans-hexapreniltranstranstransferasa FGO: 0000011 herencia de vacuola P
Lo que necesito como salida es un archivo .gaf en el siguiente formato (en el formato de los archivos aquí):
! gaf-version: 2.0! Project_name: Leishmania major GeneDB! URL: http://www.genedb.org/leish ! Correo electrónico de contacto: mb4@sanger.ac.uk GeneDB_Lmajor LmjF.36.4770 LmjF.36.4770 GO: 0003723 PMID: 22396527 ISO GeneDB: Tb927.10.10130 F complejo de unión a ARN mitocondrial 1 subunidad, putativo LmjF36.4770 taxón del gen Genejor LmjF36.4770 GeneDB 201_Lmajor: 3475Lmajor .36.4770 LmjF.36.4770 GO: 0044429 PMID: 20660476 Subunidad del complejo de unión 1 del ARN mitocondrial ISS C, supuesto taxón del gen LmjF36.4770: 347515 20100803 GeneDB_Lmajor GeneDB_Lmajor LmjF.36.4770 LmjTGNI: 0016.4765 Complejo de unión a ARN mitocondrial 1 subunidad, supuesto taxón del gen LmjF36.4770: 347515 20120910 GeneDB_Lmajor GeneDB_Lmajor LmjF.36.4770 LmjF.36.4770 GO: 0048255 PMID: 22396527 ISO GeneDB: Tb9 27.10.10130 P subunidad del complejo de unión al ARN mitocondrial 1, supuesto taxón del gen LmjF36.4770: 347515 20120910 GeneDB_Lmajor
¿Cómo crear su propio archivo de asociación GO (gaf)?