En el presente trabajo se propone un algoritmo para la detección de ortólogos que utiliza la agregación de medidas de similitud para caracterizar la relación entre los pares de genes de dos genomas. Las medidas se basan en la puntuación del alineamiento, la longitud de las secuencias, la pertenencia a regiones conservadas y el perfil físico-químico de las proteínas. La fase de agrupamiento sobre el grafo bipartido de similitudes se realiza con el algoritmo de agrupamiento de Markov (MCL). Se define una política de asignación de ortólogos a partir de los grupos de homología obtenidos del agrupamiento. La clasificación se valida con los genomas de Saccharomyces Cerevisiae y de Schizosaccharomyces Pombe usando la lista de ortólogos del algoritmo INPARANOID 7.0, con la medida de validación externa ARI. También se aplican medidas de validación empleando la teoría de conjuntos aproximados para medir la calidad con manejo del desbalance de las clases.
Read full abstract