Implementación de algoritmos de clasificación de una sola clase para la clasificación de péptidos antimicrobianos

Autor: Isaac Pedro Tapia Contreras
Přispěvatelé: CESAR RAUL GARCIA JACAS, Carlos Alberto Brizuela Rodríguez
Jazyk: Spanish; Castilian
Rok vydání: 2022
Předmět:
Zdroj: Centro de Investigación Científica y de Educación Superior de Ensenada
CICESE
Repositorio Institucional CICESE
Popis: Desde el descubrimiento de péptidos con propiedades antimicrobianas, se ha generado un interés por encontrar nuevas secuencias que posean potencial terapéutico en la inhibición de agentes patógenos como: bacterias, hongos, virus, parásitos, entre otros. Para el descubrimiento de nuevas secuencias, se han utilizado de manera exitosa, una variedad de modelos de aprendizaje máquina basados en algoritmos de clasificación binaria y clasificación multiclase, como pueden ser: la máquina de soporte vectorial, bosque aleatorio, K-vecinos más cercanos, redes neuronales, entre otros. Una característica importante de estos algoritmos de clasificación, es que dependen de ejemplos tanto de la clase positiva (AMP), como de la negativa (No-AMP), para poder realizar su proceso de entrenamiento. El problema encontrado con esta metodología, es que actualmente, no se dispone de un conjunto de péptidos validados experimentalmente como no-antimicrobianos. Los conjuntos utilizados en la literatura, se obtienen recuperando secuencias que pertenezcan a organelos celulares (mitocondria, retículo endoplasmático, aparato de Golgi, etc.), lo cual no garantiza la obtención de péptidos no antimicrobianos. Por lo tanto, todos los modelos encontrados en la literatura que utilizan esta metodología, están entrenados utilizando un conjunto de entrenamiento negativo sesgado, que bien podría contener péptidos antimicrobianos desconocidos. Para atacar este problema, se propone utilizar una metodología de clasificación de una sola clase; esto debido a que los algoritmos de una clase, requieren únicamente de la clase positiva para realizar su entrenamiento, que en este caso, es la única que contiene ejemplos validados experimentalmente. En el presente trabajo, se propone un esquema de clasificación jerárquica de una clase, para discriminar “in silico”, secuencias de péptidos antibacteriales del tipo anti Gram positivo y anti Gram negativo. Se compara además el desempeño del esquema propuesto con uno tradicional. Resultados de los experimentos computacionales muestran que: i) los modelos jerárquicos presentan valores superiores de especificidad y los no jerárquicos de sensibilidad, ii) los mejores descriptores para esta tarea de discriminar anti Gram positivo de anti Gram negativo son los del tipo físico-químicos calculados por el software ProtDcal, superando incluso a los generados por la red neuronal profunda, BERT ESM. Since the discovery of peptides with antimicrobial properties, finding new sequences with therapeutic potential in the inhibition of pathogens such as bacteria, fungi, viruses, parasites, among others has received increased interest. To discover new sequences, a variety of machine learning models based on binary classification and multiclass classification algorithms have been successfully used, some examples are: support vector machine, random forest, K-nearest neighbors, and neural networks. An important characteristic of these classification algorithms is that they depend on examples of both, the positive class (AMP) and the negative class (No-AMP) in order to perform their training process. The problem encountered with this methodology is that there is not a set of experimentally validated non-antimicrobial peptides available. The sets used in the literature are obtained by recovering sequences found in cellular organelles (mitochondria, endoplasmic reticulum, Golgi apparatus, etc.), which does not guarantee the absence of antimicrobial activities. Therefore, all models found in the literature based on this methodology are trained by using a biased negative training set, which may well contain unknown antimicrobial peptides. To address this problem, we propose to use a one-class classification methodology; this is because one-class algorithms require only the positive class to perform their training, which in this case, is the only one that contains experimentally validated examples. In the present work, a one-class hierarchical classification scheme is proposed to distinguish “in silico”, antibacterial peptides sequences of the anti Gram-positive and anti Gram-negative types. Additionally, the performance of the proposed scheme is compared with a traditional one-class approach. Results from the computational experiments show that: i) the hierarchical models present superior values of specificity and the non-hierarchical ones of sensitivity, ii) the best descriptors for this task of discriminating anti Gram positive from anti Gram negative sequences are those of the physico-chemical type calculated by the ProtDcal software, surpassing even those generated by the deep neural network, BERT ESM.
Databáze: OpenAIRE