Use of the Jaccard Index to analyze the short-term evolution of bacterial genomes

Autor: Ghadban Garrido, Cristina
Přispěvatelé: Cruz, Fernando de la, Cruz, Fernando de la [0000-0003-4758-6857]
Jazyk: Spanish; Castilian
Rok vydání: 2021
Předmět:
Zdroj: Digital.CSIC. Repositorio Institucional del CSIC
instname
Popis: Trabajo fin de Máster defendido en la Facultad de Ciencias de la Universidad de Cantabria, el 25 de junio de 2021 - Curso 2020-2021 - Máster Interuniversitario en Ciencia de Datos / Master in Data Science (UIMP-UC-CSIC)
[EN] Bacterial genomes have evolved over millions of generations to become one of the most efficient and compact on the planet. Genome evolution is the result of a combination of point mutations, horizontal gene transfer, deletions, duplications and gene rearrangements. Advances in sequencing technologies have provided unprecedented access to the enormous genetic diversity that has been accumulated in the bacterial domain during its 3.500-4.000 million years of evolution. Faced with this wealth of information, microbiologists must develop structured means for describing this diversity to enable them to relate phenotype and genotype, thus facilitating a better understanding of the microbiological world. With this purpose, the objective of this TFM has been to develop a technique capable of detecting mutations between very similar genomes (with Jaccard index (JI) greater than 0.99), allowing us to establish which evolutionary events have taken place between one sample and another. For this purpose, a Python code has been developed that calculates the filtered Jaccard index, a modification of the JI that filters out those sequences that only differ in one character. Applied to genomics, the filtered Jaccard index estimates the similarity between very similar genomes by excluding in the calculation of the coefficient those k-mers (sequences of k length) derived from the presence of single nucleotide polymorphism (SNPs), that is, changes of a single nucleotide (equivalent to a single character). As a result, we have obtained an efficient tool for filtering k-mers related to SNPs that allows the calculation of the Jaccard index taking into account only those mutations that involve differences greater than one base. In this way, the understanding of the genetic differences between genomes of the same species is facilitated, which simplifies and speeds up the monitoring of the prevalence of bacterial strains as well as any changes in the patterns of antibiotic resistance and virulence, especially those that cause zoonoses, among which the example of this work stands out: Salmonella spp.
[ES] Los genomas bacterianos han evolucionado a lo largo de millones de generaciones hasta convertirse en unos de los más eficientes y compactos del planeta. La evolución del genoma es el resultado de la combinación de mutaciones puntuales, transferencia horizontal de genes, deleciones, duplicaciones y reordenamientos génicos. Los avances en las tecnologías de secuenciación han proporcionado un acceso sin precedentes a la enorme diversidad genética que se ha acumulado en el ámbito bacteriano durante sus 3.500-4.000 millones de años de evolución. Ante esta gran cantidad de información, los microbiólogos deben desarrollar medios estructurados para describir esta diversidad que les permita relacionar fenotipo y genotipo, facilitando así una mejor comprensión del mundo microbiológico. Con este propósito, el objetivo de este trabajo final de máster ha sido el desarrollo de una técnica capaz de detectar las mutaciones entre genomas muy similares (con índices de Jaccard (JI) superiores al 0.99) permitiendo establecer qué eventos evolutivos se han sucedido entre una muestra y otra. Para ello, se ha desarrollado un código en Python que calcula el índice de Jaccard filtrado, una modificación del JI que filtra aquellas secuencias que sólo se distinguen en un caracter. Aplicado a genómica, el índice de Jaccard filtrado estima la similitud entre genomas muy similares omitiendo en el cómputo del coeficiente aquellos k-mers (secuencias de k longitud) derivados de la aparición de single nucleotide polymorphism (SNPs), es decir, cambios de un solo nucleótido (equivalente a un único caracter). Como resultado, se ha obtenido una herramienta eficaz en el filtrado de k-mers relativos a SNPs que permite el cálculo del índice de Jaccard teniendo en cuenta sólo aquellas mutaciones que implican diferencias mayores a una base. De esta forma, se facilita el entendimiento de las diferencias genéticas entre genomas de la misma especie, lo que permite simplificar y agilizar la monitorización de la prevalencia de las cepas bacterianas así como cualquier cambio en los patrones de resistencia a los antibióticos y virulencia, en especial aquellas que provocan zoonosis, entre las que destaca el ejemplo de este trabajo: Salmonella spp.
Databáze: OpenAIRE