Hibridna metoda sažimanja skupa genoma korištenjem referentnog genoma

Autor: Penić, Jana
Přispěvatelé: Domazet-Lošo, Mirjana
Jazyk: chorvatština
Rok vydání: 2023
Předmět:
Popis: S padanjem cijene sekvenciranja genoma, taj je postupak postao sve češći te zbog toga količina genomskih podataka sve brže raste. To je dovelo do potrebe za učinkovitijim načinima za pohranu i prijenos genomskih podataka te razvojem specijaliziranih algoritama za sažimanje genomskih podataka. U ovom je završnom radu implementiran algoritam za sažimanje Hybrid Referential Compression Method korištenjem programskog jezika Python. HRCM koristi referentni genom za sažimanje drugih genoma traženjem podudaranja sljedova nukleotida. U radu je objašnjen postupak sažimanja i ekstrakcije podataka, korištene strukture podataka, utjecaj parametara na provođenje sažimanja te su prikazani rezultati testiranja na različitim skupovima podataka. As the cost of genome sequencing has fallen, this procedure has become more common and, as a result, the amount of genomic data is rapidly growing. This has led to the need for more efficient ways to store and transfer genomic data and for the development of specialized algorithms for compressing genomic data. In this thesis, the compression algorithm Hybrid Referential Compression Method is implemented using the programming language Python. HRCM uses a reference genome to compress other genomes by searching for matches in the nucleotide sequences. The thesis explains the process of data compression and decompression, the used data structures, the influence of parameters on the implementation of compression, and presents the results of testing on different data sets.
Databáze: OpenAIRE