Sažimanje genoma korištenjem referentnog genoma

Autor: Čeple, Kristijan
Přispěvatelé: Domazet-Lošo, Mirjana
Jazyk: angličtina
Rok vydání: 2020
Předmět:
Popis: HiRGC je algoritam referencijske kompresije genoma iz 2017. Prije kompresiranja DNA sekvence kao string, prvo se DNA string preprocesira, uzimajuci u obzir određena 'građena' svojstva, kvalitete i odlike DNA sekvenci koji proizlaze iz njihove strukture i funkcije. Jedan takav način je spremiti DNA u vremenski sortiranoj listi sličnosti i razlika izmedu jedne referentne sekvence i druge(ili više!) ciljnih sekvenci. Ovo je moguće zbog toga što su DNA sekvence međusobno u ljudi 99.9% slične, te algoritam iskorištava ovo svojstvo. Nakon što je DNA procesiran i spremljen na ovaj način, možemo ponovo na vrh ovoga novoga stringa koristiti tradicionalne metode kompresiranja stringova. Konačan rezultat je spektakularan - npr. DNA ljudski genom se kompresira sa neka 3 GB dolje na jedan file od 200-300 MB. Link na gitlab repozitorij: https://gitlab.com/kristijan_ceple/hash-based-referential-genome-compression HiRGC is a 2017 genome compression algorithm. Before compressing the DNA sequences as raw textual data, one can first pursue certain DNA qualities to enhance the compression before-hand the traditional text compression methods. One such way is to process and store the sequences as a list of similarities and differences between a reference sequence, and 1(or more!) target sequences. Human DNA is mutually(between 2 units) 99.9% similar, and this algorithm takes advantage of that. After the DNA is processed in such a manner, it can then be converted using traditional text compression methods. This produces outstanding results – such as reducing a ~3GB human genome into a 200-300MB file. The link to the gitlab repository: https://gitlab.com/kristijan_ceple/hash-based-referential-genome-compression
Databáze: OpenAIRE