Sažimanje genoma korištenjem referentnog genoma
Autor: | Čeple, Kristijan |
---|---|
Přispěvatelé: | Domazet-Lošo, Mirjana |
Jazyk: | angličtina |
Rok vydání: | 2020 |
Předmět: |
tehnologija
decompression gen veličina TEHNIČKE ZNANOSTI. Računarstvo sličnosti memorija performansa genom size performanse memory storage Computational biology HiRGC kompresija big data TECHNICAL SCIENCES. Computing hardware gene genes similarity genome time geni vrijeme software biology dekompresija DNA bioinformatika računarska biologija speed brzina bioinformatics softver compression RAM technology hardver performance |
Popis: | HiRGC je algoritam referencijske kompresije genoma iz 2017. Prije kompresiranja DNA sekvence kao string, prvo se DNA string preprocesira, uzimajuci u obzir određena 'građena' svojstva, kvalitete i odlike DNA sekvenci koji proizlaze iz njihove strukture i funkcije. Jedan takav način je spremiti DNA u vremenski sortiranoj listi sličnosti i razlika izmedu jedne referentne sekvence i druge(ili više!) ciljnih sekvenci. Ovo je moguće zbog toga što su DNA sekvence međusobno u ljudi 99.9% slične, te algoritam iskorištava ovo svojstvo. Nakon što je DNA procesiran i spremljen na ovaj način, možemo ponovo na vrh ovoga novoga stringa koristiti tradicionalne metode kompresiranja stringova. Konačan rezultat je spektakularan - npr. DNA ljudski genom se kompresira sa neka 3 GB dolje na jedan file od 200-300 MB. Link na gitlab repozitorij: https://gitlab.com/kristijan_ceple/hash-based-referential-genome-compression HiRGC is a 2017 genome compression algorithm. Before compressing the DNA sequences as raw textual data, one can first pursue certain DNA qualities to enhance the compression before-hand the traditional text compression methods. One such way is to process and store the sequences as a list of similarities and differences between a reference sequence, and 1(or more!) target sequences. Human DNA is mutually(between 2 units) 99.9% similar, and this algorithm takes advantage of that. After the DNA is processed in such a manner, it can then be converted using traditional text compression methods. This produces outstanding results – such as reducing a ~3GB human genome into a 200-300MB file. The link to the gitlab repository: https://gitlab.com/kristijan_ceple/hash-based-referential-genome-compression |
Databáze: | OpenAIRE |
Externí odkaz: |