Popis: |
Određivanje i poznavanje alela ključno je za razumijevanje nasljednih osobina organizama, u području medicinske genetike, poljoprivrede i stočarstva. U našem radu smo implementirali algoritam koji će pronaći sve različite varijante alela u uzorku genetskog materijala. Bavimo se određivanjem varijanti gena grupiranjem, koristeći algoritam hijerarhijskog grupiranja te cilj istraživanja je identificirati različite varijante gena. Uzorci gena dobiveni su sekvenciranjem, a algoritam grupiranja temelji se na grupiranju sličnih sekvenci i analizi većeg broja uzoraka. U radu je provedena detaljna priprema podataka i poravnanje sekvenci kako bi se osigurala kvalitetna analiza. Različite parametre, poput troška za otvaranje i proširenje praznine, prilikom stvaranja višestrukog poravnanja sekvenci, prilagođavali smo kako bi se postigla što bolja kvaliteta grupiranja. Korišten je algoritam hijerarhijskog grupiranja (Agglomerative clustering) za grupiranje varijanti gena. Uspješno detektiramo više zastupljene gene te iznosimo problematiku detektiranja manje zastupljenih gena i odbacivanja nevažećih podataka. Discovering and knowing alleles is key to understanding the hereditary traits of organism, also in the field of medical genetics, agriculture and cattle breeding. In our work we have implemented an algorithm that will find all the different allele variants in the sample of genetic material. We did discovering of gene variants by grouping, using hierarchical grouping algorithm and the goal of the research is to identify different variants of genes. The gene samples were obtained by sequencing, and the clustering algorithm was based on grouping similar sequences and analyzing a large number of samples. Detailed data preparation and sequence alignment was needed to ensure quality analysis. We adjusted different parameters, such as the cost to open and widen the gap, when creating multiple sequence alignment, in order to achieve the best possible result quality by grouping. Hierarchical grouping algorithm (Aglomerative clustering) was used for grouping gene variants. We successfully detected genes that are more represented and we presented the problem of detecting less represented genes and rejecting invalid data. |