Popis: |
Ovaj diplomski rad bavi se analizom nizova proteina S iz SARS-CoV-2 koronavirusa, a za cilj ima pogledati postoji li pouzdan način grupiranja promatranog uzorka te pronaći koje su mutacije karakteristične za tako dobivene grupe. Sve analize potrebne za zaključke su se provodile nad aminokiselinama prikazanim kao vektorima. Na početku su navedeni matematički i biološki pojmovi potrebni za razumijevanje ovog rada te je uvedena struktura podataka na kojima se provodila analiza. Zatim je proveden kmeans algoritam nad pripremljenim podacima. Rezultat nije dao pouzdan način grupiranja podataka te se dolazi do zaključka da uzorak nije reprezentativan za ciljeve filogenetske analize. Iako nije pronađena dominantna podjela svejedno je nastavljena analiza kako bi se saznalo postoje li neki značajni klasteri te koje su mutacije karakteristične za njih. Prikazom u 2-dimenzionalnom prostoru pronađene su grupe podataka koje su geometrijski promatrane kao kuglice koje su bile udaljene od većine podataka, odnosno od dviju većih kugli. Odabrane su dvije od tih kuglica, jedna koja je sadržavala sve proteine s mutacijom H146Y i druga koja je sadržavala proteine s mutacijom F490S. S obzirom da su se ti podaci grupirali i izdvojili od ostalih, provjereno je i potvrđeno da se to dogodilo isključivo zbog spomenutih mutacija. U konačnici je provjereno jesu li spomenute varijante virusa već postojeće i česte mutacije te se pokazalo da jesu. This thesis deals with the analysis of S-proteins sequences from SARS-CoV-2 coronavirus. The aim of the analysis is to detect reliable clustering of the sample, and determine sequence positions that are relevant or important for this division into clusters. All analyses required for the conclusions were performed on the amino acid sequences represented as vectors in a suitable real vector space. At the beginning, the mathematical and biological concepts needed to understand this paper are listed and the structure of the data on which the analysis was performed is introduced. After that, the k-means algorithm was applied. Results did not provide a reliable way of grouping the data and it is concluded that the sample is not representative. Since no dominant clustering was detected, visual analysis was carried out to detect any significant small clusters. Two such clusters were selected, one containing proteins with the H146Y mutation and the other containing proteins with the F490S mutation. Since these sequences were grouped and separated from the others, it was verified that this occurred solely due to the mentioned mutations. At the end, we successfully checked for these variants on the list of already described, frequent mutations. |