Popis: |
U ovom radu je opisan alat za računanje gornje granice u sastavljanju genoma. U potpunosti je napisan u jeziku C++ i testiran na nekoliko skupova podataka. Alat ispisuje postotak pokrivenosti genoma ovisno o ulaznim podacima dobivenih sekven-ciranjem. Također se kreira i datoteka u GFA format koja služi za sastavljanje grafa. U radu je korišteno nekoliko algoritama poput sweep line algoritma, pretraživanja u dubinu i Needleman–Wunsch algoritma. Testiran je na dva skupa podataka: genomu bakterije Escherichie coli i kvascu Saccharomyces cerevisiae. Glavnu primjenu c ́e nac ́i u evaluiranju kvalitete podatak dobivenih sekvenciranjem, kao i kod evaluiranja drugih alata za sastavljanje genoma. In this thesis, a tool for genome upper bound assembly was created. It was fully written in C++ and tested on couple of datasets. Tool outputs percentage of the genome coverage that is possible to build in an ideal case considering sequenced data provided at the input. It also creats a graph file in GFA format. Algorithms like sweep line, depth-first search and Needleman–Wunsch were implemented. Tool was tested on datasets of Escerichia coli and yeast Saccharomyces cerevisiae. It might be mainly used in evaluating quality of the sequenced data and other de novo assembly methods. |