Subsequence feature maps for protein function annotation

Autor: Saraç, Ömer Sinan
Přispěvatelé: Atalay, Mehmet Volkan, Bilgisayar Mühendisliği Anabilim Dalı
Jazyk: angličtina
Rok vydání: 2008
Předmět:
Popis: Sekans belirleme teknolojlerindeki gelişmelerle birlikte, işlevi bilinmeyen protein dizilerininsayısı hızla artmaktadır. Bunun sonucunda proteinlerin işlevsel olarak etiketlenmesiiçin kullanılabilecek hesaplamalı metodlar çok büyük önem kazanmıştır. Bu tezde,ilk olarak protein birincil dizilerini sabit boyutlu sayısal vektörlere eşleyen bir öznitelikuzayı eşleme sistemi tanımladık. Altdizi profili eşlemesi adını verdiğimiz bu eşlemeprotein dizilerinin altdizi modellerini hesaba katmaktadır. Oluşan vektörler proteinleriişlevsel olarak sınıflandırmak için desktek vectör makinalarına girdi olarak kullanılmıştır.?Ikinci kısımda, proteinlerin işlevsel etiketlenme işini bir ilevsel sınıflandırma problemiolarak tanımladık ve Gen Ontoloji (GO) terimleri üzerinde tanımlanmış bir sınıflandırmaçatısı bina ettik. Farklı sınıflandırma metodları ve bunların farklı birleşimleri 300 GOterimi üzerine kurulan bu sınıflandırma çatısında değerlendirildi. Sonuçlar gösterdi kibirleşim sınıflandırma doğruluğunu arttırmaktadır. Ortaya çıkan sistem internet üzerindeherkese açık bir işlevsel etiketleme uygulaması haline getirilmiştir. With the advances in sequencing technologies, the number of protein sequences withunknown function increases rapidly. Hence, computational methods for functional annotationof these protein sequences become of the upmost importance. In this thesis,we first defined a feature space mapping of protein primary sequences to fixed dimensionalnumerical vectors. This mapping, which is called the Subsequence Profile Map(SPMap), takes into account the models of the subsequences of protein sequences. Theresulting vectors were used as an input to support vector machines (SVM) for functionalclassification of proteins. Second, we defined the protein functional annotation problemas a classification problem and construct a classification framework defined on Gene Ontology(GO) terms. Different classification methods as well as their combinations areassessed on this framework which is based on 300 GO molecular function terms. The resultsshowed that combination enhances the classification accuracy. The resultant systemis made publicly available as an online function annotation tool. 115
Databáze: OpenAIRE