An efficient evolutionary clustering and prediction model for gene expression time series data

Autor: Erdem, Atakan
Přispěvatelé: Gündem, Taflan İmre, Bilgisayar Mühendisliği Anabilim Dalı
Jazyk: angličtina
Rok vydání: 2014
Předmět:
Popis: Gen ifadesi deneylerinin bir aşamasında veriler manuel yöntemlerle elde edildiği için verilerin güvenilirliği düşüktür. Bu verilerin bir veri madenciliği algoritmasına ya da modele direkt girdi olması durumunda varılmak istenen sonuçların güvenilirliğinin olumsuz yönde etkilemesi kaçınılmazdır. Çalışmamızda, elde edilen verilerin belirsizliğini azaltmak için her verinin, örnek veri üretme teknikleriyle elde edilen veri kümeleriyle temsil edilmesini sağladık. Örnek veri yaklaşımı verilerin belirsizlik yüzdesini azaltırken işlem yapılan veri setinin örnek veri kümesi eleman sayısı oranında artmasına, dolayısıyla da ilgili veri işleme algoritmalarının sonuç üretme zamanının artmasına neden olmaktadır. Çalışmamızın ilk kısmında belirsiz verilerin hızlı bir biçimde kümelenebilmesi için çok çekirdekli sistemler üzerinde eş zamanlı çalışabilen M-FDBSCAN adını verdiğimiz bir `belirsiz veri kümeleme` algoritması geliştirdik. Algoritmada önerilen yöntemle yalnızca çok çekirdekli sistemlerde değil tek çekirdekli sistemlerde de veri işleme hızında büyük artışlar sağlandığı gösterdik. Çalışmamızın ikinci kısmında M-FDBSCAN algoritmasını, zaman serisi verilerinin hızlı ve etkin bir biçimde işlenebildiği, E-MFDBSCAN adı verilen bir `evrimsel kümeleme` algoritmasına dönüştürdük. Bu yeni algoritma global kümelerin oluşturulmasını sağlamaktadır. Çalışmamızın son aşamasında oluşturulan global kümelerin zaman bazlı evrimsel desenlerini kullanarak bir öngörü modeli geliştirdik. Bu öngörü modeliyle bir sonraki zaman noktasına ait bir global kümenin benzerlik ve desen bilgilerinin kestiriminin yapılabilmesini sağladık. Because of using manual methods in some parts of gene expression experiments, reliability of the data is low. If this data is directly utilized as input to a data mining algorithm or a model for evaluating gene expression data, then the adverse affects to the desired results will be inevitable. In order to eliminate aforementioned adverse affects and reduce the fuzziness, we represent the data with sample data sets that are generated by using uncertain data management techniques. Sample data approach not only reduces the percentage of fuzziness, but also it causes the output generation time to be increased due to an increase in the amount of processed data, which is directly proportional to the cardinality of the sample data set. In the first part of the study, we introduce an uncertain data clustering algorithm, named M-FDBSCAN, for enabling one to cluster uncertain data rapidly, which runs on multi-core systems in a concurrent fashion. We show that by using the proposed method, the algorithm yields considerable performance improvement on single core systems, as well. In the second part of the study, M-FDBSCAN algorithm is converted into an evolutionary clustering algorithm, named E-MFDBSCAN, by which time series data can be processed rapidly and efficiently. This new algorithm enables to generate global clusters. In the last part of the study, using time-based evolutionary patterns of global clusters a prediction model is constructed. The proposed prediction model enables us to predict the patterns and the similarities of a global cluster that will be generated at the next time point. 82
Databáze: OpenAIRE