Popis: |
This thesis explores application of machine learning methods for classification of patients with Parkinson's disease (PD) to improve accuracy over current methods. Our aim is to present a generalised algorithm for disease progression analysis from time series data that can be applied to arbitrary data of this format. We used clinical time series data based on Parkinson's Progression Markers Initiative (PPMI) questionnaires. After normalizing and celeaning the data using modern data mining techniques, we used unsupervised clustering to identify patients' disease subtypes. After assigning the initial subtype membership to the patients' baseline visits, we tested and used the best performing supervised learning model to predict patients' disease severity for the remaining visits. For this task, we applied the support vector machine (SVM), multilayer perceptron (MLP) and random forest (RF). SVM proved to be the best solution for our problem with an accuracy of 95.06% on the test set. Finally, we model and observe patients' disease subtype changes between their consecutive visits using skip-grams and markov chains. This thesis provides a rigorous analysis of advanced machine learning techniques on time series data. V diplomski nalogi obravnavamo uporabo metod strojnega učenja za uvrščanje bolnikov s Parkinsonovo boleznijo (PD) s ciljem izboljšanja točnosti glede na trenutno metodo. Cilj naloge je predstaviti posplošen algoritem za analizo napredovanja bolezni iz podatkov časovne vrste, ki ga je mogoče uporabiti za poljubne podatke tega formata. Pri analizi smo uporabljali klinične časovne vrste podatkov, ki temeljijo na vprašalnikih Parkinson's Progression Markers Initiative (PPMI). Po čiščenju in normalizaciji podatkov smo uporabili nenadzorovano gručenje za prepoznavanje podtipov bolezni bolnikov. Po določitvi začetnega podtipa bolezni za prve obiske bolnikov pri zdravniku smo preizkusili in uporabili najboljši model nadzorovanega učenja za napoved stopnje bolezni preostalih obiskov. Za ta namen smo uporabili različne klasifikatorje: metodo podpornih vektorjev (SVM), večplastni perceptron (MLP) in naključne gozdove (RF). Metoda SVM se je izkazala kot najboljša za naš problem s točnostjo 95,06% na testnih podatkih. Na koncu modeliramo in opazujemo spremembe podtipa bolnikove bolezni med njihovimi zaporednimi obiski z uporabo preskočnih nizov in markovskih verig. Diplomsko delo podaja natančno analizo naprednih tehnik strojnega učenja na podatkih časovnih vrst. |