'Konstrukcija i analiza klaster algoritma sa primenom u definisanju bihejvioralnih faktora rizika u populaciji odraslog stanovništva Srbije'

Autor: Dragnić Nataša
Jazyk: srbština
Rok vydání: 2016
Předmět:
Druh dokumentu: Diplomová práce
Popis: Klaster analiza ima dugu istoriju i mada seprimenjuje u mnogim oblastima i dalje ostajuznačajni izazovi. U disertaciji je prikazan uvodu neglatki optimizacioni pristup uklasterovanju, sa osvrtom na problemklasterovanja velikih skupova podataka.Međutim, ovi optimizacioni algoritmi boljefunkcionišu u radu sa neprekidnim podacima.Jedan od glavnih izazova u klaster analizi jerad sa velikim skupovima podataka sakategorijalnim i kombinovanim (numerički ikategorijalni) tipovima promenljivih. Rad savelikim brojem instanci (objekata) i velikimbrojem dimenzija (promenljivih), možepredstavljati problem u klaster analizi, zbogvremenske složenosti. Jedan od načinarešavanja ovog problema je redukovanje brojainstanci, bez gubitka informacija.Prvi cilj disertacije je bio upoređivanjerezultata klasterovanja na celom skupu iprostim slučajnim uzorcima sa kategorijalnim ikombinovanim podacima, za različite veličineuzorka i različit broj klastera. Nije utvrđenaznačajna razlika (p>0.05) u rezultatimaklasterovanja na uzorcima obima0.03m,0.05m,0.1m,0.3m (gde je m obimposmatranog skupa) i celom skupu.Drugi cilj disertacije je bio konstrukcijaefikasnog postupka klasterovanja velikihskupova podataka sa kategorijalnim ikombinovanim tipovima promenljivih.Predloženi postupak se sastoji iz sledećihkoraka: 1. klasterovanje na prostim slučajnimuzorcima određene kardinalnosti; 2.određivanje najboljeg klasterskog rešenja nauzorku, primenom odgovarajućeg kriterijumavalidnosti; 3. dobijeni centri klastera iz ovoguzorka služe za klasterovanje ostatka skupa.Treći cilj disertacije predstavlja primenuklaster analize u definisanju klasterabihejvioralnih faktora rizika u populacijiodraslog stanovništva Srbije, kao i analizusociodemografskih karakteristika dobijenihklastera. Klaster analiza je primenjena navelikom reprezentativnom uzorku odraslogstanovništva Srbije, starosti 20 i više godina.Izdvojeno je pet jasno odvojenih klastera sakarakterističnim kombinacijama bihejvioralnihfaktora rizika: Bez rizičnih faktora, Štetnaupotreba alkohola i druge rizične navike,Nepravilna ishrana i druge rizične navike,Nedovoljna fizička aktivnost, Pušenje. Rezultatimultinomnog logističkog regresionog modelaukazuju da ispitanici koji nisu u braku, lošijegsu materijalnog stanja, nižeg obrazovanja i živeu Vojvodini imaju veću šansu za prisustvovišestrukih bihejvioralnih faktora rizika.
The cluster analysis has a long history and alarge number of clustering techniques havebeen developed in many areas, however,significant challenges still remain. In thisthesis we have provided a introduction tononsmooth optimization approach to clusteringwith reference to clustering large datasets.Nevertheless, these optimization clusteringalgorithms work much better when a datasetcontains only vectors with continuous features.One of the main challenges is clustering of largedatasets with categorical and mixed (numericaland categorical) data. Clustering deals with alarge number of instances (objects) and a largenumber of dimensions (variables) can beproblematic because of time complexity. One ofthe ways to solve this problem is by reducingthe number of instances, without the loss ofinformation.The first aim of this thesis was to comparethe results of cluster algorithms on the wholedataset and on simple random samples withcategorical and mixed data, in terms of validity,for different number of clusters and fordifferent sample sizes. There were nosignificant differences (p>0.05) between theobtained results on the samples of the size of0.03m,0.05m,0.1m,0.3m (where m is the size ofthe dataset) and the whole dataset.The second aim of this thesis was todevelop an efficient clustering procedure forlarge datasets with categorical and mixed(numeric and categorical) values. The proposedprocedure consists of the following steps: 1.clustering on simple random samples of a givencardinality; 2. finding the best cluster solutionon a sample (by appropriate validity measure);3. using cluster centers from this sample forclustering of the remaining data.The third aim of this thesis was toexamine clustering of four lifestyle risk factorsand to examine the variation across differentsocio-demographic groups in a Serbian adultpopulation. Cluster analysis was carried out ona large representative sample of Serbian adultsaged 20 and over. We identified fivehomogenous health behaviour clusters withspecific combination of risk factors: 'No RiskBehaviours', 'Drinkers with Risk Behaviours','Unhealthy diet with Risk Behaviours','Smoking'. Results of multinomial logisticregression indicated that single adults, lesseducated, with low socio-economic status andliving in the region of Vojvodina are most likelyto be a part of the clusters with a high-riskprofile.
Databáze: Networked Digital Library of Theses & Dissertations