Klasifikacija bolesti na temelju podataka o ekspresiji gena

Autor: Tuković, Lana
Přispěvatelé: Križanović, Krešimir
Jazyk: chorvatština
Rok vydání: 2023
Předmět:
Popis: Ekspresija gena odnosi se na proces kojim se informacije kodirane u DNA pretvaraju u funkcionalne molekule poput proteina. Razvojem tehnika analize ekspresije gena u posljednjim godinama omogućen je uvid u uzroke i liječenje različitih bolesti, uključujući karcinom. Cilj rada bio je razviti modele strojnog učenja za klasifikaciju karcinoma primijenjujući tehnike nadziranog i nenadziranog strojnog učenja, kao i duboko učenje, te usporediti njihove performanse. Implementirani su algoritmi logističke regresije, stroja potpornih vektora, dubokog učenja i grupiranja uz pomoć programskih biblioteka sklearn i keras. Za postizanje boljih rezultata kod modela dubokog učenja istražili smo tehniku poznatu kao Analiza glavnih komponenti (PCA) i model ranog zaustavljanja te usporedili rezultate. Algoritme smo primijenili na skupu podataka za klasifikaciju leukemije i skupu podataka za klasifikaciju raka dojke. Uspješno smo klasificirali pojednine karcinome modelima strojnog učenja i dobili rezultate u skladu s očekivanjima. Gene expression refers to the process by which information encoded in DNA is transformed into functional molecules such as proteins. The development of gene expression analysis techniques in recent years has provided insights into the causes and treatment of various diseases, including cancer. The aim of this study was to develop machine learning models for cancer classification by applying supervised and unsupervised learning techniques, as well as deep learning, and to compare their performances. The implemented algorithms included logistic regression, support vector machine, deep learning, and clustering using the sklearn and keras programming libraries. To improve the results of the deep learning models, we experimented with a technique known as Principal Component Analysis (PCA) and early stopping, and compared the results. We applied the algorithms to datasets intended for leukemia and breast cancer classification. Using machine learning models and obtained results in line with expectations, we successfully classified different types of cancer.
Databáze: OpenAIRE