Razlaga napovedi strojnega učenja z biološkim predznanjem

Autor: DROFENIK, KLARA
Přispěvatelé: Robnik Šikonja, Marko
Jazyk: slovinština
Rok vydání: 2021
Předmět:
Popis: Za naključne gozdove, nevronske mreže in ostale kompleksnejše modele strojnega učenja je težko povedati, zakaj so podali dano napoved. Težavo rešujejo algoritmi, ki poskušajo razložiti vpliv atributov na napoved ciljne spremenljivke. Eden takšnih je algoritem SHAP, ki glede na vrednost atributa poda oceno, kako ta vpliva na napoved modela. Naš cilj je preveriti, kako se razlage SHAP ujemajo s predznanjem. Na več podatkovnih množicah proteinov smo zgradili napovedne modele z metodo XGBoost in ga razložili z algoritmom SHAP. Preverili smo, ali med proteini, ki so pomembni za napovedi modela, obstajajo raziskane interakcije, s pomočjo katerih bi lahko preverili uspešnost algoritma SHAP za iskanje interakcij. Rezultati so se razlikovali glede števila najdenih interakcij za različne učne množice in baze znanja. Naša raziskava nakazuje potencialno uporabnost algoritma SHAP za iskanje interakcij. Decisions of complex machine learning algorithms such as random forest and neural networks are difficult to explain. This problem can be addressed with perturbation-based algorithms, such as SHAP, which assigns credit for prediction to individual attribute values. Our goal was to check if the output of SHAP matches the background knowledge. We used the XGBoost model on several data sets, where attributes are proteins, and explained the model with SHAP algorithm. We checked if there are known biological interactions between proteins, which SHAP marks as important. The method could turn SHAP into interaction discovery algorithm. Obtained numbers of interactions differ based on the chosen data set and knowledge base. Our research hints at potential usefulness of explanation algorithm for finding interactions.
Databáze: OpenAIRE