Požymių inžinerijos automatizavimas mašininiam mokymuisi iš verslo duomenų bazių

Autor: Zinkutė, Aušrinė
Přispěvatelé: Vaičiukynas, Evaldas, Duobienė, Jurga
Jazyk: litevština
Rok vydání: 2023
Předmět:
Popis: Tobulėjant informacinėms technologijoms ir didėjant verslo kuriamų ir saugomų duomenų kiekiui, pastebimas įmonių skaitmenizavimo ir procesų automatizavimo reikalingumas. Viena iš svarbiausių ir labiausiai verslo procesams įtaką darančių informacinių technologijų sistemų versle – duomenų bazė. Tinkamos duomenų bazės parinkimas gali turėti įtaką vėlesniems verslo sprendimams saugoti, analizuoti ir tvarkyti turimus duomenis. Vienos iš populiariausių duomenų bazių tipų versle – reliacinės duomenų bazės – įmonių veikloje dažniausiai pasirenkamos dėl struktūrizuotos duomenų schemos, stabilumo ir patogumo kasdienėms operacijoms vykdyti. Norint iš turimų duomenų išgauti verslui naudingą informaciją ir priimti sprendimus, reliacinėse duomenų bazėse saugomą informaciją galima panaudoti mašininio mokymosi modeliams, tačiau čia tenka atlikti papildomus pertvarkymus – mašininio mokymosi modeliams naudojami duomenys pateikiami lentelės forma, todėl požymių inžinerijos etape duomenys turi būti pertvarkomi iš reliacinės struktūros ir paruošiami modeliui apmokinti. Šiame projekte atliekama požymių inžinerijos automatizavimo galimybių analizė reliacinėse duomenų bazėse. Siekiama išnagrinėti sistemas bei algoritmus, kurių pagalba duomenų paruošimas modeliui apmokinti gali būti automatizuojamas. Nagrinėjamas Python paketas Featuretools, kuris požymių kūrimui naudoja DFS algoritmą, bei paketas getML, kuriame yra galimybė požymių inžineriją automatizuoti algoritmais FastProp, Relboost, Multirel bei RelMT. Analizė atliekama nagrinėjant 6 reliacines duomenų bazes. Papildomi požymiai automatiškai sukuriami iš turimų duomenų bazių lentelių ir gauta požymių lentelė naudojama apmokinti XGBoost modelį. Gauti modelių įvertinimų rezultatai rodo, jog automatizavus požymių inžineriją gauti modelio tikslumo rezultatai yra geri tiek klasifikacijos, tiek regresijos uždaviniams spręsti. Nagrinėti algoritmai matematiniais metodais gali sukurti nuo 17 iki 238 papildomų požymių per keletą minučių. Lyginant nagrinėtų duomenų bazių modelių tikslumą, geriausi rezultatai gauti su getML sistemos algoritmu FastProp.
With the development of information technologies and the amount of data created and stored by business, the need for digitization of companies and automation of processes is noticeable. One of the most important and most influential information technology systems in business is the database. Choosing the right database can have an impact on subsequent business decisions to store, analyze and manage the available data. One of the most popular types of databases in business – relational databases - are usually chosen in the activities of companies due to their structured data schema, stability and convenience for daily operations. In order to extract business-useful information from available data and make decisions, the information stored in relational databases can be used for machine learning models, however, additional transformations have to be done. Data used for machine learning models is usually presented in the form of a table, therefore relational structure must be transformed and prepared during the feature engineering stage to train the model. This project analyzes the possibilities of feature engineering automation in relational databases. The aim is to examine systems and algorithms that can be used to automate data preparation for model training. Python package Featuretools, which uses the DFS algorithm for feature creation, and getML system, which has the possibility of automating feature engineering with FastProp, Relboost, Multirel and RelMT algorithms, are examined. The analysis is performed by examining 6 relational databases. Additional features are automatically generated from available database tables and the resulting feature table is used to train the XGBoost model. The obtained model evaluation results show that the model accuracy results obtained after automating feature engineering are considered good for both classification and regression tasks. The considered algorithms can create from 17 to 238 additional features in a few minutes using mathematical methods. Comparing the accuracy of the analyzed database models, the best results were obtained with the FastProp algorithm of getML system.
Databáze: OpenAIRE