WWW portal usage analysis using genetic algorithms

Autor:	Ondřej Popelka, Jiří Šťastný
Rok vydání:	2014
Předmět:	Database Computer science behaviour patterns lcsh:S Usage analysis data mining www portal computer.software_genre genetic algorithms lcsh:Agriculture lcsh:Biology (General) General Agricultural and Biological Sciences lcsh:QH301-705.5 computer Humanities
Zdroj:	Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis, Vol 57, Iss 6, Pp 201-208 (2009)
ISSN:	2464-8310 1211-8516
DOI:	10.11118/actaun200957060201
Popis:	Clanek popisuje novou metodu navrženou pro pokrocilou analýzu navstěv weboveho portalu. Jedna se o cast procesu ziskavani informaci a znalosti z dat o použiti webove prezentace. Tyto informace jsou nezbytne k lepsimu poznani potřeb a požadavků navstěvnika, vseobecně tedy k poznani zakaznika. S využitim těchto informaci může organizace optimalizovat svoje webove prezentace a nabidnout tak koncovým uživatelům větsi pohodli a snadnějsi přistup k informacim. Navrhovana metoda využiva gramatickou evoluci, což je výpocetni metoda založena na genetickem algoritmu.Popsana uloha je řesitelna pomoci statisticke analýzy - konkretně metodami založenými na sekvencni analýze. Cilem teto prace je popsat alternativni metodu pro identifikaci vzorů chovani.Tato prace použiva reprezentaci s využitim proceduralniho programovaciho jazyka, ktera je vhodna pro dalsi použiti jako soucast obslužne aplikace weboveho portalu. To je významna motivace pro vývoj alternativni metody a použiti pravě gramaticke evoluce. Výhoda použiti gramaticke evoluce je v tom, že vyhovořene řeseni již neni na výpocetnim systemu nijak zavisle.Gramaticka evoluce je genetický algoritmus rozsiřený o překladaci vrstvu, vloženou mezi chromozom jedince a skutecne řeseni ulohy. Tato vrstva je tvořena překladacem bezkontextove gramatiky. Hlavni výhodou tohoto rozsiřeni je schopnost generovat řeseni v dale použitelnem formatu v libovolnem formalnim jazyce.Algoritmus použiva tzv. vektorove fitness, ktere umožňuje implementaci i velmi složitých podminek hodnoceni řeseni. Každa složka vektoru hodnoty kriterialni funkce popisuje jinou kvalitativni složku řeseni. Tyto vektory jsou pak porovnavany s využitim definovaných pravidel.Vstupni data do systemu jsou zaznamy o jednotlivých HTTP požadavcich na webový server. V těchto zaznamech neni jednoznacně identifikovan konkretni navstěvnik, pro identifikaci je tedy použita kombinace IP adresy a identifikace weboveho prohližece. Jako testovaci zdrojova data byly použity zaznamy o přistupech na webový server znameho IT casopisu. Surova data představuji zaznamy za jeden konkretni nahodně vybraný pracovni den. Implementace algoritmu a testovani na těchto datech vedlo k ziskani mnoha poznatků. Zejmena je nutne upravit implementaci tak, aby se zabranilo generovani trivialnich řeseni. Dale bude zřejmě vhodnějsi použit alternativni postup, kdy je genetickým v ramci jednoho řeseni generovana pouze jedna podminka a nasledně tyto podminky seskupit až dodatecně.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=doi_dedup___::9adf1e947e95f132725d7bc62e4faa4a https://doi.org/10.11118/actaun200957060201 Zobrazit plný text záznamu