WWW portal usage analysis using genetic algorithms

Autor: Ondřej Popelka, Jiří Šťastný
Rok vydání: 2014
Předmět:
Zdroj: Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis, Vol 57, Iss 6, Pp 201-208 (2009)
ISSN: 2464-8310
1211-8516
DOI: 10.11118/actaun200957060201
Popis: Clanek popisuje novou metodu navrženou pro pokrocilou analýzu navstěv weboveho portalu. Jedna se o cast procesu ziskavani informaci a znalosti z dat o použiti webove prezentace. Tyto informace jsou nezbytne k lepsimu poznani potřeb a požadavků navstěvnika, vseobecně tedy k poznani zakaznika. S využitim těchto informaci může organizace optimalizovat svoje webove prezentace a nabidnout tak koncovým uživatelům větsi pohodli a snadnějsi přistup k informacim. Navrhovana metoda využiva gramatickou evoluci, což je výpocetni metoda založena na genetickem algoritmu.Popsana uloha je řesitelna pomoci statisticke analýzy - konkretně metodami založenými na sekvencni analýze. Cilem teto prace je popsat alternativni metodu pro identifikaci vzorů chovani.Tato prace použiva reprezentaci s využitim proceduralniho programovaciho jazyka, ktera je vhodna pro dalsi použiti jako soucast obslužne aplikace weboveho portalu. To je významna motivace pro vývoj alternativni metody a použiti pravě gramaticke evoluce. Výhoda použiti gramaticke evoluce je v tom, že vyhovořene řeseni již neni na výpocetnim systemu nijak zavisle.Gramaticka evoluce je genetický algoritmus rozsiřený o překladaci vrstvu, vloženou mezi chromozom jedince a skutecne řeseni ulohy. Tato vrstva je tvořena překladacem bezkontextove gramatiky. Hlavni výhodou tohoto rozsiřeni je schopnost generovat řeseni v dale použitelnem formatu v libovolnem formalnim jazyce.Algoritmus použiva tzv. vektorove fitness, ktere umožňuje implementaci i velmi složitých podminek hodnoceni řeseni. Každa složka vektoru hodnoty kriterialni funkce popisuje jinou kvalitativni složku řeseni. Tyto vektory jsou pak porovnavany s využitim definovaných pravidel.Vstupni data do systemu jsou zaznamy o jednotlivých HTTP požadavcich na webový server. V těchto zaznamech neni jednoznacně identifikovan konkretni navstěvnik, pro identifikaci je tedy použita kombinace IP adresy a identifikace weboveho prohližece. Jako testovaci zdrojova data byly použity zaznamy o přistupech na webový server znameho IT casopisu. Surova data představuji zaznamy za jeden konkretni nahodně vybraný pracovni den. Implementace algoritmu a testovani na těchto datech vedlo k ziskani mnoha poznatků. Zejmena je nutne upravit implementaci tak, aby se zabranilo generovani trivialnich řeseni. Dale bude zřejmě vhodnějsi použit alternativni postup, kdy je genetickým v ramci jednoho řeseni generovana pouze jedna podminka a nasledně tyto podminky seskupit až dodatecně.
Databáze: OpenAIRE