WWW portal usage analysis using genetic algorithms
Autor: | Ondřej Popelka, Jiří Šťastný |
---|---|
Rok vydání: | 2014 |
Předmět: | |
Zdroj: | Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis, Vol 57, Iss 6, Pp 201-208 (2009) |
ISSN: | 2464-8310 1211-8516 |
DOI: | 10.11118/actaun200957060201 |
Popis: | Clanek popisuje novou metodu navrženou pro pokrocilou analýzu navstěv weboveho portalu. Jedna se o cast procesu ziskavani informaci a znalosti z dat o použiti webove prezentace. Tyto informace jsou nezbytne k lepsimu poznani potřeb a požadavků navstěvnika, vseobecně tedy k poznani zakaznika. S využitim těchto informaci může organizace optimalizovat svoje webove prezentace a nabidnout tak koncovým uživatelům větsi pohodli a snadnějsi přistup k informacim. Navrhovana metoda využiva gramatickou evoluci, což je výpocetni metoda založena na genetickem algoritmu.Popsana uloha je řesitelna pomoci statisticke analýzy - konkretně metodami založenými na sekvencni analýze. Cilem teto prace je popsat alternativni metodu pro identifikaci vzorů chovani.Tato prace použiva reprezentaci s využitim proceduralniho programovaciho jazyka, ktera je vhodna pro dalsi použiti jako soucast obslužne aplikace weboveho portalu. To je významna motivace pro vývoj alternativni metody a použiti pravě gramaticke evoluce. Výhoda použiti gramaticke evoluce je v tom, že vyhovořene řeseni již neni na výpocetnim systemu nijak zavisle.Gramaticka evoluce je genetický algoritmus rozsiřený o překladaci vrstvu, vloženou mezi chromozom jedince a skutecne řeseni ulohy. Tato vrstva je tvořena překladacem bezkontextove gramatiky. Hlavni výhodou tohoto rozsiřeni je schopnost generovat řeseni v dale použitelnem formatu v libovolnem formalnim jazyce.Algoritmus použiva tzv. vektorove fitness, ktere umožňuje implementaci i velmi složitých podminek hodnoceni řeseni. Každa složka vektoru hodnoty kriterialni funkce popisuje jinou kvalitativni složku řeseni. Tyto vektory jsou pak porovnavany s využitim definovaných pravidel.Vstupni data do systemu jsou zaznamy o jednotlivých HTTP požadavcich na webový server. V těchto zaznamech neni jednoznacně identifikovan konkretni navstěvnik, pro identifikaci je tedy použita kombinace IP adresy a identifikace weboveho prohližece. Jako testovaci zdrojova data byly použity zaznamy o přistupech na webový server znameho IT casopisu. Surova data představuji zaznamy za jeden konkretni nahodně vybraný pracovni den. Implementace algoritmu a testovani na těchto datech vedlo k ziskani mnoha poznatků. Zejmena je nutne upravit implementaci tak, aby se zabranilo generovani trivialnich řeseni. Dale bude zřejmě vhodnějsi použit alternativni postup, kdy je genetickým v ramci jednoho řeseni generovana pouze jedna podminka a nasledně tyto podminky seskupit až dodatecně. |
Databáze: | OpenAIRE |
Externí odkaz: |