Popis: |
Op het internet kunnen we gestructureerde informatie terugvinden in de vorm van tabellen, lijsten, etc. Deze kan gebruikt worden voor zowel informatieve doeleinden als voor verdere verwerking. Deze informatie aanbieden is echter niet eenvoudig, aangezien deze soms ingebed is in de webpagina's zelf. We moeten de informatie bijgevolg eerst uit de webpagina's zien te halen. Dit kunnen we doen aan de hand van wrappers. Een wrapper is een procedure ontwikkeld om informatie uit een specifieke soort webpagina's te halen. Dit is echter niet schaalbaar vanwege de grote hoeveelheid verschillende soorten webpagina's die beschikbaar zijn op het web. Vanwege deze reden bestuderen we in deze masterproef een techniek waarmee we de creatie van wrappers kunnen automatiseren. Deze techniek draagt de naam wrapper inductie. We beginnen met het bestuderen van het informatie extractieproces en de rol die het wrapper inductieprobleem hierin speelt. Daarna bekijken we een aantal bestaande wrapper classes die dit probleem oplossen, alsook een eigen ontwikkelde wrapper class die met een aantal beperkingen van de bestaande wrappers classes overweg kan. Verder hebben we twee verbeteringen ontwikkeld die we kunnen doorvoeren aan de wrapper classes. Tot slot hebben we de verschillende wrapper classes en verbeteringen ook getest. Hieruit is gebleken dat één van onze verbeteringen onmisbaar is voor het vinden van wrappers. Verder is ook gebleken dat onze eigen ontwikkelde wrapper class te strenge eisen heeft om op een snelle manier een wrapper te vinden. |