Popis: |
U sklopu rada proučavaju se različite metode i dostupni alati otvorenog koda (eng. Open Source) za izdvajanje glavnog tekstualnog sadržaja iz web-stranica. Također, zbog nedostatka programskih sustava za usporedbu takvih alata, razvijen je takav programski sustav pomoću kojeg se, unosom željenog URL-a web-stranice i manualno izdvojenog glavnog sadržaja, pokreće automatizirano izdvajanje sadržaja te se prikazuju pojedinačne statističke metrike za svakog. Te statističke metrike čine: vrijeme izvođenja, preciznost, povrat te F1 rezultat. Alati se uspoređuju i na skupu stranica: sve unesene stranice, kategorije stranica (vijesti, blog, forum, stranice za prodaju), jezici stranica (hrvatski, engleski, njemački). Za implementaciju navedenog programskog sustava, zbog njegovih prednosti u izgradnji takvog sustava, koristio se Docker. In this thesis, different methods and open source tools for extracting main textual content from web pages are researched. Also, due to the lack of programming systems for comparing such tools, a programming system has been developed which, by entering the desired URL of the web page and manually extracted main content, initiates automated content extraction and displays statistical metrics for each. These statistical metrics include: run time, precision, recall and F1 score. The tools are also compared to the sets of pages: all entered pages, categories of pages (news, blogs, forums, sales pages), languages of pages (Croatian, English, German). Docker was used to implement this programming system, due to its many advantages. |