Otkrivanje sličnih poruka elektroničke pošte primjenom algoritama sažimanja neosjetljivog na lokalne promjene

Autor: Kolobara, Bernard
Přispěvatelé: Srbljić, Siniša
Jazyk: chorvatština
Rok vydání: 2016
Předmět:
Popis: Rad opisuje različite porodice algoritama sažimanja neosjetljivog na lokalne promjene. Opisane su implementacije MinHash, SimHash, Kosinus i Nilsimsa porodica. Poseban naglasak je stavljen na otkrivanje sličnih poruka elektroničke pošte korištenjem LSH algoritama. Ispitana je kvaliteta različitih porodica LSH algoritama sa obzirom na parametre algoritama. Zbog velike količine poruka potrebnih za analizu, u radu je opisan postupak dohvata i spremanja poruka sa javno dostupnih grupa i Stack Exchange stranica. This paper describes different families of locality sensitive hashing algorithms. Implementations for the MinHash, SimHash, Cosine and Nilsimsa families are described. An emphasis was put on finding similar emails using LSH algorithms. The quality of different LSH algorithms was tested with regards to algorithm parameters. Because of the need for a big amount of emails for testing, a procedure for fetching and saving emails from publicly accessible mailing groups and Stack Exchange sites is described.
Databáze: OpenAIRE