Otkrivanje sličnih poruka elektroničke pošte primjenom algoritama sažimanja neosjetljivog na lokalne promjene
Autor: | Kolobara, Bernard |
---|---|
Přispěvatelé: | Srbljić, Siniša |
Jazyk: | chorvatština |
Rok vydání: | 2016 |
Předmět: |
minHash
algorithm sličnost sažimanje neosjetljiv na lokalne promjene TEHNIČKE ZNANOSTI. Računarstvo algoritam simHash Nilsimsa TECHNICAL SCIENCES. Computing cosine similarity kosinus sličnost elektronička pošta sličnost elektronička pošta sažimanje neosjetljiv na lokalne promjene kosinus sličnost similarity locality sensitive hashing |
Popis: | Rad opisuje različite porodice algoritama sažimanja neosjetljivog na lokalne promjene. Opisane su implementacije MinHash, SimHash, Kosinus i Nilsimsa porodica. Poseban naglasak je stavljen na otkrivanje sličnih poruka elektroničke pošte korištenjem LSH algoritama. Ispitana je kvaliteta različitih porodica LSH algoritama sa obzirom na parametre algoritama. Zbog velike količine poruka potrebnih za analizu, u radu je opisan postupak dohvata i spremanja poruka sa javno dostupnih grupa i Stack Exchange stranica. This paper describes different families of locality sensitive hashing algorithms. Implementations for the MinHash, SimHash, Cosine and Nilsimsa families are described. An emphasis was put on finding similar emails using LSH algorithms. The quality of different LSH algorithms was tested with regards to algorithm parameters. Because of the need for a big amount of emails for testing, a procedure for fetching and saving emails from publicly accessible mailing groups and Stack Exchange sites is described. |
Databáze: | OpenAIRE |
Externí odkaz: |