IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIO

Autor: Pablo Daniel Agüero, Jorge Castiñeira Moreira, Monica Liberatori, Juan Carlos Bonadero, Juan Carlos Tulli
Jazyk: English<br />Spanish; Castilian
Rok vydání: 2009
Předmět:
Zdroj: Ingeniare: Revista Chilena de Ingeniería, Vol 17, Iss 3, Pp 386-392 (2009)
Druh dokumentu: article
ISSN: 0718-3291
0718-3305
Popis: This paper presents a feature based on out-of-vocabulary word statistics that complements the information sources used in the decision by state-of-the-art spam filters. The experiments included freely available spam filters as reference, SpamAssassin, Bogofilter, SpamBayes and SpamProbe, as well as a Naive Bayes classifier. The results show that the decision based on the proposed feature improves the performance of all spam filters under study.Este artículo presenta una característica basada en estadísticas de palabras desconocidas (fuera del vocabulario) que complementa las fuentes de información usadas en la decisión por parte de los filtros anti-spam actuales. Los experimentos incluyeron filtros anti-spam disponibles libremente como referencia: SpamAssassin, Bogofilter, SpamBayes y SpamProbe, así como también un clasificador puramente bayesiano. Los resultados muestran que la decisión basada en la característica propuesta mejora el rendimiento de todos los filtros anti-spam sujetos a estudio.
Databáze: Directory of Open Access Journals