Color Sift Descriptors to Categorize Illegal Activities in Images of Onion Domains

Autor: David Matilla, Mhd Wesam Al-Nabki, Laura Fernández-Robles, Víctor González-Castro, Eduardo Fidalgo
Jazyk: angličtina
Rok vydání: 2018
Předmět:
Zdroj: RUC. Repositorio da Universidade da Coruña
instname
Popis: [Abstract] Dark Web, i.e. the portion of the Web whose content is not indexed either accessible by standard web browsers, comprises several darknets. The Onion Router (Tor) is the most famous one, thanks to the anonymity provided to its users, and it results in the creation of domains, or hidden services, which hosts illegal activities. In this work, we explored the possibility of identifying illegal domains on Tor darknet based on its visual content. After crawling and filtering the images of 500 hidden services, we sorted them into five different illegal categories, and we trained a classifier using the Bag of Visual Words (BoVW) model. In this model, SIFT (Scale Invariant Feature Transform) or dense SIFT were used as the descriptors of the images patches to compute the visual words of the BoVW model. However, SIFT only works with gray-scale images; thus the information given by color in an image is not retrieved. To overcome this drawback, in this work we implemented and assessed the performance of three different variants of SIFT descriptors that can be used in color images, namely HSV-SIFT, RGB-SIFT and the BoVW model for image classification. The obtained results showed the usefulness of using color-SIFT descriptors instead of SIFT, whereas in our experiments the latter achieved an accuracy of 57.52%, the HSV-SIFT descriptor achieved an accuracy up to 59.44%. [Resumen] Dark Web, es decir, la parte de la Web cuyo contenido no está indexado, o bien es accesible a través de navegadores web estándar, comprende varias redes oscuras. El Onion Router (Tor) es el más famoso, gracias al anonimato proporcionado a sus usuarios, y resulta en la creación de dominios, o servicios ocultos, que albergan actividades ilegales. En este trabajo, exploramos la posibilidad de identificar dominios ilegales en Tor darknet según su contenido visual. Después de rastrear y filtrar las imágenes de 500 servicios ocultos, los clasificamos en cinco categorías ilegales diferentes, y capacitamos a un clasificador utilizando el modelo de Bolsa de palabras visuales (BoVW). En este modelo, se usó SIFT (Transformación de la característica invariante de escala) o SIFT denso como los descriptores de los parches de imágenes para calcular las palabras visuales del modelo BoVW. Sin embargo, SIFT solo funciona con imágenes en escala de grises; por lo tanto, la información dada por el color en una imagen no se recupera. Para superar este inconveniente, en este trabajo implementamos y evaluamos el rendimiento de tres variantes diferentes de los descriptores SIFT que se pueden usar en imágenes en color, a saber, HSV-SIFT, RGB-SIFT y el modelo BoVW para la clasificación de imágenes. Los resultados obtenidos mostraron la utilidad de usar descriptores de SIFT de color en lugar de SIFT, mientras que en nuestros experimentos este último logró una precisión de 57.52%, el descriptor de HSV-SIFT logró una precisión de hasta 59.44%. Instituto Nacional de Ciberseguridad; TRA2015-63708-R
Databáze: OpenAIRE