Popis: |
The anonymity and privacy characteristics of the Dark Web make it attractive for the commission of crimes. Authorities need tools to locate criminal patterns in this network. There are different developments of crawlers aimed at locating content on the Dark Web, generally developed in English and focused on the analysis of text hosted on web pages in the TOR network. Although there are proposals to implement additional functionalities, such as image analysis, focused crawling based on keywords or connection to other networks different from the TOR network, it is necessary to develop a modular tool, with distributed and multi-language architecture, that gradually and flexibly brings together in a single platform the various functionalities that are usually implemented in an isolated manner. As a result, a crawler is developed through a secure software development life cycle methodology (S-SDLC), with the ability to connect to both the visible network and three Dark Nets (TOR, I2P, Freenet) and to locate web pages based not only on criteria related to their text content (such as a nickname displayed on a website), but also according to aspects related to their images, through the analysis of hashes and metadata. In this way, its modular design allows for new lines of development of the tool that can be undertaken in the future and integrated without difficulty. Las características de anonimidad y privacidad de la Dark Web la hacen atractiva para la comisión de delitos. Las autoridades necesitan herramientas para localizar patrones delictivos en esta red. Existen diferentes desarrollos de rastreadores o crawlers orientados a localizar contenidos en la Dark Web, generalmente desarrollados en inglés y enfocados al análisis del texto alojado en páginas web de la red TOR. Pese a que existen propuestas para implantar funcionalidades adicionales, como análisis de imágenes, rastreo focalizado en base a palabras clave o conexión a otras redes diferentes de la red TOR, se hace necesario el desarrollo de una herramienta modular, con arquitectura distribuida y multi idioma que aglutine en una única plataforma de manera gradual y flexible las diversas funcionalidades que habitualmente se implantan de manera aislada. Como resultado, se desarrolla mediante metodología de ciclo de vida de desarrollo software seguro (S-SDLC), un crawler con capacidad de conexión tanto a la red visible como a tres Dark Nets (TOR, I2P, Freenet) y que permite localizar páginas web en base no solo a criterios relacionados con su contenido de texto (como por ejemplo un nickname mostrado en una web), sino también según aspectos relativos a sus imágenes, mediante el análisis de hashes y metadatos. De este modo, el diseño modular realizado permite el planteamiento de nuevas líneas de desarrollo de la herramienta que puedan ser acometidas en un futuro e integradas sin dificultad. |