Popis: |
Resumen: El objetivo del trabajo presentado fue el desarrollo de un sistema de recuperación de imágenes con base en su contenido, utilizando redes convolucionales siamesas y tripletas. Se utilizaron estas arquitecturas múltiples para generar descriptores visuales, extrayendo información semántica de dos imágenes (siamesa) o tres imágenes (tripleta) a la vez. Posteriormente, se realizó un aprendizaje de similitud, codificando la distancia de estas siamesas o tripletas de descriptores visuales, cuyo almacenamiento no es necesario. Los resultados muestran que los esquemas con base en redes convolucionales extraen mayor cantidad de información semántica. Las arquitecturas múltiples, aparte de extraer información semántica, mejoran la tasa de recuperación de imágenes. Se concluye que las arquitecturas múltiples solucionan los tres retos más importantes de estos sistemas, como lo son la brecha semántica, el aprendizaje de similitud y el espacio de almacenamiento, los cuales no habían sido resueltos en trabajos anteriores. Abstract: The objective of this paper was the development of a content-based image retrieval system, using siamese and triplet convolutional neural networks. These networks were used to generate visual descriptors, extracting semantic information from two images (siamese) or three images (triplet) at the same time. Then, a similarity learning was done, encoding these two or three visual descriptors. In the proposed scheme the storage of descriptors is not required. The experimental results show that the schemes based on convolutional neural networks extract more semantic information. The siamese and triplet architectures, apart from extracting semantic information, improved the image retrieval rate. It is concluded that the proposed scheme solved three of the main challenges in these systems, such as, semantic gap, similarity learning and storage space, which have not been solved in the previous works. |