Diseño y desarrollo de dispositivo de lectura de textos para personas en situación de discapacidad visual, basado en redes neuronales profundas
Autor: | Vélez Caicedo, Juan David |
---|---|
Přispěvatelé: | Ramírez Moreno, David Fernando |
Jazyk: | Spanish; Castilian |
Rok vydání: | 2019 |
Předmět: | |
Zdroj: | Universidad Autónoma de Occidente Repositorio Institucional UAO [1]. M. Sabourin, A. Mitiche, Optical character recognition by a neural network, vol.5, num 5, 843-852.[En línea]. Disponible en https://doi.org/10.1016/S0893-6080(05)80144-3 [2]. #. #, “Colombia tiene 1,14 millones de personas con problemas visuales,” El país, [En línea]. Disponible en https://www.elpais.com.co/colombia/tiene-1-14-millones-de-personas-con-problemas-visuales.html [3]. N. Zuluaga, L. Arrazola, V. González, J. Monsalvo, “Las dificultades para las personas con discapacidad visual en las escuelas públicas,” El Espectador, [En línea]. Disponible en https://www.elespectador.com/noticias/nacional/atlantico/las-dificultades-para-las-personas-con-discapacidad-visual-en-las-escuelas-publicas-articulo-791509. [4]. Nación, “La deuda del país con su población en condición de discapacidad,” El Tiempo, [En línea]. Disponible en https://www.eltiempo.com/colombia/otras-ciudades/poblacion-en-condicion-de-discapacidad-y-sus-necesidades-en-colombia-90880 [5]. #. #, (2014, Ago. 30). “OMS | 10 datos sobre la ceguera y la discapacidad visual”. [Internet]. Disponible en http://www.who.int/features/factfiles/blindness/es/ [6]. #. #, (2018, Ene. 11). “19 Tecnologías de Inteligencia Artificial que dominarán el 2018”. [Internet]. Disponible en https://blog.adext.com/tecnologias-inteligencia-artificial-2019/ [7]. J. Pauls, (2018, Ago. #). “An Evaluation of OrCam MyEye 2.0”. [Internet]. Disponible en http://www.afb.org/afbpress/pubnew.asp?DocID=aw190806 [8]. Procer, (2019, Abr. 30). “PROCER – Tecnología Inclusiva”. [Internet]. Disponible en https://procertecnologias.com/. [9]. P. Maes, S. Nanayakkara, R. Shilkrot, J. Huber, (2015, Abr. 18). “FingerReader: a wearable device to explore text reading on the go”. [Internet]. Disponible en https://www.media.mit.edu/publications/fingerreader-a-wearable-device-to-explore-text-reading-on-the-go/ [10].Organización mundial de la salud, " Clasificación Estadística Internacional de Enfermedades y Problemas Relacionados con la Salud," CIE-10, vol.3, no. 10, p. 757, #, 2003, [En línea]. Disponible en http://iris.paho.org/xmlui/handle/123456789/6284 [11]. F. Izaurieta, C. Saavedra. (2000, #). "Redes Neuronales Artificiales" Universidad de concepción, Concepción, Gran Concepción, Chile. [En línea]. Disponible en http://www.uta.cl/revistas/charlas/volumen16/Indice/Ch-csaavedra.pdf [12]. P. Shrivastava, (2017, Sep. 13). “Challenges in Deep Learning”. [Internet]. Disponible en https://hackernoon.com/challenges-in-deep-learning-57bbf6e73bb [13]. MathWorks, (#, #. #). “Redes Neuronales Convolucionales”. [Internet]. Disponible en https://la.mathworks.com/solutions/deep-learning/convolutional-neural-network.html. [14]. S. Mori, N. Hirobumi, Y. Hiromitsu, Optical character recognition, vol.1, ed.1, New York: John Wiley & Sons, Inc., 1999. [15]. O. Brown, (2019, Nov. 12). “Raspberry Pi Blog”. [Internet]. Disponible en https://www.raspberrypi.org/blog/ [16]. R. Lambie, (2019, Nov. 7). “Raspberry Pi Blog”. [Internet]. Disponible en https://www.raspberrypi.org/blog/ [17]. Juicebox Zero Store (2018). [Internet]. Disponible en https://juiceboxzero.com/ [18]. Arducam 15 Pin 1.0mm Pitch to 22 (2019). [Internet]. Disponible en https://www.amazon.com/s?k=Arducam+15+Pin+1.0mm+Pitch+to+22&ref=nb_sb_noss. [19]. Google Cloud, (2019, Abr. 26). “Detecta texto (OCR)”. [Internet]. Disponible en https://cloud.google.com/vision/docs/ocr [20]. Reconocedores ópticos de caracteres (2015). [Internet]. Disponible en http://grupo.us.es/gtocoma/pid/pid10/OCR.htm [21]. Y. Fujii, K. Driesen, J. Baccash, A. Hurst, and A. C. Popat, “Sequenceto-label script identification for multilingual OCR,” in Proceedings of the 14th International Conference on Document Analysis and Recognition. IEEE, Nov. 2017. [22]. Y. Fujii, D. Genzel, A. C. Popat, and R. Teunen, “Label transition and selection pruning and automatic decoding parameter optimization for time-synchronous viterbi decoding,” in Proceedings of the 13th International Conference on Document Analysis and Recognition, 2015. [23]. S. Tsang, (2018, Sep. 10). “Inception-v3 — 1st Runner Up (Image Classification) in ILSVRC 2015,” [Internet]. Disponible en https://medium.com/@sh.tsang/review-inception-v3-1st-runner-up-image-classification-in-ilsvrc-2015-17915421f77c [24]. M. Edward, (2019, Jun. 12). “Secret of Google Web-Based OCR Service,” [Internet]. Disponible en https://towardsdatascience.com/secret-of-google-web-based-ocr-service-fe30eecedd01 [25]. The Understood Team, (2019, Sep. 12). “Text-to-Speech Technology: What It Is and How It Works,” [Internet]. Disponible en https://www.understood.org/en/school-learning/assistive-technology/assistive-technologies-basics/text-to-speech-technology-what-it-is-and-how-it-works. [26]. Google Cloud, (2019, Sep. 9). “Detecta texto (OCR)”. [Internet]. Disponible en https://cloud.google.com/vision/docs/ocr [27]. Text Recognition API Overview (2019). [Internet]. Disponible en https://developers.google.com/vision/android/text-overview [28]. See and Understand Text using OCR with Mobile Vision Text API for Android (2019). [Internet]. Disponible en https://codelabs.developers.google.com/codelabs/mobile-vision-ocr/#0 [29]. SparseArray (2019). [Internet]. Disponible en https://developer.android.com/reference/android/util/SparseArray. [30]. Using the Google API Client Library for Java on Android | API Client Library for Java (2019). [Internet]. Disponible en https://developers.google.com/api-client-library/java/google-api-java-client/android. [31]. Cloud Text-to-Speech API Client Library for Java | API Client Library for Java». Google Developers (2019). [Internet]. Disponible en https://developers.google.com/api-client-library/java/apis/texttospeech/v1. [32]. J. Balaban, (2019, May. 10). “How WaveNet Works,” [Internet]. Disponible en https://towardsdatascience.com/how-wavenet-works-12e2420ef386 [33]. Setting up a Raspberry Pi as a Wireless Access Point (2019). [Internet]. Disponible en https://www.raspberrypi.org/documentation/configuration/wireless/access-point.md |
Popis: | Este documento presenta el diseño y desarrollo de un dispositivo de lectura de textos, para personas en situación de discapacidad visual parcial o total, basado en redes neuronales profundas. Se realizó haciendo uso de la técnica de reconocimiento óptico de caracteres, la cual como resultado arrojo un fichero de texto que posteriormente es procesado para reproducirlo en audio, estos dos desarrollos se unen mediante una aplicación móvil y un dispositivo físico que se encarga de capturar la imagen del texto. El dispositivo de lectura de textos se desarrolló en 4 fases, la primera encargada de capturar la imagen del texto por medio de un dispositivo externo que cuenta con una cámara incorporada, esta etapa se realizó mediante la utilización de una placa Raspberry Pi Zero W junto con su módulo de cámara Rev. 1.3, en la cual se crea un punto de acceso local WiFi NAT y un servidor, por medio de un socket se envía la imagen capturada a la aplicación móvil; la segunda etapa permite hacer la extracción del texto alojado en la imagen previamente capturada por el dispositivo físico, esta etapa se realiza mediante librerías de reconocimiento de textos incluidas en el entorno de programación Android Studio; la tercera etapa realiza la reproducción por medio de audio del texto extraído, la cual se realiza por medio de la librerías internas incluidas en el entorno de programación Android Studio que permite la reproducción por audio de un texto ‘Text to Speech’ y la cuarta etapa une estos desarrollos por medio de una aplicación móvil que permite la comunicación con el dispositivo físico de captura de imágenes por medio del protocolo de comunicación TCP. La evaluación del sistema muestra que el dispositivo es capaz de realizar la extracción y reproducción por audio del texto de forma satisfactoria, con una exactitud del 98 % sobre 400 palabras This document presents the design and development of a text reading device for people with partial or total visual impairment, based on deep neural networks. It was made using the optical character recognition technique, which as a result produced a text file that is then processed to reproduce it in audio, these two developments are joined by a mobile application and a physical device that is responsible for capturing the image of the text. The text reading device was developed in 4 phases, the first one in charge of capturing the image of the text by means of an external device that has an incorporated camera, this stage was carried out by means of the use of a Raspberry Pi Zero W plate together with its camera module Rev. 1.3, in which a local WiFi NAT access point and a server are created, by means of a socket the captured image is sent to the mobile application; the second stage allows the extraction of the text housed in the image previously captured by the physical device; this stage is carried out through text recognition libraries included in the Android Studio programming environment; the third stage performs the audio reproduction of the extracted text, which is done through the internal libraries included in the Android Studio programming environment that allows the audio reproduction of a text 'Text to Speech' and the fourth stage unites these developments through a mobile application that allows communication with the physical device of image capture through the TCP communication protocol. The evaluation of the system shows that the device is able to perform the extraction and audio reproduction of the text satisfactorily, with an accuracy of 98% over 400 words Proyecto de grado (Ingeniero Mecatrónico)-- Universidad Autónoma de Occidente, 2019 Pregrado Ingeniero(a) Mecatrónico(a) |
Databáze: | OpenAIRE |
Externí odkaz: |