Reconocimiento de entidades nombradas mediante técnicas de aprendizaje neuronal profundo en imágenes manuscritas

Autor:	Giner Pérez de Lucía, José
Jazyk:	Spanish; Castilian
Rok vydání:	2022
Předmět:	Imágenes manuscritas Deep Learning Name Entity Recognition Reconocimiento de entidades nombradas Marriage Licenses Licencias matrimoniales Bi-LSTM-CRF LENGUAJES Y SISTEMAS INFORMATICOS Grado en Ciencia de Datos-Grau en Ciència de Dades Aprendizaje neuronal profundo
Zdroj:	RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia instname
Popis:	[ES] El reconocimiento de entidades nombradas o NER tiene como misión extraer entidades específicas en grandescolecciones de textos y clasificarlas según su camposemántico. Las entidades más comunes incluyen personas, localizaciones y organizaciones, aunque pueden variar dependiendo de los requisitos de la tarea. Con el paso de los años, las tecnologías especializadas en NER se han desarrollado rápidamente para abordar nuevos retos y lograr unos resultados propios del estado del arte, pasando por sistemas basados en reglas creadas a mano hasta alcanzar los modelos más complejos de aprendizaje neuronal profundo. Estos últimos son la referencia de muchas investigaciones actuales por presentar unos mecanismos potentes capaces de aprender del contexto de las palabras y apoyarse en representaciones distribuidas de características en un espacio latente. Mediante este trabajo final de grado, se presenta una arquitectura basada en el concepto de red neuronal para identificar las entidades nombradas en una colección antigua de licencias matrimoniales manuscritas en catalán. En concreto, se propone un red con memoria a corto y largo plazo bidireccional (Bi-LSTM) y un campo aleatorio condicional (CRF) en la capa final como decodificador de etiquetas. Los resultados obtenidos reflejan las buenas prestaciones de reconocimiento sobre las categorías semánticas y de estas junto con la persona asociada cuando las transcripciones no contienen fallos (errores del 2.05% y 2.34%, respectivamente). Por otra parte, se ha evaluado el rendimiento del modelo con unas transcripciones generadas por un proceso de reconocimiento de texto manuscrito que pueden presentar errores. Ante esta situación, las etiquetas de salida predichas también se ajustan adecuadamente a cada palabra. [EN] Named Entity Recognition (NER) attains to extract and classify specific entities on large text collections according to its semantic field. Most common entities include persons, places and organizations but may vary depending on the task requirements. Over the years, specialized NER technologies have rapidly developed to tackle upcomingchallenges and achieve state-of-art results, covering rule-based systems that are created using hand-crafted rules until reaching more complex deep learning models. These last ones serve as a reference to many actual investigations as they present powerful mechanisms capable of learning from word context and rely on distributed feature representations in a latent space. Throughthisfinaldegreeproject, anarchitecturebasedontheneuralnetworkconcept is presented to identify named entities in an old catalan collection of handwritten marriage licenses. Specifically, a bidirectional Long-Short Term Memory (Bi-LSTM) network with a Condition Random Field (CRF) in the final layer as a tag decoder is proposed. Results obtained reflect a good recognition performance on both semantic categories and these ones together with the associated person when transcripts do not contain mistakes (error rates of 2.05% and 2.34%, respectively). On the other hand, the model’s performance has been tested with some transcripts generated by a handwritten text recognition process that can present errors. In this situation, the predicted output labels also fit appropiately for each word.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::60e2384f45d1ee7c078b05f42fce4b22 https://hdl.handle.net/10251/185263 Zobrazit plný text záznamu