El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales : lematización y etiquetado gramatical

Autor:	Gago Jover, Francisco, Pueyo Mena, Francisco Javier
Rok vydání:	2018
Předmět:	Corpus digitalizado del castellano antiguo Electronic corpus design Español medieval Digital medieval Spanish corpus Corpus annotation Medieval Spanish electronic corpus design corpus annotation digital medieval Spanish corpus medieval Spanish Anotación de corpus diseño de corpus electrónicos anotación de corpus corpus digitalizado del castellano antiguo español medieval Diseño de corpus electrónicos
Zdroj:	Dipòsit Digital de Documents de la UAB Universitat Autònoma de Barcelona Recercat: Dipósit de la Recerca de Catalunya Varias* (Consorci de Biblioteques Universitáries de Catalunya, Centre de Serveis Científics i Acadèmics de Catalunya) Recercat. Dipósit de la Recerca de Catalunya instname Scriptum digital. Revista de corpus diacrònics i edició digital en Llengües iberoromàniques; Núm. 7 (2018); p. 25-35
Popis:	This paper presents aspects related to the processing of forms, lemmas, grammatical analysis and texts in the Old Spanish Textual Archive (OSTA), a linguistic corpus of more than 32 million words, based on the more than 400 semipaleographic transcriptions of medieval texts written in Castilian, Asturian, Leonese, Navarro-Aragonese and Aragonese prepared by the collaborators of the Hispanic Seminary of Medieval Studies (HSMS). It also describes the process of tagging and lemmatization using Freeling, a Natural Language Processing tool, and HSMS-app, a textual analysis tool developed for this project. Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::ed672994bd8e8801c4e48469e8f746b9 https://ddd.uab.cat/record/200298 Zobrazit plný text záznamu