'Codificación y etiquetado en los corpus de aprendices y su aplicación didáctica: la propuesta del Corpus de INterlegua Española de Aprendices Sinohablantes (CINEAS)'

Autor: Calero Fernández, Ma. Ángeles, Serrano Zapata, Maribel, Gómez Devís, M. Begoña
Rok vydání: 2020
Předmět:
Zdroj: Repositorio Abierto de la UdL
Universitad de Lleida
Recercat. Dipósit de la Recerca de Catalunya
instname
Popis: Partimos de la hipótesis de que los criterios con los que se diseña, se cataloga y se etiqueta un corpus lingüístico determinan las aplicaciones que dicho corpus podrá tener (Leech, 1993). En el caso de los corpus de aprendices, la codificación y el etiquetado marcará las investigaciones que podrán realizarse y la eventual explotación didáctica de los mismos. En esta comunicación se revisará la codificación y el etiquetado de distintos corpus escritos de aprendices de español como lengua extranjera (ELE), incluyendo el corpus para el análisis de errores de estudiantes sinohablantes que se está elaborando en la Universidad de Lleida en colaboración con la Universidad de Valencia, la Universidad de Salamanca y varias universidades chinas. El objetivo es evaluar la utilidad que tienen los sistemas de codificación y etiquetado empleados en los diferentes corpus analizados 1) para identificar los rasgos que caracterizan los distintos estadios de la interlengua de los aprendices de ELE y comprobar qué factores lingüísticos y extralingüísticos intervienen en su formación, estructura y progreso; y 2) para intervenir en el proceso de enseñanza-aprendizaje de una lengua extranjera. Rojo (2010: 13) señala la necesidad de que los investigadores conozcan las características y las posibilidades de explotación de los diferentes corpus 'para decidir cuál(es) se ajusta(n) mejor a lo que necesitan o qué estrategias deben utilizar para obtener los datos que precisan', y considera lógico que se elaboren trabajos comparativos que sirvan de ayuda complementaria para los lingüistas que pretendan utilizarlos. La información que permite entender qué contiene el corpus y qué se puede conseguir con él es qué tipo de textos incluye, cuál es la anotación no lingüística (codificación) que emplea, cuál la anotación lingüística (etiquetado) y cómo se recuperan los datos. Esta comunicación intenta cubrir una parte de esta información, en concreto la forma de codificar y etiquetar, que, sin embargo, depende del tipo de textos incluidos y condiciona qué datos se podrán finalmente recuperar. Todo ello se hace pensando no solo en destinatarios lingüistas, sino también en docentes de ELE y en aprendices de ELE. Referencias citadas: Leech, Geoffrey (1993). 'Corpus Annotation Schemes'. Literary and Linguistic Computing 8 (4): 275-281. Rojo, Guillermo (2010). Sobre codificación y explotación de corpus textuales: otra comparación del Corpus del Español con el CORDE y el CREA, Lingüística 24, 11-50. The criteria for designing, encoding and annotating a learner corpus determine its potential as a research tool and as a pedagogical resource. This paper reviews the criteria employed in coding and annotating a series of written learner corpora of Spanish. It also examines the possibilities these corpora offer for the following tasks: 1) identifying the features that characterize the different stages of the interlanguage of learner Spanish; 2) determining which linguistic and extralinguistic factors intervene in the formation, structure and progress of the interlanguage; and 3) determining which factors intervene in the teaching-learning process of a foreign language Este trabajo se ha realizado dentro del proyecto Elaboración y catalogación de un corpus de textos escritos en ELE producidos por estudiantes sinohablantes, que se está desarrollando en la Universidad de Lleida y que está financiado por el Ministerio de Economía y Competitividad (Nº de Referencia: FFI2016-80280-R) con la participación de Fondos Feder
Databáze: OpenAIRE