Un corpus lemmatizzato

Autor: Artale Elena
Jazyk: italština
Rok vydání: 2016
Předmět:
Zdroj: Attorno a Dante, Petrarca, Boccaccio: la lingua italiana. I primi trent'anni dell'Istituto CNR Opera del Vocabolario Italiano, 1985-2015, pp. 115–132, Firenze, 16-17 dicembre 2015
info:cnr-pdr/source/autori:Artale Elena/congresso_nome:Attorno a Dante, Petrarca, Boccaccio: la lingua italiana. I primi trent'anni dell'Istituto CNR Opera del Vocabolario Italiano, 1985-2015/congresso_luogo:Firenze/congresso_data:16-17 dicembre 2015/anno:2016/pagina_da:115/pagina_a:132/intervallo_pagine:115–132
Popis: Il corpus di testi su cui si basa la redazione del TLIO (Corpus TLIO) è un corpus lemmatizzato, con una lemmatizzazione tendenzialmente esaustiva sulle forme, non sulle occorrenze. La lemmatizzazione del Corpus TLIO presenta criticità e problematiche legate alla natura stessa del corpus: plurilinguismo, eterogeneità filologica, stratificazione negli anni di un lavoro che ha via via cambiato modalità e strategie operative, assenza di marcatura nella preparazione dei testi. Il contributo espone le maggiori problematiche della lemmatizzazione ed esplicita i criteri da seguire per la razionalizzazione del pregresso e per un futuro completamento. Viene posto inoltre il problema del valore del corpus come oggetto di indagini linguistiche, in relazione alla recente disciplina della linguistica dei corpora e mettendo in risalto gli aspetti per cui il Corpus TLIO lemmatizzato possa considerarsi fonte di lingua oltre che raccolta di testi cui attingere per la redazione di un vocabolario.
Databáze: OpenAIRE