Assessing named entities in the ELTeC-por collection

Autor: Diana Santos, Eckhard Bick, Marcin Krzysztof Wlodek
Rok vydání: 2021
Předmět:
Zdroj: Repositório Científico de Acesso Aberto de Portugal
Repositório Científico de Acesso Aberto de Portugal (RCAAP)
instacron:RCAAP
Santos, D, Bick, E & Wlodek, M 2020, ' Avaliando entidades mencionadas na colecao ELTeC-por ', Linguamática, bind 12, nr. 2, s. 29-49 . https://doi.org/10.21814/LM.12.2.336
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Agência para a Sociedade do Conhecimento (UMIC)-FCT-Sociedade da Informação
Linguamática, Vol 12, Iss 2 (2020)
ISSN: 1647-0818
DOI: 10.21814/lm.12.2.336
Popis: portuguesEste artigo relata a preparacao da anotacao da colecao ELTeC-por com entidades mencionadas apropriadas ao genero textual "romances e novelas publicadas entre 1840 e 1920", para possibilitar a leitura distante em portugues. Em primeiro lugar apresentamos a colecao ELTeC-por, compilada no âmbito da acao COST "Distant Reading for European Literary History" para estudar a literatura europeia, e explicamos as diversas restricoes e escolhas necessarias, fornecendo uma caracterizacao inicial segundo varios eixos: a origem e tamanho das obras, o seu (sub)genero literario, o genero do autor, o local de publicacao e a existencia ou nao de mais edicoes. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a colecao, explicando detalhadamente o seu funcionamento. Passamos entao a descricao da criacao de uma subcolecao de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automatico, e, por outro, para caracterizar o tipo de populacao esperada. As obras podem classificar-se segundo dois eixos diferentes: romances historicos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Alem disso, algumas obras sao obviamente canonicas, outras nao. Alem da descricao quantitativa do resultado de anotacao e revisao, apresentamos algumas consideracoes qualitativas sobre o processo. Tambem fornecemos uma analise detalhada de algumas categorias, tentando mostrar como os lugares, profissoes e gentilicos mais mencionados podem ser indicadores numa leitura distante. Concluimos comparando com o trabalho internacional feito na analise de entidades mencionadas de obras literarias, explicando as diferencas e sugerindo trabalho futuro. EnglishThis paper reports on the NER annotation of the ELTeC-por collection, a collection of hundred Portuguese novels published between 1840 and 1920, compiled in the scope of the COST action "Distant reading for European literary history". In addition to discussing its compilation, the choices taken and what remains to be done, we provide an initial characterization of the novels according to size, subgenre, publication place, author gender and which edition was used. Then we present PALAVRAS-NER, the NER system which we use to annotate the collection, explaining the way it works.We then focus on a subcollection of eight novels fully human revised, which we use to both evaluate the performance of the automatic system, and to characterize the population of the full collection. These novels can be further subdivided according to two different features: historical versus contemporary novels, on the one hand, and original vs. modernized ortography, on the other. Also some works are canonical while others are not. In addition to the quantitative analysis of the annotation results and process, we present some qualitative description of the human revision as well. We offer a detailed analysis of some categories, demonstrating how the most mentioned places, professions and demonyms can be good indicators for distant reading. We end the paper comparing briefly with other work using named entities for literary texts and suggesting future work.
Databáze: OpenAIRE