Assessing named entities in the ELTeC-por collection
Autor: | Diana Santos, Eckhard Bick, Marcin Krzysztof Wlodek |
---|---|
Rok vydání: | 2021 |
Předmět: |
lcsh:Language and Literature
Linguistics and Language education.field_of_study português Portuguese Philosophy Population literatura portuguesa Distant reading Language and Linguistics leitura distante Portuguese literature lcsh:Philology. Linguistics Named entity recognition reconhecimento de entidades mencionadas lcsh:P1-1091 humanidades digitais compilação de corpos lcsh:P Cost action Corpus compilation education Humanities Digital humanities |
Zdroj: | Repositório Científico de Acesso Aberto de Portugal Repositório Científico de Acesso Aberto de Portugal (RCAAP) instacron:RCAAP Santos, D, Bick, E & Wlodek, M 2020, ' Avaliando entidades mencionadas na colecao ELTeC-por ', Linguamática, bind 12, nr. 2, s. 29-49 . https://doi.org/10.21814/LM.12.2.336 Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) Agência para a Sociedade do Conhecimento (UMIC)-FCT-Sociedade da Informação Linguamática, Vol 12, Iss 2 (2020) |
ISSN: | 1647-0818 |
DOI: | 10.21814/lm.12.2.336 |
Popis: | portuguesEste artigo relata a preparacao da anotacao da colecao ELTeC-por com entidades mencionadas apropriadas ao genero textual "romances e novelas publicadas entre 1840 e 1920", para possibilitar a leitura distante em portugues. Em primeiro lugar apresentamos a colecao ELTeC-por, compilada no âmbito da acao COST "Distant Reading for European Literary History" para estudar a literatura europeia, e explicamos as diversas restricoes e escolhas necessarias, fornecendo uma caracterizacao inicial segundo varios eixos: a origem e tamanho das obras, o seu (sub)genero literario, o genero do autor, o local de publicacao e a existencia ou nao de mais edicoes. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a colecao, explicando detalhadamente o seu funcionamento. Passamos entao a descricao da criacao de uma subcolecao de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automatico, e, por outro, para caracterizar o tipo de populacao esperada. As obras podem classificar-se segundo dois eixos diferentes: romances historicos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Alem disso, algumas obras sao obviamente canonicas, outras nao. Alem da descricao quantitativa do resultado de anotacao e revisao, apresentamos algumas consideracoes qualitativas sobre o processo. Tambem fornecemos uma analise detalhada de algumas categorias, tentando mostrar como os lugares, profissoes e gentilicos mais mencionados podem ser indicadores numa leitura distante. Concluimos comparando com o trabalho internacional feito na analise de entidades mencionadas de obras literarias, explicando as diferencas e sugerindo trabalho futuro. EnglishThis paper reports on the NER annotation of the ELTeC-por collection, a collection of hundred Portuguese novels published between 1840 and 1920, compiled in the scope of the COST action "Distant reading for European literary history". In addition to discussing its compilation, the choices taken and what remains to be done, we provide an initial characterization of the novels according to size, subgenre, publication place, author gender and which edition was used. Then we present PALAVRAS-NER, the NER system which we use to annotate the collection, explaining the way it works.We then focus on a subcollection of eight novels fully human revised, which we use to both evaluate the performance of the automatic system, and to characterize the population of the full collection. These novels can be further subdivided according to two different features: historical versus contemporary novels, on the one hand, and original vs. modernized ortography, on the other. Also some works are canonical while others are not. In addition to the quantitative analysis of the annotation results and process, we present some qualitative description of the human revision as well. We offer a detailed analysis of some categories, demonstrating how the most mentioned places, professions and demonyms can be good indicators for distant reading. We end the paper comparing briefly with other work using named entities for literary texts and suggesting future work. |
Databáze: | OpenAIRE |
Externí odkaz: |