RECONHECIMENTO DO VOCABULÁRIO DE JORNAIS POPULARES BRASILEIROS POR UM DICIONÁRIO COMPUTACIONAL DE ACESSO LIVRE

Autor: Oto Araújo Vale, Maria José Bocorny Finatto, Eric Laporte
Přispěvatelé: Universidade Federal do Rio Grande do Sul [Porto Alegre] (UFRGS), Universidade Federal de São Carlos (UFSCar), Universidade Federal de Sao Carlos, Laboratoire d'Informatique Gaspard-Monge (LIGM), Centre National de la Recherche Scientifique (CNRS)-Fédération de Recherche Bézout-ESIEE Paris-École des Ponts ParisTech (ENPC)-Université Paris-Est Marne-la-Vallée (UPEM)
Jazyk: angličtina
Předmět:
Popular newspapers
Vocabulary
Cobertura lexical
Environmental Engineering
Reconhecimento de palavras
Jornais populares
Computer science
media_common.quotation_subject
02 engineering and technology
Lexis
computer.software_genre
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Industrial and Manufacturing Engineering
Newspaper
Set (abstract data type)
Léxico
Brazilian Portuguese
lcsh:P1-1091
0202 electrical engineering
electronic engineering
information engineering

Lexical coverage
[SHS.LANGUE]Humanities and Social Sciences/Linguistics
Vocabulário
Dicionário computacional
media_common
business.industry
05 social sciences
NLP dictionary
language.human_language
Agreement
Spelling
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing
lcsh:Philology. Linguistics
Identification (information)
language
Word recognition
020201 artificial intelligence & image processing
Artificial intelligence
0509 other social sciences
Portuguese
050904 information & library sciences
business
computer
Português brasileiro
Natural language processing
Zdroj: Alfa: Revista de Lingüística, Vol 63, Iss 1, Pp 63-80
Alfa: Revista de Linguística (São José do Rio Preto), Volume: 63, Issue: 1, Pages: 63-80, Published: 30 MAY 2019
Alfa Revista de Linguistica
Alfa Revista de Linguistica, Unesp-Universidade Estadual Paulista, 2019, 63 (1), pp.67-85. ⟨10.1590/1981-5794-1904-3⟩
CIÊNCIAVITAE
ISSN: 1981-5794
DOI: 10.1590/1981-5794-1904-3⟩
Popis: English version, p. 67-85. Versão em português, p. 63-80.; International audience; We report an experiment to check the identification of a set of words in popular written Portuguese with two versions of a computational dictionary of Brazilian Portuguese, DELAF PB 2004 and DELAF PB 2015. This dictionary is freely available for use in linguistic analyses of Brazilian Portuguese and other researches, which justifies critical study. The vocabulary comes from the PorPopular corpus, made of popular newspapers Diário Gaúcho (DG) and Massa! (MA). From DG, we retained a set of texts with 984.465 words (tokens), published in 2008, with the spelling used before the Portuguese Language Orthographic Agreement adopted in 2009. From MA, we examined papers of 2012, 2014 e 2015, with 215.776 words (tokens), all with the new spelling. The checking involved: a) generating lists of words (types) occurring in DG and MA; b) comparing them with the entry lists of both versions of DELAF PB; c) assessing the coverage of this vocabulary; d) proposing ways of incorporating the items not covered. The results of the work show that an average of 19% of the types in DG were not found in DELAF PB 2004 or 2015. In MA, this average is 13%. Switching versions of the dictionary affected slightly the performance in recognizing the words.; Relata-se um experimento de verificação da identificação de um universo de palavras do português popular escrito por duas versões de um dicionário computacional do português brasileiro (PB), DELAF PB 2004 e DELAF PB 2015. Esse dicionário computacional é gratuitamente acessível para ser utilizado em análises linguísticas do Português do Brasil e em outras pesquisas, o que justifica um estudo crítico. O universo vocabular provém do corpus PorPopular, composto por jornais populares, o Diário Gaúcho (DG) e o jornal baiano Massa! (MA). Do DG, partiu-se de um conjunto de textos com 984.465 palavras (tokens), publicados em 2008, com ortografia desatualizada frente ao Acordo Ortográfico da Língua Portuguesa adotado em 2009. Do MA, examinou-se um universo com 215.776 palavras (tokens), em publicações de 2012, 2014 e 2015, com todo o material na nova ortografia. A verificação envolveu: a) gerar listas de palavras diferentes empregadas em DG e MA; b) comparar essas listas com as listas de entradas das duas versões do DELAF PB; c) avaliar a cobertura desse vocabulário; d) propor modos de inclusão de itens não cobertos. Os resultados do trabalho mostraram, no DG, uma média de 19% de palavras diferentes (types) desconhecidas pelos DELAF PB 2004 e 2015. No MA, essa média ficou em 13%. A versão do dicionário repercutiu ligeiramente sobre o desempenho do reconhecimento de itens.
Databáze: OpenAIRE