Learning Portuguese Clinical Word Embeddings: A Multi-Specialty and Multi-Institutional Corpus of Clinical Narratives Supporting a Downstream Biomedical Task.

Autor:	E Oliveira LES; Health Technology Program, Pontifical Catholic University of Paraná, Curitiba, PR, Brazil., Gumiel YB; Health Technology Program, Pontifical Catholic University of Paraná, Curitiba, PR, Brazil., Dos Santos ABV; Health Technology Program, Pontifical Catholic University of Paraná, Curitiba, PR, Brazil., Cintho LMM; Health Technology Program, Pontifical Catholic University of Paraná, Curitiba, PR, Brazil., Carvalho DR; Health Technology Program, Pontifical Catholic University of Paraná, Curitiba, PR, Brazil., Hasan SA; AI Lab, Philips Research North America, Cambridge, MA, USA., Moro CMC; Health Technology Program, Pontifical Catholic University of Paraná, Curitiba, PR, Brazil.
Jazyk:	angličtina
Zdroj:	Studies in health technology and informatics [Stud Health Technol Inform] 2019 Aug 21; Vol. 264, pp. 123-127.
DOI:	10.3233/SHTI190196
Abstrakt:	In this paper, we trained a set of Portuguese clinical word embedding models of different granularities from multi-specialty and multi-institutional clinical narrative datasets. Then, we assessed their impact on a downstream biomedical NLP task of Urinary Tract Infection disease identification. Additionally, we intrinsically evaluated our main model using an adapted version of Bio-SimLex for the Portuguese language. Our empirical results showed that the larger, coarse-grained model achieved a slightly better outcome when compared with the small, fine-grained model in the proposed task. Moreover, we obtained satisfactory results with Bio-SimLex intrinsic evaluation.
Databáze:	MEDLINE
Externí odkaz:	Zobrazit plný text záznamu