Análise lexicográfica da produção acadêmica da Fiocruz: uma proposta de metodologia

Autor: Lima, Jefferson da Costa
Jazyk: portugalština
Rok vydání: 2016
Předmět:
Zdroj: Repositório Institucional do FGVFundação Getulio VargasFGV.
Druh dokumentu: masterThesis
Popis: Submitted by Jefferson da Costa Lima (jeffersonlima@gmail.com) on 2016-10-31T15:52:52Z No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5)
Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-11-07T12:54:12Z (GMT) No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5)
Made available in DSpace on 2016-11-08T17:24:34Z (GMT). No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) Previous issue date: 2016-09-09
With the objective to meet the health needs of the population, a huge amount of publications are generated each year. Scientific papers, thesis and dissertations become available digitally, but make them accessible to the user requires an understanding of the indexing process, which is usually made manually. This work proposes an experiment on the feasibility of automatically identify valid descriptors for the documents in the field of health. Are extracted n-grams of the texts and, after comparison with terms of vocabulary Health Sciences Descriptors (DeCS), are identified those who can act as descriptors for the works. We believe that this process can be applied to classification of document sets with deficiencies in their indexing and, even, in supporting the re-indexing processes, improving the precision and recall of the searches, and the possibility of establishing metrics of relevance.
Com o objetivo de atender às demandas de saúde da população, uma quantidade enorme de publicações são geradas a cada ano. Artigos científicos, teses e dissertações tornam-se digitalmente disponíveis, mas torná-los acessíveis aos usuário exige a compreensão do processo de indexação, que em geral é feito manualmente. O presente trabalho propõe um experimento sobre a viabilidade de identificar automaticamente descritores válidos para documentos do campo da saúde. São extraídos n-grams dos textos e, após comparação com termos do vocabulário Descritores em Ciências da Saúde (DeCS), são identificados aqueles que podem atuar como descritores para as obras. Acreditamos que este processo pode ser aplicado na classificação de conjuntos de documentos com deficiências na indexação e, até mesmo, no apoio a processos de reindexação, melhorando a precisão e a revocação das buscas, além da possibilidade de estabelecer métricas de relevância.
Databáze: Networked Digital Library of Theses & Dissertations