Técnicas de processamento de linguagem natural aplicadas às ciências sociais

Autor: Scarpa, Alice Duarte
Jazyk: portugalština
Rok vydání: 2017
Předmět:
Zdroj: Repositório Institucional do FGVFundação Getulio VargasFGV.
Druh dokumentu: masterThesis
Popis: Submitted by Alice Duarte Scarpa (alicescarpa@gmail.com) on 2017-09-26T15:54:11Z No. of bitstreams: 1 dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5)
Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2017-10-31T11:43:22Z (GMT) No. of bitstreams: 1 dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5)
Made available in DSpace on 2017-11-10T18:24:46Z (GMT). No. of bitstreams: 1 dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5) Previous issue date: 2017-08-24
The vast amount of documents available nowadays presents a great opportunity for advancing Political Sciences. At the same time, this deluge of information poses a problem, because it is no longer feasible for researchers to analyze every document manually. Modern natural language processing techniques have an essential role in helping with this process. The goal of this work is to create a tool based on natural language processing techniques that helps researchers to navigate an important database, Cablegate, which is a corpus of over 250 thousand diplomatic cables sent between US embassies that was published as part of WikiLeaks. This is a very important database that can shed new light at key historical moments of the twenty-first century.
A enorme quantidade de documentos disponíveis atualmente representa um grande potencial de avanço para as Ciências Políticas. Ao mesmo tempo essa riqueza de informações gera um problema, pois não é mais possível que pesquisadores analisem todos os documentos manualmente. Técnicas modernas de processamento de linguagem natural têm um papel essencial a cumprir para auxiliar tal avanço. O objetivo desse trabalho é criar uma ferramenta baseada em processamento de linguagem de natural que ajude pesquisadores a navegar uma base de dados muito importante, o \textit{Cablegate}, que é um conjunto de mais de 250 mil cabos diplomáticos de embaixadas dos Estados Unidos que foi publicado como parte do \textit{WikiLeaks}. Essa é uma base muito importante que pode trazer uma nova luz sobre vários momentos-chave do início do século XXI.
Databáze: Networked Digital Library of Theses & Dissertations