BrAgriNews: A Temporal-Causal Brazilian-Portuguese Corpus for Agriculture

Autor: Brett Drury, Robson Fernandes, Alneu de Andrade Lopes
Jazyk: portugalština
Rok vydání: 2017
Předmět:
Zdroj: Linguamática; Vol. 9 No. 1; 41-54
Linguamática; Vol. 9 Núm. 1; 41-54
Linguamática; v. 9 n. 1; 41-54
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Agência para a Sociedade do Conhecimento (UMIC)-FCT-Sociedade da Informação
instacron:RCAAP
Linguamática, Vol 9, Iss 1 (2017)
Repositório Institucional da USP (Biblioteca Digital da Produção Intelectual)
Universidade de São Paulo (USP)
instacron:USP
ISSN: 1647-0818
Popis: Recentemente tem havido um aumento no interesse, tanto no meio acadêmico quanto na indústria, em aplicações de aprendizagem de máquina e técnicas de inteligência artificial relacionadas com problemas agrícolas. Mineração de texto e técnicas relacionadas com o processamento da língua natural, raramente foram usadas para resolver problemas agrícolas, e muito menos para a língua portuguesa. É possível que um dos fatores que influenciam a escassez no uso técnicas de mineração de texto, para analisar textos em português e resolver problemas agrícolas, pode ser devido à falta de um corpus anotado livremente disponível. Para colmatar a falta de um corpus agrícola em língua portuguesa, estamos liberando um recurso em português-brasileiro voltado para agricultura, descrito neste artigo. O corpus abrange um período parcialmente contínuo de tempo entre 1996 e 2016, consistindo de notícias em português-brasileiro que foram anotadas com o seguinte tipo de informação: causal, sentimento, entidades nomeadas que incluem expressões temporais. O corpus tem recursos adicionais como: treebank, listas de termos frequentes (sem stop-words): unigramas, bigramas e trigramas, bem como palavras ou frases que foram identificados por jornalistas como de domínio específico. Espera-se que a liberação do corpus estimule a adoção da mineração de texto na agricultura na comunidade de pesquisa lusófona.
Databáze: OpenAIRE