Parser sintático para o português brasileiro: desafios e soluções

Autor: Pacheco, Willian Emerson Afonso, Guaranha, Manoel Francisco
Jazyk: portugalština
Rok vydání: 2022
Předmět:
Zdroj: Texto Livre; Vol. 15 (2022): Texto Livre: Linguagem e Tecnologia ; e37569
Texto Livre; v. 15 (2022): Texto Livre: Linguagem e Tecnologia ; e37569
Texto livre
Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
ISSN: 1983-3652
Popis: This article aims to present the Syntactic Parser for Brazilian Portuguese – Parsero –, developed from the Generative Grammar (CHOMSKY, 2015) improved by the X-Barra Theory (CHOMSKY, 2014). Therefore, the rules developed by Othero (2009) especially for Brazilian Portuguese were used and adapted by our project to meet the needs of our Parser. The research used as lexical collection, to populate a Structured Query Language (SQL) Database, the resource Dictionary of Simple Inflected Words for Brazilian Portuguese (DELAF_PB), which was made available available by the Unitex-PB Project, developed by Núcleo Interinstitucional de Linguística Computacional (NILC) and by Instituto de Ciências Matemáticas e de Computação (ICMC). This resource, in turn, was built based on the French formalism – Dictionnarie Electronique du LADL (DELA) (MUNIZ, 2004). As a result of our project, we have made available to researchers interested in the topic the SQL Database with 1,193,295 classified lexical units, the address with the open source of Parsero and a link to run the application. Throughout the development of the Natural Language Processor (NLP), we had to put into practice interdisciplinary studies from language sciences and computer sciences, a necessary practice for the development of intelligent programs that can interact with writers or Brazilian Portuguese speakers. Este artigo tem como objetivo apresentar o Parser Sintático para o Português Brasileiro – Parsero, desenvolvido a partir da Gramática Gerativa (CHOMSKY, 2015), aperfeiçoada pela Teoria X-Barra (CHOMSKY, 2014). Para tanto, foram utilizadas as regras desenvolvidas especialmente para o Português Brasileiro por Othero (2009) e adaptadas pelo nosso projeto para atender às necessidades de nosso Parser. A pesquisa utilizou como coleção lexical, para povoar um Banco de Dados Structured Query Language (SQL), o recurso Dicionário de Palavras Simples Flexionadas para o Português Brasileiro (DELAF_PB), disponibilizado pelo Projeto Unitex-PB, desenvolvido pelo Núcleo Interinstitucional de Linguística Computacional (NILC) e pelo Instituto de Ciências Matemáticas e de Computação (ICMC). Esse recurso, por sua vez, foi construído com base no formalismo francês – Dictionnarie Electronique du LADL (DELA) (MUNIZ, 2004). Como resultado, disponibilizamos a Base de Dados SQL com 1.193.295 unidades léxicas classificadas, o endereço com o código aberto do Parsero e um link para execução do aplicativo. Para desenvolver o Processador de Linguagem Natural (PLN), colocamos em prática estudos interdisciplinares em ciências da linguagem e ciências da computação, práticas necessárias para o desenvolvimento de programas inteligentes que consigam interagir com escritores e falantes do Português Brasileiro.
Databáze: OpenAIRE