FINDOS: uma ferramenta para identificação automática de unidades de rastreamento

Autor: CARDOSO, Kamilla Rafaelle Fernandes
Přispěvatelé: IYODA, Juliano Manabu
Jazyk: portugalština
Rok vydání: 2016
Předmět:
Zdroj: Repositório Institucional da UFPE
Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
Popis: Documentos descritos em linguagem natural ainda são muito usados na indústria, especialmente em requisitos e testes. Coincidentemente, tais artefatos em linguagem natural seguem uma estrutura tabular (como Casos de Uso ou Casos de Teste), que muitas vezes não têm padronização e são editados livremente em editores de texto ou em planilhas eletrônicas. Variações na estrutura da tabela são encontradas em diferentes versões do mesmo documento, seja por falta de uma política de padronização, seja por falta de uso de alguma ferramenta estruturada (ou ambos). Em particular, o tratamento da evolução dos arquivos em diferentes versões é prejudicado, dado que cada stakeholder ou colaborador da documentação possui formas particulares de expressar os requisitos com pequenas variações em formato. O gerenciamento eficiente sobre documentos descritos em linguagem natural e que não possuem padronização é necessário para manter as informações sempre atualizadas e serem fáceis de manipular. Contudo, no contexto organizacional, em que a maioria das informações obtidas são fornecidos por terceiros (clientes, agências reguladoras, governo, fornecedores, etc) e onde a quantidade de documentos é relativamente grande, aumenta muito a complexidade do gerenciamento. Como os documentos, em sua grande maioria, estão semi-estruturados, há pouca ou nenhuma possibilidade de forçar a adoção de um padrão e, na maioria dos casos, forçar a adoção de um padrão acarreta em altos custos adicionais. Na área de requisitos encontramos várias soluções para identificar, armazenar e rastrear requisitos de forma eficaz. Entretanto a maioria destas soluções assumem a adoção de documentos previamente estruturados, ou semi-estruturados. Isto limita os usuários a seguir um padrão que estruture os arquivos antes de promover um gerenciamento ou identificação de requisitos em um processo evolutivo (onde N versões de um documento são produzidos). Abordagens automatizadas que promovam a identificação automática de unidades de rastreamento (Casos de Uso, Requisitos, Casos de Teste, etc) desestruturados não existem. Este trabalho desenvolveu a ferramenta FINDOS (Ferramenta de INspeção em DOcumentos deSestruturados) que, através de um algoritmo de busca angular (esquerda para direito, cima para baixo), identifica unidades de rastreamento em documentos altamente desestruturados. O algoritmo assume que as unidades de rastreamento possuem formato tabular (não padronizado) e que cada unidade possui um identificador único que obedeça a uma expressão regular. A ferramenta busca unidades de rastreamento em documentos do Word e Excel. Aplicamos a ferramenta em um estudo de caso no contexto do convênio UFPE-Motorola. Neste estudo de caso, a ferramenta, além de identificar as unidades de rastreamento, ainda comparou duas versões da mesma unidade para o usuário avaliar se houve mudanças de uma versão para outra (seja por uma remoção, adição ou modificação da informação entre versões). A ferramenta processou, no geral, 1.050 arquivos Word/Excel, com tempo de processamento em torno de 5,12 minutos, identificando através da execução do algoritmo, no total, 62.547 unidades de rastreamento (neste caso, 62.547 Casos de Testes). A equipe do convênio UFPE-Motorola reportou levar de 1 a 2 meses para realizar manualmente esta atividade Documents written in natural language are widely used in industry, in particular in requirements and test cases. Coincidently, such artefacts have a tabular structure (like Use Cases or Test Cases) and usually do not follow any well-defined structure (for instance, a fixed number of columns and rows for a Use Case). As these documents are usually edited in a text editor or a spreadsheet, variations in the tabular structure eventually occurs from different versions of the same artefact. This happens due to the lack of a firm structural standard or the lack of a more structured tool (or both). In particular, handling with evolution of the files in different versions is laborious, since each stakeholder or developer of the documentation has particular ways of expressing the requirements with small variations in format. Efficient management of documents described in natural language and lacking standardization is necessary to keep information up to date and easy to manipulate. However, in the organizational context, where most of the information obtained is provided by third parties (clients, regulatory agencies, government, suppliers, etc.) and where the number of documents is relatively large, management complexity is greatly increased. Because most documents are semi-structured, there is little or no possibility of forcing a standard to be adopted, and in most cases, forcing the adoption of a standard entails high additional costs. In Requirements Engineering, there are many solutions to identify, store and track requirements. However, all of them assume the previous adoption a structured format for the requirements. This limits the users to adopt a standard structure before benefitting from their solutions. To the best of our knowledge, there are no solutions for the automatic identification of unstructured traces (like Use Cases, Requirements, Test Cases etc). This work describes the development of FINDOS (Ferramenta de Inspeção em DOcumentos deSestruturados — Tool for Inspecting Unstructured Documents). FINDOS scans an unstructured document in an angular search (from left to right, top to bottom) to find traces in highly unstructured documents. The main algorithm of FINDOS assumes that each trace has a tabular format (although not standardised accross traces) and that each trace has a unique identifier that matches a regular expression. The current version of FINDOS is able to search for traces on Word and Excel documents. We illustrate the use of FINDOS in a case study in the context of the UFPE-Motorola project. In this case study, FINDOS not only searches for traces (Test Cases, in this case), but also compares two versions of the same trace so the user can evaluate whether there has been any evolution from one version to the next. FINDOS processed, in one of its run, 1.050 files Word/Excel containing overall 62.547 test cases. The processing time was less than 5.12 minutes. The UFPE-Motorola team reported that they take from 1 to 2 months to finish the same processing by hand.
Databáze: OpenAIRE