Uma abordagem para detectar relat??rios de defeitos duplicados baseada em aprendizagem profunda
Autor: | Rocha, Thiago Marques, https://orcid.org/0000-0001-5083-2989 |
---|---|
Přispěvatelé: | Carvalho, Andr?? Luiz da Costa, Colonna, Juan Gabriel, Giusti, Rafael, Marinho, Leandro Balby |
Jazyk: | portugalština |
Rok vydání: | 2020 |
Předmět: |
Modelagem em t??picos
Sistemas de rastreamento de problemas CI??NCIA DA COMPUTA????O [CI??NCIAS EXATAS E DA TERRA] Quinteto LDA Aprendizado do computador Aprendizagem profunda - Computa????o MLP Fun????o de perda Mecanismo de aten????o Relat??rios de defeito duplicado Redes neurais profundas Relat??rios de defeitos duplicados Quintet Loss Terceto Aprendizagem profunda Aprendizagem sem??ntica baseada em contexto BERT |
Zdroj: | Biblioteca Digital de Teses e Dissertações da UFAM Universidade Federal do Amazonas (UFAM) instacron:UFAM |
ISSN: | 4448-1292 |
Popis: | Submitted by Thiago Marques Rocha (thiago@icomp.ufam.edu.br) on 2020-09-29T17:14:35Z No. of bitstreams: 3 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) dissertacao_ufam_thiago_marques_versao_final.pdf: 3535803 bytes, checksum: ced36df4195a00c16ee3413a290571ff (MD5) Carta de Autoriza????o de Encaminhamento.pdf: 39996 bytes, checksum: 47f8dd94eed7860fd945938e5965332d (MD5) Approved for entry into archive by PPGI Inform??tica (secretariappgi@icomp.ufam.edu.br) on 2020-09-29T17:56:34Z (GMT) No. of bitstreams: 3 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) dissertacao_ufam_thiago_marques_versao_final.pdf: 3535803 bytes, checksum: ced36df4195a00c16ee3413a290571ff (MD5) Carta de Autoriza????o de Encaminhamento.pdf: 39996 bytes, checksum: 47f8dd94eed7860fd945938e5965332d (MD5) Rejected by Divis??o de Documenta????o/BC Biblioteca Central (ddbc@ufam.edu.br), reason: Na ficha catalogr??fica, corrigir a classifica????o de Cutter R672d, para R672a (primeira palavra relevante do t??tulo ?? abordagem). A Folha de Aprova????o deve ser retirada do arquivo da disserta????o, sendo anexada da mesma forma como foi a Carta de Encaminhamento. on 2020-09-29T19:04:48Z (GMT) Submitted by Thiago Marques Rocha (thiago@icomp.ufam.edu.br) on 2020-09-29T19:37:44Z No. of bitstreams: 4 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Carta de Autoriza????o de Encaminhamento.pdf: 39996 bytes, checksum: 47f8dd94eed7860fd945938e5965332d (MD5) dissertacao_ufam_thiago_marques_versao_final.pdf: 2741844 bytes, checksum: 912bb4d04963a0d4db52d50dff92ac2f (MD5) 360 Folha de Aprovac??a??o - Thiago Rocha - assinada.pdf: 800248 bytes, checksum: c3b4e32039d0b5d444812924d9aa0690 (MD5) Approved for entry into archive by PPGI Inform??tica (secretariappgi@icomp.ufam.edu.br) on 2020-09-29T19:50:29Z (GMT) No. of bitstreams: 4 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Carta de Autoriza????o de Encaminhamento.pdf: 39996 bytes, checksum: 47f8dd94eed7860fd945938e5965332d (MD5) dissertacao_ufam_thiago_marques_versao_final.pdf: 2741844 bytes, checksum: 912bb4d04963a0d4db52d50dff92ac2f (MD5) 360 Folha de Aprovac??a??o - Thiago Rocha - assinada.pdf: 800248 bytes, checksum: c3b4e32039d0b5d444812924d9aa0690 (MD5) Approved for entry into archive by Divis??o de Documenta????o/BC Biblioteca Central (ddbc@ufam.edu.br) on 2020-09-30T02:06:52Z (GMT) No. of bitstreams: 4 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Carta de Autoriza????o de Encaminhamento.pdf: 39996 bytes, checksum: 47f8dd94eed7860fd945938e5965332d (MD5) dissertacao_ufam_thiago_marques_versao_final.pdf: 2741844 bytes, checksum: 912bb4d04963a0d4db52d50dff92ac2f (MD5) 360 Folha de Aprovac??a??o - Thiago Rocha - assinada.pdf: 800248 bytes, checksum: c3b4e32039d0b5d444812924d9aa0690 (MD5) Made available in DSpace on 2020-09-30T02:06:52Z (GMT). No. of bitstreams: 4 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Carta de Autoriza????o de Encaminhamento.pdf: 39996 bytes, checksum: 47f8dd94eed7860fd945938e5965332d (MD5) dissertacao_ufam_thiago_marques_versao_final.pdf: 2741844 bytes, checksum: 912bb4d04963a0d4db52d50dff92ac2f (MD5) 360 Folha de Aprovac??a??o - Thiago Rocha - assinada.pdf: 800248 bytes, checksum: c3b4e32039d0b5d444812924d9aa0690 (MD5) Previous issue date: 2020-08-31 In large-scale software development environments, defect reports are maintained through bug tracking systems and analyzed by domain experts. Since different users may create bug reports in a non-standard manner, each user can report a particular problem with a unique set of words. Therefore, different reports may describe the same problem, generating duplication. In order to avoid redundant tasks for the development team, an expert needs to look at all new reports while trying to label possible duplicates. However, this approach is neither trivial nor scalable and has a direct impact on bug fix correction time. Recent efforts to find duplicate bug reports tend to focus on deep neural approaches that consider hybrid information from bug reports as textual and categorical features. However, these approaches ignore that a single bug can have multiple previously identified duplicates and, therefore, multiple textual descriptions, titles, and categorical information. In this work, we propose SiameseQAT, a duplicate bug report detection method that considers not only information on individual bugs, but also collective information from bug clusters. The SiameseQAT combines context and semantic learning on textual and categorical features, as also topic-based features, with a novel loss function called Quintet Loss, which considers the centroid of duplicate clusters and their contextual information. We validated our approach on the well-known open-source software repositories Eclipse, Netbeans, and Open Office, that comprises more than 500 thousand bug reports. We evaluated both retrieval and classification of duplicates, reporting a Recall@25 mean of 71% for retrieval, and 99% AUROC for classification tasks, results that were significantly superior to related works. Em ambientes de desenvolvimento de software em larga escala, os relat??rios de defeitos s??o mantidos por meio de sistemas de rastreamento de problemas e analisados por especialistas de dom??nio. Nesses sistemas, os usu??rios podem criar relat??rios de defeitos de maneira despadronizada, ou seja, cada usu??rio pode relatar um problema espec??fico com um conjunto exclusivo de palavras. Portanto, relat??rios diferentes podem descrever o mesmo problema, gerando duplica????o. Para evitar tarefas redundantes para a equipe de desenvolvimento, um especialista precisa examinar todos os novos relat??rios enquanto rotula poss??veis duplicatas. No entanto, essa abordagem n??o ?? trivial, nem escal??vel e impacta diretamente o tempo de corre????o dos defeitos. Esfor??os recentes para detectar relat??rios de defeitos duplicados tendem a se concentrar em abordagens que utilizam redes neurais profundas que consideram as informa????es h??bridas dos relat??rios como recursos textuais e categ??ricos. Entretanto, essas abordagens ignoram que um ??nico relat??rio pode ter v??rias duplicatas identificadas anteriormente e, portanto, v??rias descri????es textuais, t??tulos e informa????es categ??ricas. Neste trabalho, propusemos o SiameseQAT, um m??todo para detec????o de relat??rios de defeitos duplicados que considera n??o apenas informa????es sobre relat??rios individuais, mas tamb??m informa????es coletivas de grupos de defeitos. O SiameseQAT combina aprendizado contextual e sem??ntico com recursos textuais e categ??ricos, al??m de recursos baseados em extra????o de t??picos, utilizando a Quintet Loss uma nova fun????o de perda introduzida por este trabalho, que considera o centroide de grupos duplicados e suas informa????es contextuais. Validamos nossa abordagem nos reposit??rios de software de c??digo aberto Eclipse, Netbeans e Open Office, que incluem mais de 500 mil relat??rios de defeitos. Avaliamos a recupera????o e a classifica????o de duplicatas, relatando uma m??dia de Recall@25 de 71% para recupera????o e 99% de AUROC para tarefas de classifica????o, resultados superiores aos apresentados por trabalhos relacionados. |
Databáze: | OpenAIRE |
Externí odkaz: |