Análise de qualidade e tempo de processamento de algoritmos de binarização para documentos textuais

Autor: BERNARDINO, Rodrigo Barros
Přispěvatelé: LINS, Rafael Dueire
Jazyk: portugalština
Rok vydání: 2018
Předmět:
Zdroj: Repositório Institucional da UFPE
Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
Popis: CAPES A binarização de imagens digitais é uma técnica amplamente utilizada, uma vez que documentos monocromáticos necessitam de menor espaço de armazenamento e banda de transmissão em redes de computadores. Além disso, a binarização é etapa usual em muitos processos complexos de processamento de imagens, tais como a transcrição automática de documentos. Esta dissertação de mestrado propõe uma metodologia para análise da qualidade das imagens resultantes de algoritmos de binarização baseada em imagens sintéticas. Tais imagens são geradas a partir de um conjunto de imagens binárias de referência com a adição de características extraídas de documentos reais, tais como textura do papel e escrita, interferência frente-verso, etc. As imagens sintéticas são, então, binarizadas e comparadas com as imagens de referência. Quanto mais próximo no número de pixels brancos e pretos da imagem de referência, considera-se melhor o desempenho do algoritmo. Os tempos de processamento também são coletados. Um total de 2:083:200 documentos representativos do universo de documentos textuais foram sintetizados e binarizados. Visando uma ampla divulgação, os resultados obtidos foram disponibilizados numa plataforma web, na qual o usuário escolhe os parâmetros, a plataforma gera o documento sintético e apresenta os resultados para cada algoritmo testado. Binarization of digital images is a technique widely used, as monochromatic documents require less storage space and transmission bandwidth in computer networks. Besides that, binarization is applied in many complex image processing applications, such as automatic document transcription. This M.Sc. dissertation presents a methodology for assessing the performance of binarization algorithms based on synthetic images. Such images are generated from a set of ground truth binary images with the addition of features extracted from real documents, such as paper and writing textures, back-to-front interference, etc. The synthetic images are then binarized using several algorithms and compared with the ground truth images. The closer the number of black and white pixels, the better is considered the performance of the algorithm. The processing times are also collected. A total of 2,083,200 documents, representative of the universe of textual documents, were synthesized and binarized. Aiming at a wider dissemination, the results obtained were made available on a web platform, in which the user chooses the parameters, the platform generates the synthetic document and then presents the binarization results for each of the tested algorithms.
Databáze: OpenAIRE