Analysis of data clustering methods to detect anomalies in the pricing and categorization of automotive industry parts

Autor: Guerreiro, Marcio Trindade
Přispěvatelé: Siqueira, Hugo Valadares, Trojan, Flavio, Bastos Filho, Carmelo Jose Albanez, Góis, Lourival Aparecido de, Stevan Junior, Sergio Luiz
Jazyk: portugalština
Rok vydání: 2021
Předmět:
Zdroj: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
Popis: O desempenho de fabricação de uma empresa para redução de custos é uma ação de extrema importância para garantir a competitividade e evitar desperdício de recursos. As variáveis de processos e composição de produtos na indústria automotiva, geram diariamente uma quantidade de combinações de configurações de dados e de cenários que tornam inviável seu processamento de forma manual. Com isso, boa parte do conhecimento gerado acaba não sendo utilizado diretamente em itens similares, acarretando, por muitas vezes, em grandes diferenças de custos por pequenas diferenças estruturais e de design do produto. O objetivo desse trabalho é comparar o desempenho de algoritmos de clusterização e munido de etapas de pré-processamento para o agrupamento de peças, considerando características físicas de fabricação. Em seguida, é feita uma comparação de eficiência de custo de componentes similares, auxiliando na tomada de decisão para formação de estratégias para alcançar o ponto ótimo relativo aos custos desses componentes. Foi realizado o agrupamento através dos seguintes algoritmos: K-Means, K-Medoids, Fuzzy C-Means - FCM, Hierarquico, Agrupamento por Densidade Espacial em Aplicações com Ruido (Density Based Spatial Clustering of Applications with Noise - DBSCAN), Mapas AutoOrganizáveis (Self Organizing Maps - SOM), Otimização por Enxame de Partículas (Particle Swarm Optmization - PSO), algoritmo Genético (Genetic Algorithm - GA) e Evolução Diferencial (Differential Evolution - DE). Como métrica de comparação utilizou-se os seguintes índices: Soma dos Erros Quadráticos (Sum of Squared Errors - SSE), Soma das Distâncias Internas (Sum of Squares Within Clusters - SSW), Soma das Distâncias Externas (Sum of Squares Between Clusters - SSB), (Calinski-Harabasz - CH), o índice WB e Silhouette. O algoritmo hierárquico foi o que obteve os melhores resultados práticos, quando verificada a métrica SI e no resultado geral pontuando-se todas diferentes métricas aplicadas. The manufacturing performance of a company to reduce costs is an extremely important action to ensure competitiveness and avoid wasting resources. The variables of processes and composition of products in the automotive industry generates a daily number of combinations of data configurations and scenarios that make their manual processing unfeasible. As a result, much of the knowledge generated ends up not being used directly in similar items, resulting in large differences in costs due to small structural and product design differences. The objective of this work is to compare the performance of clustering algorithms and provided pre-processing steps for the grouping of parts, considering physical manufacturing characteristics. Then, a costefficiency comparison of similar components is made, assisting in the decision making for the formation of strategies to reach the optimum point regarding the costs of these components. Grouping was performed using the following algorithms: K-Means, K-Medoids, Fuzzy C-Means - FCM, Hierarchical, Density Based Spatial Clustering of Applications with Noise - DBSCAN, Self Organizing Maps - SOM, Particle Swarm Optmization - PSO, Genetic Algorithm - GA and Differential Evolution - DE. As a comparison metric, the following indices were used: Sum of Squared Errors - SSE, Sum of Squares Within Clusters - SSW, Sum of Squares Between Clusters - SSB, Calinski-Harabasz - CH, WB and Silhouette index. The hierarchical algorithm was the one that obtained the best practical results, when checking the SI metric and in the general result scoring all different applied metrics.
Databáze: OpenAIRE