Mapas auto-organizáveis na análise exploratória de dados geoespaciais multivariados

Autor: Marcos Aurélio Santos da Silva
Jazyk: portugalština
Rok vydání: 2004
Zdroj: Biblioteca Digital de Teses e Dissertações do INPEInstituto Nacional de Pesquisas EspaciaisINPE.
Druh dokumentu: masterThesis
Popis: Os Mapas Auto-Organizáveis têm sido aplicados, com sucesso, em variados problemas de análise exploratória de dados multivariados, todavia, poucos são os trabalhos voltados para a análise de dados coletados para unidades espaciais definidas, como os dados produzidos por censos demográficos, aqui chamados genericamente por dados geoespaciais. Este trabalho apresenta uma metodologia para a an´alise destes dados que contempla desde a verificação de dados atípicos até a análise de dependência espacial, fazendo uso, como ferramentas, somente do Mapa Auto-Organizável e seus algoritmos relacionados. Pode-se dividir a metodologia em quatro partes: detecção de dados atípicos através da análise da matriz de distância unificada (U-matriz), análise de componentes através dos Planos de Componentes, detecção automática de agrupamentos através do algoritmo Costa-Netto e análise da distribuição e dependência espaciais a partir dos Planos de Componentes e do particionamento dos dados na etapa anterior, respectivamente. Para a aplicação da metodologia proposta foi projetado e implementado um ambiente computacional integrado para an´alise explorat´oria de dados, que faz extensivo uso de banco de dados geogr´afico atrav´es da biblioteca aberta TerraLib (terralib.dpi.inpe.br). Compõem este ambiente a biblioteca SOMLib e o sistema CASA - Connectionist Approach for Spatial Analysis of Areal Data. A biblioteca SOMLib compreende um conjunto de classes em C++ projetadas a partir do uso de padrões de projeto e outras técnicas modernas de programação, cujo objetivo ´e implementar os algoritmos relacionados com os Mapas Auto-Organizáveis, de maneira a considerar a escalabilidade, a capacidade de manutenção do projeto e a conectividade com a biblioteca TerraLib. O sistema CASA é um simulador neural SOM 2-D, com interface gráfica, desenvolvido sobre as bibliotecas SOMLib e QT para execução das tarefas de análise exploratória de dados geoespaciais. Para validação da metodologia e do ambiente computacional de an´alise geográfica com redes SOM a mesma foi aplicada no problema de análise de indicadores de exclusão/inclusão social no município de São José dos Campos, São Paulo. Os resultados desta aplicação foram comparados com resultados anteriores, para o mesmo conjunto de dados, obtidos através de técnicas estatásticas e mostraram que os Mapas Auto-Organizáveis e os algoritmos relacionados são ferramentas robustas para a tarefa de análise exploratória de dados geoespaciais.
Self-Organizing Maps (SOM) have being applied, successfully, in a variety of problems of exploratory analysis of multivaried data, however, few are the works related to the analysis of geospatial data. This work considers a methodology of analysis of geoespacial data that contemplates from the verification of outliers to the analysis of space dependence using a Self-Organizing Map and its related algorithms as tools. The methodology is divided into four parts: detection of outliers through the analysis of the matrix of unified distance (U-matrix), analysis of components through the Component Planes, automatic clustering through the Costa-Nettos algorithm and analysis of the space distribution and dependence from the Component Planes and analysis of the partititioning of the data in the previous stage, respectively. The application of the methodology was carried out with direct access to geographic data through the integration with the TerraLib library (terralib.dpi.inpe.br) by a computational environment. The SOMLib library and the system CASA - Connectionist Approach for Spatial Analysis of Areal Data are components of that environment. The SOMLib library is a set of C++ classes designed by using Design Patterns and other modern programming techniques, whose objective is to implement the algorithms related with the Self-Organizing Maps in way that considers the escalability, manutenability of the project and the conectivity with the TerraLib. The CASA system is a neural 2D SOM simulator, with graphical interface, developed on the SOMLib and QT libraries. The methodology was applied to the problem of social exclusion/inclusion in the City of São José dos Campos, São Paulo. The results of this application were compared with previous statistical results and showed that a Self-Organizing Map and related algorithms are robust tools for the task of exploratory analysis of geospatial data.
Databáze: Networked Digital Library of Theses & Dissertations