Selección automática de parámetros en LLE

Autor: Valencia Aguirre, Juliana, Álvarez Mesa, Andrés Marino, Daza Santacoloma, Genaro, Acosta Medina, Carlos Daniel, Castellanos Domínguez, Germán
Jazyk: Spanish; Castilian
Rok vydání: 2010
Předmět:
Zdroj: Revista Facultad de Ingeniería Universidad de Antioquia, Issue: 56, Pages: 170-181, Published: DEC 2010
Popis: Inmersión localmente lineal (LLE) es una técnica de reducción de dimensión no lineal que permite conservar la geometría local del espacio de alta dimensión, al realizar una inmersión de los datos a un espacio de baja dimensión. El algoritmo posee 3 parámetros libres que deben ser definidos por el usuario al momento de realizar la inmersión: el número de vecinos más cercanos k, la dimensión de salida de los datos m y el parámetro de regularización a. Este último sólo es necesario determinarlo cuando el número de vecinos elegido es mayor que la dimensión original de los datos, o cuando los puntos (datos) no están ubicados en posición general, pero juega un papel muy importante en el resultado de la inmersión. En este trabajo se propone un par de criterios que permiten encontrar el valor óptimo para los parámetros k y α, de manera que sea obtenga una inmersión que represente de manera fiel los datos del espacio de entrada. Con el fin de comprobar la eficacia de los criterios propuestos, se realizaron pruebas sobre dos bases de datos artificiales y dos bases de datos reales. Además, se realiza una comparación de los resultados contra métodos encontrados en el estado del arte. Locally Linear Embedding (LLE) is a nonlinear dimensionality reduction technique, which preserves the local geometry of high dimensional space performing an embedding to low dimensional space. LLE algorithm has 3 free parameters that must be set to calculate the embedding: the number of nearest neighbors k, the output space dimensionality m and the regularization parameter a. The last one only is necessary when the value of k is greater than the dimensionality of input space or data are not located in general position, and it plays an important role in the embedding results. In this paper we propose a pair of criteria to find the optimum value for the parameters k and α, to obtain an embedding that faithfully represent the input data space. Our approaches are tested on 2 artificial data sets and 2 real world data sets to verify the effectiveness of the proposed criteria, besides the results are compared against methods found in the state of art.
Databáze: OpenAIRE