Tests estadísticos basados en proyecciones aleatorias
Autor: | Navarro Esteban, Paula |
---|---|
Přispěvatelé: | Cuesta Albertos, Juan Antonio, Nieto Reyes, Alicia, Universidad de Cantabria |
Rok vydání: | 2020 |
Předmět: | |
Zdroj: | UCrea Repositorio Abierto de la Universidad de Cantabria instname Universidad de Cantabria (UC) |
Popis: | RESUMEN: Las proyecciones aleatorias proyectan los datos iniciales de alta dimensión en un subespacio de baja dimensión seleccionado aleatoriamente. Se usan en problemas que requieren el manejo de datos de dimensión reducida junto con eficiencia computacional y preservación de la estructura local de los datos. Se utilizan según dos paradigmas: se elige un estadístico apropiado para el problema considerado en el caso unidimensional y i) Se maneja un número reducido de proyecciones unidimensionales en las que, para cada una de ellas, se calcula el valor del estadístico. Se elige un valor que resuma los valores obtenidos. ii) Se calcula el valor esperado, dada la muestra, del estadístico. En esta tesis usamos i) para proponer un nuevo procedimiento de detección de outliers en dimensión alta (ayudándonos del análisis secuencial) y ii) para introducir una novedosa familia de tests de uniformidad en hiperesferas. Estudios de simulación corroboran las propiedades teóricas obtenidas. La aplicación a conjuntos de datos reales ilustra el funcionamiento de los métodos propuestos. ABSTRACT: Random projections project high-dimensional data into a lower dimensional subspace that has been randomly chosen. They are used in problems that require handling reduced dimensional data in a computational efficiency manner while preserving the local structure of the original high-dimensional data. They are applied according to two paradigms: choosing an appropiate statistic for the considered problem in the one-dimensional case and i) Handling a reduced number of one-dimensional random projections in which, for each of them, the value of the statistic is computed. Choosing a value summarizing the obtained values. ii) Computing the expected value, given the sample, of this statistic. In this thesis we use i) to propose a new procedure that detects outliers in Gaussian high-dimensional data (by means of sequential analysis) and ii) to introduce a novel projection-based class of uniformity tests on the hypersphere. Simulation studies corroborate our theoretical findings and the application to real datasets illustrates the performance of the proposed methods. |
Databáze: | OpenAIRE |
Externí odkaz: |