Modelos gráficos probabilísticos para la clasificación supervisada empleando la estimación basada en kernels Gaussianos esféricos

Autor: Pérez, Aritz, Larrañaga Múgica, Pedro María, Inza Cano, Iñaki
Jazyk: Spanish; Castilian
Rok vydání: 2005
Předmět:
Zdroj: Modelos gráficos probabilísticos para la clasificación supervisada empleando la estimación basada en kernels Gaussianos esféricos | En: Actas del III Taller Nacional de Minería de Datos y Aprendizaje | pag. 125-134 | Thomson-Paraninfo | 2005
Popis: El clasificador naive Bayes ha demostrado comportarse sorprendentemente bien en la clasificación supervisada a pesar de que asume que las variables predictoras son condicionalmente independientes dada la clase, lo que generalmente no se cumple. El clasificador red Bayesiana aumentada a árbol rompe con esta suposición tan fuerte ya que permite dependencias entre las variables predictoras, por lo que se comporta mejor que el naive Bayes en ciertos dominios. Muchos de los clasificadores basados en redes Bayesianas (naive Bayes, red Bayesiana aumentada a árbol, red Bayesiana k-dependiente, semi naive Bayes...) únicamente emplean variables discretas, a pesar de que muchos dominios reales incluyen variables continuas. Existen tres opciones para estimarlas funciones de densidad de las variables continuas: 1. Discretizar las variables continuas con la consecuente pérdida de información. 2. Aproximarse a la función de densidad de los datos mediante una estimación paramétrica (habitualmente Gaussiana), con el consecuente error en la estimación si la distribución real difiere de la distribución paramétrica seleccionada. 3. Aproximar la densidad mediante una estimación no paramétrica (kernels,...). La estimación no paramétrica es más flexible que la estimación paramétrica, ya que se ajusta razonablemente mejor a la mayoría de las funciones de densidad. Este trabajo presenta el paradigma red flexible condicionada. No pretende ser un estudio en profundidad del nuevo paradigma, sino su introducción para la clasificación supervisada. Dicho paradigma emplea la estimación basada en kernels para modelar la densidad de las variables continuas. La red flexible condicionada puede ser entendida como una extensión de los paradigmas red Bayesiana y red Gaussiana condicionada, ya que permite una estimación más flexible y precisa de la función de densidad de las variables. A modo de ejemplo práctico, se incluye la adaptación del algoritmo red Bayesiana aumentada a árbol de Friedman y col. (1997) a las redes flexibles condicionadas. Esta adaptación, puede ser considerada como la extensión del clasificador flexible Bayes de John y Langley (1995), de la misma manera que la red Bayesiana aumentada a árbol es una extensión del naive Bayes. Además, y con el fin de sentar las bases de nuestra línea de trabajo se propone un estimador para la cantidad de información mutua entre dos variables continuas multidimensionales cuya densidad está basada en kernels.
Databáze: OpenAIRE