Método de adquisición de modelos de dominio a partir de corpus textuales y su aplicación en la integración de bases de datos y fuentes de información

Autor: García Remesal, Miguel
Přispěvatelé: Billhardt, Holger, Maojo García, Víctor
Jazyk: Spanish; Castilian
Předmět:
Zdroj: Archivo Digital UPM
Universidad Politécnica de Madrid
Popis: La llamada “sociedad de la información” y el rápido crecimiento de la Web han favorecido la aparición de numerosas fuentes “on-line” que contienen grandes cantidades de datos e información. Es por ello que se hace necesaria la creación de nuevos métodos y herramientas para facilitar el acceso integrado a todos estos recursos a través de Internet. En esta tesis doctoral se presentan una serie de métodos y herramientas cuyo propósito es llevar a cabo la integración de fuentes estructuradas (normalmente bases de datos relacionales) con fuentes no estructuradas (como colecciones de documentos de texto “plano”). Para ello, se parte del trabajo previo realizado por el autor de esta tesis en el desarrollo de OntoFusion, un sistema que permite llevar a cabo la integración de fuentes estructuradas siguiendo un enfoque basado en repositorios virtuales y el uso de modelos de dominio. A priori, los métodos y herramientas proporcionados por OntoFusion no pueden ser utilizados para integrar ambos tipos de fuentes, ya que las fuentes no estructuradas carecen de 1) un modelo de datos físico que las describa, y 2) un mecanismo de recuperación de información que permita ejecutar preguntas formuladas en base al modelo de datos. Para solucionar estos problemas, en este trabajo se propone: 1) crear un método que permita obtener, a partir de una fuente no estructurada, un modelo de dominio que describa su contenido, y 2) definir un modelo de recuperación de información para fuentes no estructuradas que pueda integrarse con la recuperación de datos en fuentes estructuradas. Este modelo de recuperación, denominado “Modelo de índices ontológicos” o MIO está basado en el modelo de recuperación más utilizado durante las últimas décadas: el modelo del espacio vectorial (MEV). La utilización conjunta de estos dos componentes, y de los métodos y herramientas desarrollados en el contexto de INFOGENMED, sugiere que es posible lograr la integración de fuentes estructuradas y no estructuradas siguiendo para ello un enfoque basado en repositorios virtuales y el uso de modelos de dominio. De cara a comprobar experimentalmente que la hipótesis anterior era cierta, se llevó a cabo un experimento de integración con un conjunto de fuentes estructuradas y no estructuradas, concluyéndose que es posible lograr la integración de ambos tipos de fuentes siguiendo la aproximación propuesta en este trabajo. Asimismo, con el propósito de evaluar el rendimiento del nuevo modelo de recuperación de información, se realizó un experimento comparativo entre el MIO y el MEV. Los resultados de este experimento demuestran empíricamente que el rendimiento del MIO es superior al del MEV para dos colecciones de documentos de prueba. La conclusión obtenida tras estos experimentos es que el uso del conocimiento contenido en los modelos de dominio asociados a las colecciones de prueba influye positivamente en el proceso de recuperación de información.
Databáze: OpenAIRE