Guía metodológica para la depuración de datos del sistema de información y registro cinematográfico – SIREC, del ministerio de Cultura

Autor: López Murillo, Leiby Yazmin, Gómez Quintero, Diana Rocio
Přispěvatelé: Herrera Ramírez, Héctor
Jazyk: Spanish; Castilian
Rok vydání: 2018
Předmět:
Popis: Mediante este trabajo, se da a conocer los pasos previos para llevar a cabo una buena ejecución y monitoreo de la información, al momento de ingresar los datos en el Sistema de Información y Registro cinematográfico – SIREC. Teniendo en cuenta las validaciones en los campos y estructuras de las bases de datos, con formatos estándar, estructurados e interoperables que faciliten el acceso y reutilización de la información. Algunos de los datos almacenados en el sistema de información, contienen errores debido a malas prácticas en el ingreso de la información lo cual conlleva a tomar decisiones erróneas, pérdida de tiempo, dinero y credibilidad. Esta situación ha capturado la atención de los investigadores, llevando al desarrollo de múltiples técnicas para detectar y corregir los problemas en los datos. Para lograr buenos resultados en procesos de limpieza de datos, la elección de la técnica es fundamental, pero no se conoce de alguna metodología que detalle la forma de realizar dicha selección de técnicas. Es por esto por lo que esta tesis construye una guía metodológica que oriente al analista de los datos del Sistema de Información y Registro Cinematográfico - SIREC hacia una selección de las técnicas adecuadas para aplicar a un conjunto de datos particular de un dominio específico que presentan tres problemas detectados en los registros de información que son: duplicados, valores atípicos incorrectos y valores faltantes. Para la construcción de la guía, se caracterizaron varias técnicas para cada uno de los tres problemas de datos bajo estudio, examinando su eficacia ante diferentes casos o situaciones problemáticas propuestas. Para realizar comparativos y validar la guía, se utilizaron tanto datos de prueba como reales pertenecientes a las bases de datos de agentes del sector cinematográfico colombiano, inscritos en el SIREC. Through this work, the previous steps to carry out a good execution and monitoring of the information are made known, when entering the data in the Film Information and Registration System - SIREC. Considering the validations in the fields and structures of the databases, with standard, structured and interoperable formats that facilitate access and reuse of information. Some of the data stored in the information system contain errors due to bad practices in the entry of information which leads to wrong decisions, loss of time, money and credibility. This situation has captured the attention of researchers, leading to the development of multiple techniques to detect and correct problems in the data. To achieve good results in data cleansing processes, the choice of technique is fundamental, but there is no known methodology to detail the way to perform this selection of techniques. Therefore, this thesis builds a methodological guide to guide the data analyst of the Information System and Cinematographic Registry - SIREC towards a selection of the appropriate techniques to apply to a data set of a specific domain that present three problems detected in the information registers that are: duplicates, incorrect outliers and missing values. For the construction of the guide, several techniques were characterized for each of the three data problems under study, examining their effectiveness in different cases or problematic situations proposed. To make comparisons and validate the guide, both test and real data belonging to the databases of agents of the Colombian cinematographic sector, registered in SIREC, were used.
Databáze: OpenAIRE