Aggregate administrative data to adjust selection bias in estimates from nonprobability samples

Autor: Cabrera Alvarez, Pablo
Přispěvatelé: Escobar Mercado, Modesto
Jazyk: angličtina
Rok vydání: 2021
Předmět:
Zdroj: GREDOS. Repositorio Institucional de la Universidad de Salamanca
Fundacion Sancho el Sabio Fundazioa (FSS)
Popis: Tesis por compendio de publicaciones
[ES] En los últimos años, la concurrencia de dos fenómenos ha revitalizado el debate metodológico sobre la inferencia a partir de muestras no probabilísticas. Por un lado, las muestras probabilísticas adolecen cada vez más de errores derivados de la no respuesta y la falta de cobertura, lo que aumenta los costes de las encuestas y da lugar a estimaciones sesgadas. Por otro lado, la aparición y la expansión de internet han provocado un creci- miento exponencial del uso de encuestas web con muestras reclutadas mediante métodos no probabilísticos. La inferencia a partir de muestras no probabilísticas requiere un modelo explícito o implícito que explique el mecanismo de selección con respecto a la variable objetivo. Esta tesis explora una intersección entre la necesidad de reducir el sesgo de selec- ción en las estimaciones realizadas a partir de muestras no probabilísticas y la oportunidad de explicar el mecanismo de selección que surge de los nuevos datos administrativos agre- gados disponibles. Para ello, esta tesis engloba tres trabajos que presentan una serie de simulaciones estadísticas y dos aplicaciones metodológicas utilizando un conjunto de en- cuestas presenciales y dos encuestas web realizadas en España. En primer lugar, las simu- laciones estadísticas exploran las condiciones bajo las cuales los datos agregados como variables contextuales y totales poblacionales pueden reducir o eliminar el sesgo de selec- ción de las estimaciones. En segundo lugar, utilizando las encuestas pre y postelectorales del Centro de Investigaciones Sociológicas (CIS) que combinan métodos de selección pro- babilística con cuotas, se explora la adición de variables auxiliares sociodemográficas y recuerdo de voto a la ponderación, así como el uso de técnicas de imputación múltiple para mejorar la calidad de las estimaciones. En tercer lugar, utilizando dos encuestas de un panel experimental de internautas patrocinado por la Asociación para la Investigación de los Me- dios de Comunicación (AIMC), se comprueba el efecto de incluir datos administrativos agregados a nivel municipal para atajar el sesgo de selección y mejorar la calidad de las estimaciones de la encuesta. Los resultados muestran que los datos administrativos agregados son insuficientes para corregir el sesgo de selección en las estimaciones de la encuesta, especialmente cuando se utilizan como variables contextuales. Los resultados también sugieren que la naturaleza agregada de los datos es el principal impedimento para controlar el sesgo de selección en las estimaciones. [EN] In recent years, the concurrence of two phenomena has revitalised the methodolog- ical debate about inference from nonprobability samples. On the one hand, probability samples increasingly suffer from nonresponse and noncoverage errors, increasing survey costs and leading to biased estimates. On the other hand, the emergence and expansion of the Internet have led to an exponential growth in the use of web surveys with samples recruited using nonprobability methods. Inference from nonprobability samples requires an explicit or implicit model that explains the selection mechanism with respect to the tar- get variable. This thesis explores an intersection between the need to reduce selection bias in the estimates from nonprobability samples and the opportunity to explain the selection mech- anism emerging from newly available aggregate administrative data. To this end, this thesis encompasses three papers that present statistical simulations and two methodological ap- plications using a set of face-to-face and two web surveys conducted in Spain. The first paper uses statistical simulations to explore the conditions under which aggregated data as contextual variables and population totals can reduce or remove selection bias from the estimates. The second paper explores adding sociodemographic and past vote auxiliary variables to the weighting as well as using multiple imputation to improve the quality of the estimates using the pre and post-election surveys of the Centro de Investigaciones So- ciológicas (CIS) that combine probability selection methods with quotas. The third article tests the effect of including aggregate administrative data at the municipality level to tackle selection bias and improve the quality of the survey estimates using two surveys from an experimental panel of internet users sponsored by the Association for Media Research (AIMC). The results show that aggregate administrative data is insufficient to correct selec- tion bias in survey estimates, especially when used as contextual variables. The results also suggest that the aggregate nature of the data is the main impediment to control for selection bias in the estimates.
Databáze: OpenAIRE