Data Centric Workflows for Crowdsourcing Application

Autor:	Rituraj Singh
Přispěvatelé:	Université de Rennes (UR), SUpervision of large MOdular and distributed systems (SUMO), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-LANGAGE ET GÉNIE LOGICIEL (IRISA-D4), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Declarative & Reliable management of Uncertain, user-generated Interlinked Data (DRUID), GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7), Université de Rennes 1, Loïc Hélouët, ANR-16-CE23-0015,HEADWORK,Processus massivement participatifs d'acquisition de données et de connaissances(2016), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES), Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université Rennes 1
Jazyk:	angličtina
Rok vydání:	2021
Předmět:	[INFO.INFO-FL]Computer Science [cs]/Formal Languages and Automata Theory [cs.FL] ACM: F.: Theory of Computation/F.4: MATHEMATICAL LOGIC AND FORMAL LANGUAGES/F.4.3: Formal Languages ACM: H.: Information Systems/H.3: INFORMATION STORAGE AND RETRIEVAL Crowdsourcing assurance qualité Quality assurance Data-centric workflows workflows centrés sur les données ACM: H.: Information Systems/H.1: MODELS AND PRINCIPLES
Zdroj:	Formal Languages and Automata Theory [cs.FL]. Université de Rennes 1, 2021. English. ⟨NNT : ⟩ Formal Languages and Automata Theory [cs.FL]. Université de Rennes 1, 2021. English Formal Languages and Automata Theory [cs.FL]. Université Rennes 1, 2021. English. ⟨NNT : 2021REN1S042⟩ HAL
Popis:	Crowdsourcing uses human intelligence to solve tasks which are still difficult for machines. Tasks at existing crowdsourcing platform are batches of relatively simple micro-tasks. However, real-world problems are often more difficult than micro-tasks. They require data collection, organization, pre-processing, analysis, and synthesis of results. In this thesis, we study how to specify complex crowdsourcing tasks and realize them with the help of existing crowdsourcing platforms. The first contribution of this thesis is a complex workflows model that provides high-level constructs to describe a complex task through orchestration of simpler tasks. We provide algorithms to check termination and correctness of a complex workflow for a subset of the language (these questions are undecidable in the general case). A well-known drawback of crowdsourcing is that human answers might be wrong. To leverage this problem, crowdsourcing platforms replicate tasks, and forge a final trusted answer out of the produced results. Replication increases quality of data, but it is costly. The second contribution of this thesis is a set of aggregation techniques where merging of answers is realized using Expectation Maximization, and replication of tasks is performed online after considering the confidence estimated for aggregated data. Experimental results show that these techniques allow to aggregate the returned answers while achieving a good trade-off between cost and data quality, both for the realization of a batches of micro-tasks, and of complex workflow.; Le crowdsourcing utilise l'intelligence humaine pour résoudre des tâches difficiles à réaliser par des machines. Les plateformes de crowdsourcing existantes permettent de réaliser des lots de micro-tâches très simples. Cependant, de nombreux processus sont des tâches complexes, qui nécessitent d'enchaîner la collecte de données, des prétraitements, de l'analyse de données, de la synthèse, etc. Dans cette thèse, nous étudions comment spécifier ces tâches complexes, pour les faire réaliser par des plate-formes de crowdsourcing. Nous proposons tout d'abord le modèle des workflows complexes qui fournit des constructions de haut niveau pour décrire une tâche complexe comme une orchestrations d'un ensemble de tâches simples. Nous fournissons des algorithmes permettant de vérifier la terminaison et la correction de ces workflows pour un sous-ensemble du langage (ces questions étant indécidables dans le cas général). Un des inconvénients du crowdsourcing est le fait que de mauvaises réponses peuvent être produites par les agents humains. Pour pallier à ce problème, il est habituel de répliquer les tâches, puis d'aggréger les résultats pour fiabiliser une réponse finale. La réplication augmente la qualité des données, mais elle est coûteuse. Nous proposons des techniques d'agrégation de résultats dans lesquelles l’agrégation est réalisée à partir d'algorithmes d'Expectation Maximization, et la réplication est faite à la demande en tenant compte de la confiance estimée sur les agrégats. Les résultat expérimentaux montrent que ces techniques permettent de regrouper les réponses tout en obtenant un bon compromis coût-fiabilité pour des lots de micro-tâches, mais aussi pour des tâches complexes.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::d0bd916aa5b445894f3434d4ffff51f5 https://hal.inria.fr/tel-03274867 Zobrazit plný text záznamu