L’Apprentissage Automatique pour la prise de Décisions

Autor:	Sani, Amir
Přispěvatelé:	Sequential Learning (SEQUEL), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), Université de Lille 1, Rémi Munos, Alessandro Lazaric
Jazyk:	angličtina
Rok vydání:	2015
Předmět:	Decision-Making Algorithme d’apprentissage incrémen- tal Bootstrap (statistique) Sequential Decision- Making Risk-Aversion Risque Bootstrap Multi-Arm Bandit Machine Learning Online Learning [STAT.ML]Statistics [stat]/Machine Learning [stat.ML] Apprentissage Automatique Bandit manchot (Mathématiques) Prise de Décision (statistique) Optimisation Learning with Expert Advice Prise de Décision
Zdroj:	Machine Learning [stat.ML]. Université de Lille 1, 2015. English
Popis:	Strategic decision-making over valuable resources should consider risk-averse objectives. Many practical areas of application consider risk as central to decision- making. However, machine learning does not. As a result, research should provide insights and algorithms that endow machine learning with the ability to consider decision-theoretic risk. In particular, in estimating decision-theoretic risk on short dependent sequences generated from the most general possible class of processes for statistical inference and through decision-theoretic risk objectives in sequential decision-making. This thesis studies these two problems to provide principled algorithmic methods for considering decision-theoretic risk in machine learning. An algorithm with state-of-the-art performance is introduced for accurate estimation of risk statistics on the most general class of stationary–ergodic processes and risk-averse objectives are introduced in sequential decision-making (online learning) in both the stochastic multi-arm bandit setting and the adversarial full-information setting.; La prise de décision stratégique concernant des ressources de valeur devrait tenir compte du degré d’aversion au risque. D’ailleurs, de nombreux domaines d’application mettent le risque au cœur de la prise de décision. Toutefois, ce n’est pas le cas de l’apprentissage automatique. Ainsi, il semble essentiel de devoir fournir des indicateurs et des algorithmes dotant l’apprentissage automatique de la possibilité de prendre en considération le risque dans la prise de décision. En particulier, nous souhaiterions pouvoir estimer ce dernier sur de courtes séquences dépendantes générées à partir de la classe la plus générale possible de processus stochastiques en utilisant des outils théoriques d’inférence statistique et d’aversion au risque dans la prise de décision séquentielle. Cette thèse étudie ces deux problèmes en fournissant des méthodes algorithmiques prenant en considération le risque dans le cadre de la prise de décision en apprentissage automatique. Un algorithme avec des performances de pointe est proposé pour une estimation précise des statistiques de risque avec la classe la plus générale de processus ergodiques et stochastiques. De plus, la notion d’aversion au risque est introduite dans la prise de décision séquentielle (apprentissage en ligne) à la fois dans les jeux de bandits stochastiques et dans l’apprentissage séquentiel antagoniste.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=od______2592::d0b0de1d7244bd2f574f99d7fa21eb1f https://tel.archives-ouvertes.fr/tel-01256178/document Zobrazit plný text záznamu