Programmation dynamique tropicale en optimisation stochastique multi-étapes

Autor: Tran, Duy-Nghi
Přispěvatelé: Centre d'Enseignement et de Recherche en Mathématiques et Calcul Scientifique (CERMICS), École des Ponts ParisTech (ENPC), Université Paris-Est, Jean-Philippe Chancelier
Jazyk: francouzština
Rok vydání: 2020
Předmět:
Zdroj: Optimisation et contrôle [math.OC]. Université Paris-Est, 2020. Français. ⟨NNT : 2020PESC1040⟩
Popis: In this thesis, we are interested in the resolution by dynamic programming of Multistage Stochastic optimization Problems (MSP).In the first part, we are interested in the approximation of the value functions of a MSP as min-plus or max-plus linear combinations of basic functions. This approach can be interpreted as the tropical algebra analogue of Approximate Dynamic Programming parametric models, notably studied by Bertsekas and Powell.In the simplified framework of multistage deterministic optimisation problems, we introduce an algorithm, called Tropical Dynamic Programming (TDP), which iteratively constructs approximations of value functions as min-plus or max-plus linear combinations. At each iteration, a trajectory of states is randomly drawn and the states forming this trajectory are called trial points. Based on the current approximations of the value functions, TDP then recursively calculates, by going back in time, a new basic function to be added to the current linear min-plus or max-plus combination. The basic function added to the approximation at time t must verify two compatibility conditions: it must be tight at the t-th trial point and valid. In this way TDP avoids discretising the entire state space and tries to emancipate itself from the curse of dimensionality.Our first contribution, within the framework of deterministic multistage optimization problems, is sufficient conditions on the richness of the trial points in order to ensure almost surely the asymptotic convergence of the generated approximations to the value functions, at points of interest.In the second part, the framework of the TDP algorithm was extended to Lipschitz MSPs where the noises are finite and independent. In this framework, max-plus linear and min-plus linear approximations of the value functions are generated simultaneously. At each iteration, in a forward phase, a particular deterministic trajectory of states called the problem-child trajectory is generated. Then, in the backward phase in time, the common approximations are refined by adding basic functions that are tight and valid.Our second contribution is the proof that the difference between the max-plus and min-plus linear combinations thus generated tends towards 0 along the problem-child trajectories. This result generalises a result from Baucke, Downward and Zackeri in 2018 who proved the convergence of a similar scheme, introduced by Philpott, de Matos and Zackeri in 2013, for convex MSPs. However, the algorithmic complexity of the TDP extension presented is highly dependent on the size of the noise support of a given MSP.In the third part, we are interested in quantifying the difference between the values of two MSPs differing only in their scenario tree. Under assumptions of regularities, Pflug and Pichler showed in 2012 that the value of such MSPs is Lipschitz-continuous with respect to the Nested Distance they introduced. However, the computation of the Nested Distance requires an exponential number (w.r.t. the horizon T) of computation of optimal transport problems.Motivated by the success of Sinkhorn's algorithm for computing entropic relaxation of the optimal transport problem, as a third contribution we propose an entropic relaxation of the Nested Distance which we illustrate numerically.Finally, in order to justify the resolution by dynamic programming in more general cases of MSPs, interchange between integration and minimisation must be justified. In the fourth contribution, we establish a general interchange result between integration and minimization which includes some usual results.; Dans cette thèse on s'intéresse à la résolution par programmation dynamique de problèmes d'Optimisation Stochastique Multi-étapes (OSM).En première partie, on s'est intéressé à l'approximation des fonctions valeurs d'un problème OSM par des combinaisons dîtes min-plus ou max-plus linéaires de fonctions basiques. Cette approche s'interprète comme l'analogue en algèbre tropicale de modèles paramétriques en programmation dynamique approximatives, notamment étudiés par Bertsekas et Powell.Dans le cadre simplifié des problèmes d'optimisation multi-étapes déterministes, nous introduisons un algorithme, appelé Programmation Dynamique Tropical (PDT), qui construit itérativement des approximations des fonctions valeurs comme combinaisons min-plus ou max-plus linéaires. A chaque itération, une trajectoire d'états est tirée aléatoirement et les états formant cette trajectoire sont appelés points de raffinements. Compte tenu des approximations courantes des fonctions valeurs, PDT calcule alors récursivement en remontant dans le temps, une nouvelle fonction basique à ajouter à la combinaison min-plus ou max-plus linéaire courante. La fonction basique ajoutée à l'approximation au temps t doit vérifier deux conditions de compatibilité : elle doît être exacte au t-ème point de rafinement et valide. PDT évite ainsi de discrétiser l'espace d'état dans sa totalité et tente de s'émanciper du fléau de la dimension.Notre première contribution, dans le cadre de problèmes multi-étapes déterministes, est l'obtention de conditions suffisantes sur la richesse des points de raffinements afin d'assurer presque sûrement la convergence asymptotique des approximations générées vers les fonctions valeurs, en des points d'intérêts.En seconde partie, on a étendu le cadre de l'algorithme PDT aux problèmes stochastiques multi-étapes Lipschitz où les bruits sont finis et indépendants. Dans ce cadre, on génère simultanément des approximations max-plus linéaires et min-plus linéaires des fonctions valeurs. A chaque itération, lors d'une phase vers l'avant, une trajectoire déterministe d'état particulière appelée trajectoire problème-enfant est générée. Ensuite, lors du phase en arrière dans le temps, les approximations courantes sont raffinées en ajoutant des fonctions basiques qui sont exactes et valides.Notre seconde contribution est la preuve que l'écart entre combinaisons linéaires max-plus et min-plus ainsi générées tend vers 0 le long des trajectoires problèmes-enfants. Ce résultat généralise un résultat de Baucke, Downward et Zackeri de 2018 qui prouvait la convergence d'un schéma similaire, introduit par Philpott, de Matos et Zackeri en 2013, dans le cadre de problèmes OSM convexes. Toutefois, la complexité algorithmique de l'extension de PDT présentée dépend fortement de la taille du support des bruits d'un problème OSM donné. En troisième partie, on s'est intéressé à quantifier l'écart entre les valeurs de deux problèmes OSM ne différant que par leur arbre de scénarios. Sous hypothèses de régularités, Pflug et Pichler ont montré en 2012 que la valeur d'OSM est lipschitzienne par rapport à la Distance Imbriquée qu'ils ont introduite. Toutefois le calcul de la Distance Imbriquée nécessite le calcul d'un nombre exponentiel, en la taille de l'horizon, de problèmes de transport optimal. Motivé par le succès de l'algorithme de Sinkhorn pour calculer une relaxation entropique du problème de transport optimal, en troisième contribution nous proposons une relaxation entropique de la Distance Imbriquée que nous illustrons numériquement. En dernière partie, afin de justifier la résolution par programmation dynamique dans des cas plus généraux, des échanges entre intégration et minimisation doivent être justifiés. En quatrième contribution, nous établissons un résultat général d'échange entre intégration et minimisation qui englobe certains résultats usuels.
Databáze: OpenAIRE