Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Informatique

Etablissement

Aix-Marseille Université

Mots Clés

Jeux temporisés à coût,Algorithmique de la théorie des jeux,Automates temporisés,Calcul de valeur,Stratégies probabilistes,Robustesse,

Keywords

Weighted timed games,Algorithmic game theory,Timed automata,Value computation,Stochastic strategies,Robustness,

Titre de thèse

Jeux temporisé à coût: décidabilité, randomisation et robustesse
Weighted Timed Games: Decidability, Randomness and Robustness

Date

Mardi 24 Octobre 2023 à 10:30

Adresse

Bâtiment 9, 3, place Victor-Hugo 13003 Marseille La salle des Voûtes

Jury

Directeur de these M. PIERRE-ALAIN REYNIER Aix-Marseilles Université - LIS
CoDirecteur de these M. Benjamin MONMEGE Aix-Marseille Université - LIS
Rapporteur M. Didier LIME École Centrale de Nantes - LS2N
Examinateur Mme Patricia BOUYER-DECITRE CNRS - LMF
Examinateur M. Jeremy SPROSTON Università degli Studi di Torino
Président M. Eugene ASARIN Université Paris Cité - IRIF
Examinateur M. Hugo GIMBERT CNRS - LaBRI

Résumé de la thèse

Les systèmes logiciels sont omniprésents et leur fiabilité est souvent cruciale, surtout lorsqu'une défaillance peut entraîner une catastrophe humaine, environnementale ou même économique. Développées depuis de nombreuses années, les méthodes formelles, comme l'approche classique du "model-checking", sont utilisées pour prouver la correction des systèmes. Plus récemment, au lieu de les construire manuellement un nouveau paradigme émerge pour automatiquement synthétiser des systèmes corrects. Pour cela, nous nous appuyons sur la théorie des jeux qui fournit des outils mathématiques afin de modéliser le comportement de deux agents antagonistes. Dans ce contexte, deux joueurs, un contrôleur et un environnement, jouent sur le graphe des configurations du système dans lequel la condition gagnante pour le contrôleur induit la correction du système. De plus, via l'ajout de poids, ces jeux peuvent être étendus pour étudier les performances du système, comme sa consommation d'énergie. Dans ce travail, nous nous concentrons sur la synthèse de systèmes temps-réel efficaces avec une condition de victoire simple: atteindre une configuration correcte. Les jeux temporisés à coût sont des jeux à deux joueurs et à somme nulle joués dans un automate temporisé pondéré. Nous considérons l'objectif d'accessibilité optimale, dans lequel l'un des joueurs, que nous appellerons Min, veut atteindre une cible tout en minimisant le poids cumulé. Même si savoir quand Min a une stratégie (déterministe) pour garantir que la valeur obtenue est inférieure à un seuil donné, est indécidable (avec deux horloges ou plus), plusieurs conditions ont été données pour retrouver la décidabilité. L'une d'entre elles est la divergence, une autre consiste à se limiter aux jeux temporisés à coût avec une seule horloge et contenant uniquement des poids positifs. Nous étendons d'abord cette liste en considérant les jeux temporisés à coût à une horloge avec des poids arbitraires, en montrant que leur fonction de valeur peut être calculée en temps exponentiel (si les poids sont codés en unaire). Ensuite, dans de tels jeux temporisés à coût (comme dans les jeux pondérés non temporisés en présence de poids négatifs), Min peut avoir besoin d'une mémoire finie pour jouer (presque) optimalement. Il est donc tentant d'essayer d'émuler cette mémoire finie avec d'autres fonctionnalités comme en permettant aux joueurs d'utiliser des décisions stochastiques, à la fois dans le choix des transitions et des délais. Nous donnons, pour la première fois, une définition de la valeur espérée dans les jeux temporisés à coût, surmontant plusieurs défis théoriques. Nous montrons ensuite que, dans les jeux temporisés à coût divergents, la valeur stochastique est bien égale à la valeur classique (déterministe), prouvant ainsi que Min peut garantir la même valeur en n'utilisant que des choix stochastiques et sans mémoire. Enfin, les stratégies stochastiques quasi-optimales que nous synthétisons ne sont pas implémentables car elles utilisent la précision infinie des horloges dans le choix des délais ainsi qu'une connaissance précise des configurations. La robustesse est un processus connu pour encoder l'imprécision des délais dans les stratégies : elle permet au joueur Max (l'adversaire de Min) de modifier légèrement le délai choisi par Min. Dans la littérature, deux sémantiques robustes existent : la sémantique conservatrice qui vérifie la garde après la perturbation, et la sémantique excessive qui la vérifie avant. Comme pour les stratégies déterministes, déterminer si Min a une stratégie (robuste) pour garantir que la valeur est inférieure à un seuil donné, est connu pour être indécidable. En adaptant le processus d'itération de la valeur introduit par Alur et al, nous calculons la valeur (robuste) dans des jeux temporisés à coût acycliques (ou divergents avec uniquement des poids positifs) sous une sémantique conservatrice ou excessive.

Thesis resume

Software systems are omnipresent, and their reliability is often crucial, especially when a failure can lead to a human, environmental or even economic catastrophe. Formal methods, e.g. the classical model-checking approach, developed for many years, are used to prove the correctness of a system. More recently, instead of manually building a model, another paradigm emerges to automatically synthesise a correct system. For this, we rely on game theory which provides mathematical tools to model the behaviour of two antagonistic agents. In this context, two players, a controller and an environment play on a graph of all configurations of the system in which the winning condition for the controller induces a correct system. Moreover, such games may be extended to study the performance, e.g. the energy consumption of the system, modelled by adding weights. In this work, we focus on the synthesis of efficient real-time systems under a simple condition of correctness (reach a good state). Weighted timed games are two-player zero-sum games played in a timed automaton equipped with integer weights. We consider optimal reachability objectives, in which one of the players, whom we call Min, wants to reach a target location while minimising the cumulated weight. While knowing if Min has a (deterministic) strategy to guarantee a value lower than a given threshold is known to be undecidable (with two or more clocks), several conditions have been given to recover decidability. One of them is a property called divergence, another one is to restrict to one-clock WTGs with only non-negative weights. We first extend this list by considering one-clock WTGs with arbitrary weights and showing that their value function can be computed in exponential time (if weights are encoded in unary). Next, in such weighted timed games (like in untimed weighted games in the presence of negative weights), Min may need finite memory to play (close to) optimally. This is thus tempting to try to emulate this finite memory with other strategic capabilities. In particular, we allow the players to use stochastic decisions, both in the choice of transitions and timing delays. We give, for the first time, a definition of the expected value in weighted timed games, overcoming several theoretical challenges. We then show that, in divergent weighted timed games, the stochastic value is indeed equal to the classical (deterministic) value, thus proving that Min can guarantee the same value while only using stochastic choices and no memory. Finally, the almost optimal stochastic strategies we synthesise are not implementable since they use infinite precision of clocks in the choice of the delay or the knowledge about the configurations. Robustness is a known process to encode the imprecision of delays in strategies: it allows the Max player (the opponent of Min) to slightly modify the delay chosen by Min. In the literature, two robust semantics exist: the conservative semantics which checks a guard after the perturbation, and the excessive semantics which checks it before. As for deterministic strategies, determining whether Min has a (robust) strategy to guarantee a value lower than a given threshold is known to be undecidable. By adapting the process of value iteration introduced by Alur et al, we compute the (robust) value in acyclic (or divergent with only non-negative weights) weighted timed games under conservative and excessive semantics.