Soutenance de thèse de BENALIOUA Yahia Idriss


Titre de thèse

Minimisation des automates quantitatifs: une approche algébrique

Minimizing quantitative automata: an algebraic approach

Date

9 décembre 2025 à 14h00

Adresse

Faculté des Sciences Site St Charles Aix Marseille Université 3 place Victor Hugo 13331 Marseille cedex 3, Salle de séminaire - FRUMAM - 2ème étage

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Minimisation,Automates pondérés,Automates à registres de coût,Transducteurs,Transducteurs à registres,Automates d'arbres pondérés,

Keywords

Minimization,Weighted automata,Cost register automata,Transducers,Streaming string transducers,Weighted tree automata,

Jury

Jury de thèse
Qualité Nom Etablissement
Professeur M. REYNIER Pierre-Alain Aix Marseille Université
Professeur M. SCHMITZ Sylvain Université Paris Cité
Maître de conférences M. LHOTE Nathan Aix Marseille Université
Professeur M. MANETH Sebastian Université de Brême
Associate Professor Mme DAVIAUD Laure Université d'East Anglia
Maître de conférences Mme PETRIşAN Daniela Université Paris Cité
Professeur M. WORRELL James Université d'Oxford
Professeur Mme KOVáCS Laura Université technique de Vienne

Résumé de la thèse

La théorie des automates est un domaine fondamental de l'informatique aux applications diverses, allant de la vérification formelle à la recherche de motifs, l'analyse syntaxique, la conception de compilateurs et d'interpréteurs, parmi bien d'autres. Elle étudie les propriétés des modèles de calcul et leurs problèmes associés. Au fil des années, plusieurs variantes de son objet élémentaire, l'automate fini, ont vu le jour, enrichissant ses capacités.
Les automates pondérés (Weighted Automata ou WA) étendent les automates finis en attribuant une valeur à chaque transition prise dans un semi-anneau donné (entiers, rationnels, mots, etc.). Elles peuvent modéliser le coût de la transition, la quantité de ressources utilisées, sa probabilité de succès, etc., selon le semi-anneau. Ils réalisent des fonctions des mots vers le semi-anneau, appelées séries rationnelles, permettant d'étudier des propriétés quantitatives allant au-delà de la simple réponse oui/non des automates finis.
Alors que les WA requièrent du non-déterminisme pour réaliser ces fonctions, un modèle plus récent, l'automate à registres de coût (Cost Register Automata ou CRA), permet de réaliser les séries rationnelles de manière déterministe. Un CRA est un automate déterministe doté d'un nombre fini de registres stockant des valeurs du semi-anneau. Ces registres sont mis à jour à chaque transition à l'aide d'expressions spécifiant comment chaque registre doit être actualisé en fonction de leurs valeurs précédentes et comment les combiner pour produire la sortie finale.
Les problèmes centraux de cette thèse concernent la minimisation des CRA. D'un point de vue pratique, nous cherchons à minimiser la mémoire utilisée par la machine, afin d'obtenir des algorithmes plus efficaces. D'un point de vue théorique, ces questions sont étroitement liées à des problèmes classiques en théorie des automates. Nous abordons ces questions à l'aide de méthodes algébriques dans trois contextes différents.
Premièrement, nous considérons les WA prenant des valeurs dans un corps (tel que les nombres rationnels). Dans ce cas, des résultats classiques montrent l'existence d'un WA minimal réalisant une série donnée. En utilisant les invariants de cet automate minimal, nous caractérisons les conditions sous lesquelles une série rationnelle peut être réalisée par un CRA avec un nombre donné d'états et de registres. Nous déduisons de cette caractérisation des algorithmes pour la minimisation des CRA et analysons leur complexité.
Deuxièmement, nous généralisons le cas précédent aux automates dont les entrées sont spécifiées par des arbres étiquetés au lieu de simples mots (tandis que les valeurs sont toujours prises dans un corps). Malgré cette structure plus riche, plusieurs propriétés des WA ont été généralisées aux automates d'arbres pondérés, et nous pouvons transposer la plupart des résultats obtenus dans le contexte précédent à celui-ci. Nous soulignons également les similitudes et les différences entre les deux contextes et établissons des liens entre les questions non encore résolues et d'autres problèmes ouverts intéressants.
Troisièmement, lorsque les poids des transitions sont des mots, de tels WA sont appelés transducteurs. Ils peuvent être vus comme des “traducteurs” entre langages, les fonctions qu'ils réalisent sont appelées transductions rationnelles, et leur modèle de CRA correspondant, stockant des mots dans ses registres, est appelé transducteur à registres (Streaming String Transducers ou SST). Les transductions rationnelles admettent une caractérisation algébrique fournissant une représentation canonique de la fonction à l'aide d'un modèle appelé bimachine. Nous décrivons une correspondance entre les bimachines et une classe restreinte de SST et utilisons les résultats classiques de minimisation des bimachines pour minimiser ces SST. Nous introduisons également un modèle de bimachine modifié afin d'obtenir une correspondance complète et discutons sa minimisation.


Thesis resume

Automata theory is a fundamental area of computer science with diverse applications ranging from formal verification to pattern matching, parsing, text processing, the design of compilers and interpreters, among many more. It studies the properties of mathematical models of computations and the problems they can solve. Several variants of its elementary object, the finite automaton, have emerged over the years, enriching its capabilities.
Weighted automata (WA) extend finite automata by assigning to each transition a value taken in a given semiring (integers, rationals, words, etc.). These values can model the cost of the transition, the amount of resources it uses, its probability of success, etc., depending on the considered semiring. They realize functions from words to the semiring, called rational series, allowing the study of quantitative properties beyond the simple yes/no answer of finite automata.
While WA rely on nondeterminism to realize those functions, a more recently introduced model, called cost register automaton (CRA), can realize rational series deterministically. A CRA is a deterministic finite automaton with a finite number of variables (called registers) storing values from the semiring. These registers are updated at each transition of the machine using expressions specifying how each register should be updated based on their previous values and how they should be combined to produce the final output.
The central problems we study in this thesis revolve around the minimization of CRA. From a practical point of view, they can be viewed as seeking to minimize the memory usage of the machine, allowing for more efficient algorithms, while from a theoretical point of view, they have multiple connections with classical automata theory problems. We address these questions using algebraic techniques in three different contexts.
First, we consider WA taking values in a field (such as rational or real numbers). In such a case, classical results show the existence of a minimal WA realizing a given rational series. Using invariants of this minimal WA, we characterize when a rational series can be realized by a CRA with given numbers of states and registers. We derive algorithms for the minimization of CRA from this characterization and analyze their complexity.
Second, we generalize the previous case by considering automata with inputs specified by labeled trees instead of simple words (while the values are still taken in a field). Despite the richer structure, several properties of WA have been generalized to weighted tree automata, and we can lift most of the results we obtained in the previous context to this one. We also highlight the similarities and the differences between the two contexts and draw connections between the yet unresolved questions and other interesting open problems.
Third, when the weights of the transitions are words, such WA are called transducers. They can be viewed as “translators” between languages, the functions they realize are called rational transductions and their corresponding models of CRA, storing words in their registers, are called streaming string transducers (SST). Rational transductions admit an algebraic characterization yielding a canonical representation of the function using a model called bimachines. We describe a correspondence between bimachines and a restricted class of SST and use classical results on the minimization of bimachines to minimize such SST. We also introduce a modified bimachine model to obtain a full correspondence and discuss its minimization.