Soutenance de thèse de MOHAMED Mimoun


Titre de thèse

Algorithmes exploratoires pour la frugalité par la parcimonie

Exploratory algorithms for frugality by sparsity

Date

31 March 2025 à 13h30

Adresse

F.R.U.M.A.M. – Aix Marseille Université 3, place Victor Hugo Bâtiment 7 13003 Marseille, salle de séminaire au 2ᵉ étage de la FRUMAM

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Estimateur direct,Parcimonie,Reconstruction de supports,Apprentissage automatique,Factorisation de matrices,Trompette,

Keywords

Straight-through estimator,Sparsity,Support reconstruction,Machine learning,Matrix factorization,Trumpet,

Jury

Jury de thèse
Qualité Nom Etablissement
Maître de conférences M. EMIYA Valentin Aix Marseille Université
Directrice de recherche Mme CHAUX Caroline CNRS
Directeur de recherche M. GRIBONVAL Rémi Inria
Directrice de recherche Mme BLANC-FÉRAUD Laure CNRS
Professeur des universités M. KADRI Hachem Aix-Marseille Université
Professeur des universités M. GASSO Gilles INSA Rouen Normandie
Professeure des universités Mme CLAUSEL Marianne Université de Lorraine

Résumé de la thèse

La parcimonie, qui se caractérise par un faible nombre de composantes non nulles, est une propriété essentielle dans des domaines tels que le traitement du signal, l'apprentissage automatique, les statistiques et la compression de données. En effet, elle est souvent utilisée pour réduire la complexité des modèles, améliorer la généralisation et faciliter l'interprétation des résultats. Cependant, elle est généralement difficile à obtenir en pratique, car il est complexe de déterminer quelles composantes doivent être nulles. Cela est dû à la non-convexité et non-différentiabilité des problèmes de parcimonie en norme L0, ce qui rend difficile la recherche de solutions exactes.
Pour contourner cette difficulté, il est courant d'utiliser une relaxation convexe de la norme L0 en norme L1 ou de faire appel à des algorithmes gloutons. La première approche permet d'obtenir un problème avec un unique minimum, permettant ainsi l'utilisation d'algorithmes ayant des garanties de convergence. Tandis que la seconde approche converge rapidement, mais vers des minima locaux.
Dans cette thèse, nous avons cherché à développer une méthode offrant des capacités d'exploration plus étendues que celles des méthodes précédemment évoquées, afin de sortir des minima locaux sans recourir à une relaxation. La méthode proposée repose sur l'utilisation de l'estimateur direct (de l'anglais "Straight-Through Estimator" ou "STE"). Elle présente deux avantages. Tout d'abord, elle permet de rendre différentiables les fonctions faisant appel à la norme L0, sans relaxation, en proposant une approximation du gradient des parties non-différentiables. Cela rend possible l'utilisation de toutes les techniques de descente de gradient. Ensuite, elle permet d'explorer les minima locaux, améliorant ainsi la qualité des objets parcimonieux reconstruits.
Cette nouvelle stratégie d'exploration a été exploitée dans le cadre de la reconstruction de supports parcimonieux dans le cas linéaire (MOHAMED, MALGOUYRES et al. 2024), ainsi que sur une extension de cette approche dans le cadre de la factorisation de matrices en produit de matrices creuses (MOHAMED, EMIYA et al. 2025). Dans le premier contexte, nous avons construit un algorithme surpassant l'état de l'art pour le cas difficile des dictionnaires redondants, avec des garanties théoriques reposant sur la propriété d'isométrie restreinte du dictionnaire. Dans le second contexte, nous avons conçu un algorithme capable d'estimer un modèle plus expressif que celui des matrices de type "Monarch". Ce modèle peut être utilisé pour remplacer les matrices denses dans les réseaux de neurones, réduisant ainsi les complexités spatiale et temporelle.Cette propriété de parcimonie est finalement exploitée dans une dernière étude effectuée dans le cadre d'une mission de doctorant expert (FRÉOUR, MOHAMED et al. 2023 ; MOHAMED, FRÉOUR et al. 2024) pour la résolution d'un problème industriel (pour Yamaha).


Thesis resume

Sparsity, characterized by a small number of non-zero components, is an essential property in fields such as signal processing, machine learning, statistics, and data compression. Indeed, it is often used to reduce model complexity, improve generalization, and facilitate the interpretation of results. However, it is generally difficult to achieve in practice, as determining which components should be null is complex.
This is due to the non-convexity and non-differentiability of sparse problems in L0, making it difficult to find exact solutions.
To overcome this challenge, it is common to use a convex relaxation of the L0-norm into the L0-norm or employ greedy algorithms. The first approach leads to a problem with a unique minimum, enabling the use of algorithms with convergence guarantees. In contrast, the second approach converges quickly but to local minima.
In this thesis, we sought to develop a method offering broader exploration capabilities than those of the previously mentioned methods, to escape local minima without relying on relaxation. The proposed method is based on the use of the Straight-Through Estimator (STE). It has two advantages.
First, it allows for differentiability of functions involving the L0-norm, without relaxation, by approximating the gradient of the non-differentiable parts. This makes it possible to use all gradient descent techniques. Second, it enables the exploration of local minima, thereby improving the quality of the reconstructed sparse objects.
This new exploration strategy has been applied in the context of reconstructing sparse supports in the linear case (MOHAMED, MALGOUYRES and al. 2024), as well as an extension of this approach in the context of matrix factorization as a product of sparse matrices (MOHAMED, EMIYA and al. 2025). In the first context, we developed an algorithm surpassing the state-of-the-art for the challenging case of redundant dictionaries, with theoretical guarantees based on the restricted isometry property (RIP) of the dictionary. In the second context, we designed an algorithm capable of estimating a more expressive model than that of "Monarch" matrices. This model can be used to replace dense matrices in neural networks, thus reducing spatial and temporal complexities. Finally, sparsity is exploited in a final study carried out within the framework of a french expert doctoral mission (FRÉOUR, MOHAMED and al. 2023 ; MOHAMED, FRÉOUR and al. 2024)to solve an industrial problem (for Yamaha).