Soutenance de thèse de SANCHEZ SAN BENITO Alvaro

Titre de thèse

Définition d'une fonction de dépannage d'hélicoptère à maturation automatique

Development of a self-maturing helicopter troubleshooting function

Date

5 December 2025 à 14h00

Adresse

AMU - AMSE, 5-9 Boulevard Maurice Bourdet, 13001, Marseille, 22

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Mathématiques

Etablissement

Aix-Marseille Université

Mots clés

Partitionnement,Données multimodales,CUBT,Aérospatial,Maintenance non programmée,

Keywords

Clustering,Multimodal data,CUBT,Aerospace,Unscheduled maintenace,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Professeur des universités	M. GHATTAS BADIH	Aix Marseille Université
Professeur des universités	M. BIERNACKI Christophe	Uniersité de Lille
Professeure des universités	Mme YAO Anne-Françoise	Université Clermont Auvergne
Professeure des universités	Mme PHILIPPE Anne	Nantes Université
Professeure des universités	Mme CLAUSEL Marianne	Université de Lorraine
Professeur émérite	M. FRAIMAN Ricardo	Universidad San Andres

Résumé de la thèse

Les activités de maintenance sont essentielles à la disponibilité opérationnelle des hélicoptères et représentent jusqu'à un tiers du coût total du cycle de vie de l'appareil, ce qui fait d'une maintenance efficace un facteur concurrentiel clé pour Airbus Helicopters. La fonction de traitement des défaillances, intégrée à bord et dans les stations au sol, fournit aux opérateurs de maintenance toutes les informations nécessaires pour isoler et résoudre toute défaillance détectée.
Cependant, la grande sensibilité du système de surveillance entraîne la détection fréquente de codes de panne (CP), dont beaucoup sont faux. Ces faux CP polluent le processus de diagnostic, ce qui conduit à des procédures inexactes et, à terme, la non-utilisation de la fonction.
Afin d'améliorer la précision du diagnostic, le système doit évoluer en exploitant les données réelles de pannes collectées après l'entrée en service des appareils. Bien que les vraies pannes soient rares, les faux CP suivent des schémas réguliers et peuvent être identifiés. En raison du volume et de la complexité des données, son identification manuelle est une tâche complexe et chronophage.
Dans ce travail, nous proposons une approche alternative à la procédure actuelle de filtrage manuel, permettant de filtrer automatiquement les faux CP sur la base de trois principes clés : interprétabilité, scalabilité et flexibilité. La méthode s'appuie sur des techniques d'apprentissage non supervisé adaptées aux données multimodales, composées d'attributs continus et catégoriels. Une revue des méthodes de partitionnement pour les données multimodales a été menée afin d'identifier les algorithmes de l'état de l'art les plus adaptés à l'application. Les méthodes comparées comprennent des approches basées sur des distances — k-prototypes, PDQ et convex k-means — ainsi que des modèles probabilistes tels que KAMILA, le mélange des réseaux bayésiens (Mixture of Bayesian Networks, MBN) et le modèle de classes latentes (Latent Class Model, LCM). Leurs performances ont été évaluées à l'aide de quatre modèles de simulation et en variant différents facteurs expérimentaux. Dans nos expériences, KAMILA, LCM et k-prototypes ont systématiquement montré les meilleures performances selon l'Indice de Rand Ajusté (Adjusted Rand Index, ARI).
Aucune des méthodes comparées dans l'étude précédente ne permet une interprétation directe des résultats, exigence cruciale pour l'application. C'est pourquoi une extension de Clustering Using Binary Trees (CUBT) est proposée. La méthode exploite un critère naturel d'hétérogénéité fondé sur une combinaison convexe de la matrice de covariance et de la matrice d'information mutuelle, ainsi qu'une mesure de dissimilarité combinant les distances euclidienne et Hamming. À travers des expériences sur trois modèles de simulation et trois jeux de données supervisés, nous démontrons que CUBT surpasse la plupart des méthodes de partitionnement existantes. De plus, nous introduisons une heuristique pour ajuster les paramètres du modèle et illustrons son efficacité dans un jeu des données réelles non supervisée. La méthode est accessible dans la nouvelle version du package CUBT en R.

Thesis resume

Maintenance activities are critical for helicopter operational availability and account for up to one-third of total life cycle costs, making efficient maintenance a key competitive factor for Airbus Helicopters. The Failure Management Function, integrated onboard and in ground stations, provides maintenance operators with all the information required to isolate and remove any detected failure.
However, the high sensitivity of the monitoring system leads to frequent detection of Fault Codes (FCs), many of which are false. These false FCs pollute the diagnostic process, resulting in inaccurate procedures and reduced system performance.
To improve diagnostic accuracy, the system must evolve using real-world failure data collected after aircraft entry into service. Although true failures are rare, false FCs follow consistent patterns and can be identified. Due to the volume and complexity of the data, manual identification is a complex, time-consuming task .
In this work, we propose an approach to automatically filter false FCs as an alternative to the current manual filtering procedure, guided by three key principles: interpretability, scalability, and flexibility. The method applies unsupervised learning to multimodal data, consisting of continuous and categorical attributes. A review of clusteringmethods for multimodal data was conducted to identify themost suitable state-of-the-art algorithms for the application. The compared methods include distance-based approaches—k-prototypes, PDQ, and convex k-means—as well as probabilistic models such as KAMILA, theMixture of Bayesian Networks (MBN), and the Latent ClassModel (LCM). Clustering performance was evaluated using four simulation models under various experimental conditions. In our experiments, KAMILA, LCM, and k-prototypes consistently demonstrated the best performance based on the Adjusted Rand Index (ARI).
None of the methods compared in the previous study provide direct interpetation of the results, a crucial requirement for the application. Therefore, an extension of Clustering Using Binary Trees (CUBT) is proposed. The method leverages a natural heterogeneity criterion based on a convex combination of the covariance and mutual information matrices, along with a dissimilarity measure that combines Euclidean and Hamming distances. Through experiments on three simulation models and three supervised datasets, we demonstrate that CUBT outperformsmost existing clustering methods. In addition, we introduce an heuristic for parameter tuning and illustrate its effectiveness in a real-world unsupervised application. The method is included in the new version of the CUBT package in R.