Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
Etablissement
Aix-Marseille Université
Mots Clés
incertitude,fiabilité,apprentissage ensembliste,apprentissage de la foule,
Keywords
uncertainty,reliability,ensemble learning,learning from crowds,
Titre de thèse
fiabilité dans l'apprentissage ensembliste et l'apprentissage de la foule
reliability in ensemble learning and learning from crowds
Date
Lundi 2 Décembre 2019 à 14:00
Adresse
Polytech Marseille,
Parc Scientifique et Technologique de Luminy,
163 Avenue de Luminy, 13009 Marseille
Bâtiment A, Amphi
Jury
Directeur de these |
M. MOHAMED QUAFAFOU |
Université d'Aix-Marseille |
Rapporteur |
M. Younes BENNANI |
Université Paris 13 |
Rapporteur |
M. Xizhao WANG |
Shenzhen University |
Examinateur |
M. Franck MARZANI |
Université de Bourgogne |
Examinateur |
Mme Nicoleta ROGOVSCHI |
Université Paris Descartes |
Examinateur |
M. Jean Daniel ZUCKER |
Institut de Recherche pour le Développement |
Résumé de la thèse
La combinaison de plusieurs annotateurs experts est considérée pour prendre des décisions fiables dans le cas de données non étiquetées, bien que lestimation des annotations dexperts ne soit pas une tâche facile en raison de divers niveaux de performance. De plus, cela entraîne le problème de lincertitude des étiquettes.
Dans lapprentissage supervisé, la performance contrastée des annotateurs peut se produire dans lapprentissage ensemblliste ou lorsque les vérités terrains sont absente. Dans lapprentissage ensembliste, lorsque les données d'entraînement sont disponibles, différents classificateurs de base comme annotateurs fournissent des prévisions incertaines dans la phase de test. Alors que dans un cas où il ny a pas des vérités terrains dans la phase d'entraînement, nous considérons les étiquettes proposées par plusieurs annotateurs sur les foules comme une pseudo-vérité de fond.
Dans cette thèse, la première contribution basée sur le vote pondéré dans lapprentissage ensembliste est proposée pour fournir des prédictions de combinaison fiables. Notre algorithme transforme les scores de confiance obtenus pendant le processus d'apprentissage en scores fiables. Ensuite, nous déterminons un ensemble de candidats fiables par une sélection statique et dynamique.
Lorsquil est difficile de trouver des experts comme les vérités terrains, une approche fondée sur l'estimation du maximum de vraisemblance et l'espérance-maximisation est proposée comme deuxième contribution pour sélectionner des annotateurs fiables. De plus, nous optimisons le temps de calcul de nos cadres afin dadapter un grand nombre de données.
Enfin, nos contributions visent à fournir des décisions fiables compte tenu des prédictions incertaines des classificateurs dans lapprentissage ensembliste ou des annotations incertaines dans lapprentissage de la foule.
Thesis resume
The combination of several human expert labels is generally used to make reliable decisions. The literature shows that this approach is better than the one based only on a single expert. Moreover, the research community on ensemble learning has made a significant effort to show that the use of several models, like classifiers, improves the performance compared with the use of only a classifier.
However, using humans or learning systems to improve the overall decision is a crucial problem. Indeed, several human experts or machine learning have not necessarily the same performance. Hence, a great effort is made to deal with this performance problem in the presence of several actors, i.e., humans or classifiers.
To contribute to the study of this problem, we analyze it, from the uncertainty viewpoint, to make the classification more reliable.
In this thesis, we present two following contributions:
1. Reliable classifiers in ensemble learning: the first contribution is a method, based on weighted voting, which allows selecting a reliable combination of classifications. Our algorithm RelMV transforms confidence scores, obtained during the training phase, into reliable scores. By using these scores, it determines a set of reliable candidates through both static and dynamic selection process.
2. Reliable annotators in learning from crowds: when it is hard to find expert labels as ground truth, we propose an approach based on Bayesian and expectation-maximization(EM) as our second contribution. The aim is to evaluate the reliability degree of each annotator and to aggregate the appropriate labels carefully. Also, we optimize the computation time of the algorithm in order to adapt a large number of data collected from crowds.
These two models are evaluated on synthetic datasets performing binary and multi-class classification tasks. The obtained outcomes show better accuracy, stability, and computation time compared to the previous methods.
Also, we conduct an experiment considering the melanoma diagnosis problem using a real-world medical dataset consisting of a set of skin lesions images, which is annotated by multiple dermatologists. We have tackled the following problem: ranking the annotators to select reliable ones. Experimental results show that our methods behave as well as the most efficient methods according to accuracy and stability. However, our method outperforms the other methods when we consider the computation time.