Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
Etablissement
Aix-Marseille Université
Mots Clés
conception phénotypique de médicaments,Prédiction conforme,intelligence artificielle,quantification de l'incertitude,petites molécules,
Keywords
Phenotypic Drug Design,Conformal prediction,artificial intelligence,uncertainty quantification,small molecules,
Titre de thèse
Prédiction conforme de la résistance aux médicaments à petites molécules dans les lignées cellulaires cancéreuses
Conformal prediction of small-molecule drug resistance in cancer cell lines
Date
Jeudi 18 Juillet 2024 à 14:00
Adresse
Centre de Recherche en Cancérologie de Marseille
27 Boulevard Lei Roure
13009 MARSEILLE 9E ARRONDISSEMENT France CRCM library
Jury
Directeur de these |
M. Pedro BALLESTER |
Centre de Recherche en Cancérologie de Marseille |
Rapporteur |
Mme Delphine FRADIN |
Centre de recherche en Cancérologie et Immunologie Intégrée |
Rapporteur |
M. Mohamed ELATI |
University of Lille |
Président |
Mme Bianca HABERMANN |
Institut de Biologie du Développement de Marseille (UMR 7288), 13288 Marseille Cedex 9 |
Résumé de la thèse
La conception phénotypique de médicaments (PDD) représente une approche prometteuse susceptible de révolutionner le processus coûteux et chronophage de découverte de médicaments, notamment lorsqu'elle est associée à des méthodes d'intelligence artificielle. PDD est réapparue comme une approche efficace de découverte de médicaments en identifiant des composés capables de produire un effet thérapeutique désiré sur le phénotype de la maladie. L'abondance des données précliniques disponibles aujourd'hui rend les modèles basés sur l'apprentissage automatique particulièrement efficaces pour la découverte de médicaments. Par exemple, le panel NCI-60, utilisé depuis 1990, illustre cette synergie en identifiant des composés aux propriétés anticancéreuses prometteuses. Malgré ces progrès, l'apprentissage automatique peut rencontrer des difficultés pour prédire l'efficacité de nouveaux composés et évaluer la fiabilité de molécules individuelles.
Dans le contexte de l'utilisation de l'apprentissage automatique (ML) pour des prises de décisions critiques, il est crucial de quantifier avec précision la confiance associée aux prédictions. La prédiction conforme (CP) se présente comme une méthode robuste pour quantifier l'incertitude, applicable à différents algorithmes de ML. Le principe de la prédiction conforme repose sur l'idée de prédire qu'une nouvelle instance aura une étiquette similaire à celle des instances précédentes (« ensemble de calibration ») de manière spécifique définie par une fonction de calibration. Le degré de similitude entre la nouvelle instance et l'ensemble de calibration est quantifié par un score de calibration, permettant ainsi d'estimer l'incertitude associée à la prédiction.
Ce projet de thèse vise à développer des modèles prédictifs avancés en exploitant la synergie entre les techniques de ML et les cadres de CP pour identifier les médicaments candidats optimaux pour le traitement de divers types de cancer. En intégrant les algorithmes de ML avec les CP pour quantifier les incertitudes de prédiction, notre approche vise à prioriser les composés présentant une forte efficacité et des prédictions fiables. Cette méthodologie nous permettra de sélectionner les candidats les plus prometteurs en vue d'une évaluation préclinique approfondie.
Ce projet de thèse établit un cadre de preuve de concept, fournissant une base solide pour évaluer l'efficacité des nouveaux composés dans l'inhibition ou la destruction des cellules tumorales. Nous avons débuté avec un modèle CP de base afin de mesurer sa précision dans la prédiction de l'activité inhibitrice des molécules dans les lignées cellulaires cancéreuses. Par le biais d'une optimisation systématique, nous avons affiné les paramètres clés de ces modèles afin d'atteindre un équilibre optimal entre la performance prédictive et le coût computationnel. Par la suite, nous avons rigoureusement évalué l'efficacité du modèle CP optimisé dans des conditions réelles, en menant des évaluations rétrospectives et prospectives.
Les résultats démontrent que les modèles CP optimisés présentent une généralisation supérieure à celle de leurs modèles ML sous-jacents seuls. Cela est obtenu pour une gamme d'ensembles de tests à travers des lignées cellulaires cancéreuses, y compris ceux comprenant des molécules différentes de celles de l'ensemble d'apprentissage. Cette thèse montre que le CP peut être utilisé pour améliorer les prédictions de ML sur les lignées cellulaires cancéreuses en ajoutant une nouvelle dimension à la prise de décision en PDD. Les composés peuvent désormais être sélectionnés pour des tests in vitro non seulement parce qu'ils sont prédits comme ayant une activité puissante, mais aussi parce que ces prédictions sont estimées fiables
Thesis resume
Phenotypic Drug Design (PDD) is a promising approach that can revolutionize the time-consuming and expensive drug discovery process, especially when combined with artificial intelligence methods. PDD has re-emerged as an effective approach to drug discovery by identifying compounds that can produce a desired therapeutic effect on the disease phenotype. The availability of a vast amount of preclinical data has made machine learning (ML)-based models highly effective in drug discovery. Notably, the NCI-60 panel, which has been used since 1990, exemplifies this synergy by identifying compounds with promising anticancer properties. Despite these advances, ML may encounter challenges in predicting the efficacy of novel compounds and assessing the reliability of individual molecules.
When employing ML for critical decision-making, accurately quantifying the confidence in predictions becomes imperative. Conformal Prediction (CP) emerges as a robust method to quantify uncertainty, applicable across various ML algorithms. CP operates on the principle of predicting that a new instance will exhibit a label similar to previous instances (calibration set) in a specific manner defined by a calibration function. The degree of similarity between the new instance and the calibration set is quantified through a calibration score, which in turn serves to estimate the uncertainty associated with the prediction.
This thesis project aims to develop advanced predictive models by harnessing the synergy between ML techniques and CP frameworks to identify optimal drug candidates for treating various types of cancer. By leveraging ML algorithms and incorporating CP to quantify prediction uncertainties, our approach aims to prioritize compounds exhibiting high potency and reliable prediction outcomes. This will help us to prioritize the most promising candidates for further preclinical evaluation.
This thesis project establishes a proof-of-concept framework, which provides a strong basis for evaluating the efficacy of new compounds in inhibiting or killing tumor cells. We began with a baseline CP model to measure its accuracy in predicting inhibitory activity of molecules in cancer cell lines. Through systematic optimization, we fine-tuned key parameters of these models to find an optimal balance between predictive performance and computational cost. Subsequently, we rigorously assessed the optimized CP model's efficacy under real-world conditions through retrospective and prospective evaluations.
The results demonstrate that the optimized CP models exhibit superior generalization than their underlying ML models alone. This is achieved for a range of test sets across cancer cell lines, including those comprising molecules dissimilar from those in the training set. This thesis shows that CP can be employed to enhance ML predictions on cancer cell lines by adding a new dimension to PDD decision-making. Compounds can now be selected for in vitro tests not only because they are predicted to have potent activity, but also because those predictions are estimated to be reliable.