Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Recherche Clinique et Santé Publique

Etablissement

Aix-Marseille Université

Mots Clés

Machine Learning,Deep Learning,Données non structurées,Données structurées,Données médicales hopitalières,Interprétabilité

Keywords

Machine Learning,Deep Learning,Unstructured data,Structured data,Medical hospital data,Explainable AI

Titre de thèse

Apports des méthodes de Machine Learning et de Deep Learning dans la prédiction des durées de séjours hospitalières et des ré-hospitalisations
Contributions of Machine Learning and Deep Learning methods in predicting hospital Length of Stay and Readmissions

Date

Jeudi 8 Décembre 2022 à 14:00

Adresse

Faculté de Médecine de Marseille, La Timone 27 Boulevard Jean-Moulin 13005 Marseille Salle de Visio Conférence

Jury

Directeur de these M. Laurent BOYER Aix Marseille Université
Rapporteur M. Antoine DUCLOS CHU - Hospices Civils de Lyon
Rapporteur Mme Marianne CLAUSEL Institut Elie Cartan de Lorraine
CoDirecteur de these M. Badih GHATTAS Aix Marseille Université
Examinateur M. Patrice FRANCOIS CHU La Tronche Grenoble
Examinateur M. COLIN CYRILLE Université Claude Bernard Lyon 1

Résumé de la thèse

Cette thèse traite de la prédiction des facteurs de risques de la qualité de soins à partir de deux indicateurs : la réhospitalisation à 30 jours et la durée de séjour (prolongé). La démarche consiste à utiliser des méthodes de Machine Learning et de Deep Learning pour rechercher le meilleur compromis possible entre performance et interprétabilité. Nous démontrons que les données structurées bien choisies permettent d’obtenir une très bonne performance (ROC AUC variant de 0.789 à 0.972 sur nos données), avec une interprétabilité satisfaisante mais peu spécifique. Les données textuelles seules ont une performance plus que satisfaisante (ROC AUC variant de 0.723 à 0.848), mais avec une interprétabilité beaucoup plus spécifique et détaillée sur les séjours à risque. Le meilleur compromis entre performance et interprétabilité est donné par les données mixtes, avec d’un côté une très bonne performance (ROC AUC variant entre 0.938 et 0.966) et simultanément des descriptions très détaillées des séjours à risques. Ce document de thèse est constituée de 4 parties réparties comme suit. 1- La première partie couvre le cadre théorique de la thèse contenant un rappel du contexte et de la revue de littérature sur la qualité des soins dont la réadmission à 30 jours et la durée de séjour (prolongée) sont des indicateurs importants. Elle enchaîne ensuite sur un rappel conceptuel des différents algorithmes de machine learning utilisés ainsi que l’enjeu autour du compromis entre la performance des modèles et l’interprétabilité des résultats. 2- La deuxième partie traite de la méthodologie explicitant les données et les variables utilisées, ainsi que le choix des métriques. S’en suivent les trois articles qui ont été publiés ou soumis dans le cadre de la thèse, chacun précédé d’une contextualisation avec parfois un rappel des enjeux méthodologiques ou techniques, puis suivi d’une synthèse des conclusions. a. Le premier article prédit la réhospitalisation à 30 jours en utilisant les données structurées provenant de l’APHM basées sur le PMSI, et des méthodes classiques de Machine Learning réalisées sur R. b. Le deuxième article prédit les séjours prolongés, toujours avec les données de l’APHM, en utilisant également des méthodes classiques de Machine Learning réalisées sur Python. c. Le troisième prédit la réadmission à 30 jours en soins intensifs, en utilisant les données publiques MIMIC III du Beth Israel Deaconess Medical Center de Boston. Cette étude a la particularité de réaliser ses prédictions exclusivement avec des données textuelles. 3- La troisième partie cherche à dépasser les limites de ces premières études en prédisant le séjour prolongé en soins intensifs, en fusionnant les données structurées du MIMIC III avec des données textuelles non structurées. Pour ce faire différentes méthodes de fusion sont expérimentées : a. Utiliser les données tabulaires comme principal support et inclure une représentation tabulaire des données, via une vectorisation ("embedding") des documents textuels par Transformers b. Utiliser les données tabulaires comme principal support et inclure une représentation tabulaire des données par une vectorisation Bag of Words + LDA (Latent Dirichlet Allocation) ; 4- La quatrième partie discute des résultats dans leur globalité, puis conclut la thèse avec des considérations à la fois techniques, et de santé publique.

Thesis resume

This thesis is centered on predicting hospital length of stay and readmissions using Machine Learning and Deep Learning methods applied to all usable hospital data (structured and unstructured), still largely underused. Predicting length of stay is an important organizational issue for improving access, quality, and efficiency of care. Preventing readmission is an important step in enhancing the quality and safety of the hospitalized patient’s care. In addition to the iatrogenic risks inherent to any hospitalization, readmissions increase the cost of care, and engender negative impacts on the patients’ quality of life as well as on their relatives. The approach adopted in this thesis is based on using Machine Learning and Deep Learning methods to find the best possible trade-off between performance and interpretability. We demonstrate that with a well-chosen structured data, one can obtain a very good performance (ROC AUC varying from 0.789 to 0.972 on our data), with a satisfactory but not very specific interpretability. Textual data alone provides a somewhat satisfactory performance (ROC AUC varying from 0.723 to 0.848), but with a much more specific and detailed interpretability on risky stays. The best compromise between performance and interpretability is given by mixed data, with on the one hand a very good performance (ROC AUC varying between 0.938 and 0.966) along with a very detailed description of risky stays. This thesis contains 4 main parts distributed as following: 1- The first part covers the theoretical framework of the thesis with a reminder of the context and a literature review on the quality of care, of which 30-days readmission and (prolonged) length of stay are important indicators. It then continues with a conceptual reminder of the different machine learning algorithms used as well as the issue around the trade-off between the performance of the models and the interpretability of the results. 2- The second part deals with the methodology explaining the data and the variables used, as well as the choice of metrics. This is followed by the three articles that were published or submitted as part of the thesis, each preceded by a contextualization with – sometimes – a reminder of the methodological or technical issues, then a summary of the conclusions. a. The first article predicts 30-days readmissions using structured data from the “Assistance Publique – Hôpitaux de Marseille” (APHM) based on the data from the “Programme de Médicalisation des Systèmes d’Information” (PMSI), using classical Machine Learning methods. b. The second article predicts prolonged LOS, again with APHM data, also using classical Machine Learning methods. c. The third article predicts 30-day readmission in intensive care units, using the public MIMIC III data from the Boston Beth Israel Deaconess Medical Center. This study is specifically making its predictions from textual data alone. 3- The third part seeks to go beyond the limits of these first studies by predicting the prolonged stays in intensive care, by merging structured with unstructured textual data of the MIMIC III. To do this, different fusion methods are tested: a. Use tabular data as the main support and include a tabular representation of the data, via an embedding of textual documents by Transformers; b. Use tabular data as the main support and include a tabular representation of the data by vectorization Bag of Words + LDA (Latent Dirichlet Allocation). 4- The fourth part discusses the results in their entirety, then concludes the thesis with both technical and public health considerations.