Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Recherche Clinique et Santé Publique

Etablissement

Aix-Marseille Université

Mots Clés

modèle de Cox,modèle de Aalen,pseudo-observations,pseudo-résidus,

Keywords

Cox model,Aalen model,pseudo-observations,pseudo-residuals,

Titre de thèse

Comparaison des modèles à risques instantanés multiplicatifs et additifs
Comparaison of multiplicative and additive hazards regression models

Date

Mardi 30 Mars 2021 à 15:00

Adresse

Faculté de Médecine la Timone 27 Bd Jean Moulin 13385 Marseille salle de visioconférence

Jury

Directeur de these M. Roch GIORGI Faculté des Sciences Médicales et Paramédicales
Rapporteur M. Matthieu RESCHE-RIGON Université Paris-Diderot
Rapporteur Mme Catherine QUANTIN Centre Hospitalier Universitaire de Dijon
Examinateur M. Erik-André SAULEAU Faculté de médecine de Strasbourg

Résumé de la thèse

Dans le domaine biomédical, l'étude des covariables associées à la survie est le plus souvent réalisée à l’aide du modèle de Cox. Avec ce modèle à risques instantanés multiplicatifs, les covariables sont supposées agir de manière multiplicative sur le risque instantané de base qui est une fonction non-paramétrique dépendant du temps. De plus, les effets des covariables sont supposés être constants au cours du temps, correspondant à l'hypothèse de proportionnalité des risques instantanés. Quand cette hypothèse n'est pas vérifiée, il faut utiliser soit une extension du modèle de Cox, soit un autre type de modèle. C'est dans ce contexte que Aalen a proposé un modèle à risques instantanés additifs. Dans ce modèle non-paramétrique, l'effet des covariables est modélisé par des fonctions de régression agissant de manière additive sur le risque instantané de base. Celui-ci, tout comme les fonctions de régression des covariables, sont non-paramétriques et peuvent varier dans le temps. Un avantage de ce modèle est que les fonctions de régression ne nécessitent pas d'hypothèses à l'exception de la linéarité des effets des covariables et permettent de mesurer l'effet des covariables au cours du temps. Toutefois, ces fonctions sont plus complexes à interpréter que les paramètres du modèle de Cox. Par conséquent, ce modèle est faiblement utilisé, ses fonctions représentant l'augmentation du risque instantané due aux covariables à la différence de l'exponentielle de chaque paramètre du modèle de Cox qui s'interprète comme un risque relatif. Plus récemment des modèles permettant de prendre en compte simultanément des covariables dont certaines ont des effets additifs et d'autres des effets multiplicatifs ont été développés. Pour modéliser correctement les covariables, quand le type d'effet des covariables (additif ou multiplicatif) sur le risque instantané de base est inconnu, un certain nombre d'outils ont été développés. Ils permettent d'aider à la modélisation et de vérifier la bonne adéquation d'un modèle à risques instantanés multiplicatifs ou additifs aux données. Toutefois, il n'existe pas de stratégie permettant de modéliser correctement des données de survie selon que l'on souhaite utiliser un modèle à risques instantanés multiplicatifs ou additifs. Le premier objectif de ce travail fut de proposer une stratégie de modélisation des données de survie avec un modèle à risques instantanés multiplicatifs ou additifs en utilisant les différents outils diagnostiques fréquemment utilisés et d'autres moins connus. Cette stratégie a été appliquée à des données de survie et a permis de montrer que l’on obtenait des modèles s’ajustant correctement aux données dont les conclusions étaient similaires mais avec des différences en termes d’interprétation. Une fois les deux modèles obtenus, il est intéressant de savoir lequel s’ajuste le mieux aux données. Le second objectif consista à développer une méthode permettant de sélectionner parmi les deux types de modèles celui qui est le plus approprié pour une base de données particulière. Pour cela, une approche basée sur les pseudo-résidus qui sont, pour chaque sujet, la différence entre une estimation non-paramétrique de la survie (une pseudo-observation) et une estimation de la survie obtenue en utilisant un modèle de régression a été développée. L'utilisation de la somme des carrés des pseudo-résidus comme outil permettant de sélectionner le modèle le plus approprié a été proposée dans le cadre univarié puis dans le cadre multivarié en y incluant les modèles prenant en compte simultanément des effets multiplicatifs et additifs. Ce travail propose ainsi de nouveaux outils pouvant aider les biostatisticiens à réaliser un modèle à risques instantanés multiplicatifs ou additifs et à retenir celui qui est le plus approprié.

Thesis resume

In biostatistics, the study of covariates associated with survival is most often carried out using the Cox model. With this multiplicative hazards regression model, the covariates are assumed to act in a multiplicative manner on the baseline hazard which is a non-parametric time-dependent function. Moreover, the effects of the covariates are assumed to be constant over time, corresponding to the hypothesis of proportionality of the hazards. When this hypothesis is not verified, either an extension of the Cox model or another type of model must be used. In this context, Aalen proposed an additive hazards regression model. In this non-parametric model, the effect of the covariates is modelled by regression functions acting additively on the baseline hazard. The latter, like the covariate regression functions, are non-parametric and can vary over time. An advantage of this model is that the regression functions do not require assumptions except for the linearity of the effects of the covariates and allow the effect of the covariates to be measured over time. However, these functions are more complex to interpret than the parameters of the Cox model. Consequently, the use of this model is low: the functions represent the increase in hazard due to the covariates as opposed to the exponential of each parameter of the Cox model which is interpreted as a relative risk. More recently, hazards regression models have been developed which simultaneously take into account covariates, some of which have additive effects and others multiplicative effects. In order to model the covariates correctly, when the type of effect of the covariates (additive or multiplicative) on the baseline hazard is unknown, a number of tools have been developed. They can be used to assist in modelling and to check the goodness of fit of multiplicative or additive hazards regression models. However, there is no strategy for correctly modelling survival data depending on whether one wishes to use a multiplicative or additive hazards regression model. The first objective of this work was to propose a strategy for modelling survival data with a multiplicative or additive hazards regression model using the different diagnostic tools frequently used and others less known. This strategy was applied to survival data and showed that obtained models fitted correctly the data with similar conclusions but with differences in interpretation. Once both models are obtained, it is interesting to know which one fits the data best. The second objective was to develop a method to select from the two types of models the one that is most appropriate for a particular database. For this, an approach based on pseudo-residuals, which are, for each subject, the difference between a non-parametric estimate of survival (a pseudo-observation) and an estimate of survival obtained using a regression model, was developed. The use of the sum of squares of pseudo-residuals as a tool for selecting the most appropriate model was proposed in the univariate framework and then in the multivariate framework by including models that simultaneously take into account multiplicative and additive effects. Thus this work proposes new tools that can help biostatisticians to perform multiplicative or additive hazards regression models and to select the most appropriate one.