Soutenance de thèse de LASGORCEUX Florian


Titre de thèse

Modélisation de données opportunistes pour le suivi des dynamiques spatio-temporelles de biodiversité : application aux données des parcs naturels protégés.

Modeling opportunistic presence-only data for monitoring spatiotemporal biodiversity dynamics: application to data from protected natural areas

Date

4 March 2025 à 9h00

Adresse

INRAE Domaine Saint-Paul - Site Agroparc 228 ROUTE DE L AERODROME 84914 AVIGNON CEDEX 9, Salle Provence 150P

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Mathématiques

Etablissement

Aix-Marseille Université

Mots clés

Données opportunistes de présence-seule,Modèles de distribution d'espèces,Spatio-temporel,Parc national des Écrins,INLA-SPDE,correction de bias,

Keywords

Opportunistic presence-only data,Species Distribution Models (SDMs),Spatio-temporal,Écrins National Park,INLA-SPDE,bias correction,

Jury

Jury de thèse
Qualité Nom Etablissement
Directeur de recherche M. OPITZ Thomas BioSP INRAE
Maître de conférences Mme ETIENNE Marie-Pierre URM IRMAR, Agrocampus Ouest
Ingénieur M. GOSSELIN Frédéric EFNO, INRAE
Professeur des universités M. BARBILLON Pierre MIA Paris Saclay, AgroParisTech
Maîtresse de conférences Mme CARPENTIER Florence UFR Ecologie, Adaptation et Interactions, AgroParisTech
Chargé de recherche M. PAPAïX Julien BioSP, INRAE
Directrice de recherche Mme GABRIEL Edith BioSP INRAE
Directrice de recherche Mme LAVIGNE Claire PSH, INRAE

Résumé de la thèse

Les modèles de distribution d'espèces (SDMs) permettent d'analyser les relations entre les espèces et leur environnement en combinant des données d'observation et des variables environnementales ou climatiques. Ils jouent un rôle crucial dans la conservation et la gestion des écosystèmes. Traditionnellement, ces modèles s'appuient sur des observations issues de suivis protocolés, souvent coûteux et complexes à mettre en œuvre. Une alternative réside dans l'utilisation de données collectées en dehors de tout protocole scientifique : les données opportunistes de présence-seule. Cette thèse vise à développer un cadre statistique robuste pour utiliser ces données opportunistes de présence-seule dans les SDMs et évaluer leur potentiel pour améliorer notre compréhension et gestion des espèces.
Le Chapitre 1 décrit les mécanismes inhérents à la saisie de ces données opportunistes de présence-seule et propose une modélisation statistique basée sur les processus ponctuels spatio-temporels. Quatre biais susceptibles de perturber l'inférence statistique des processus écologiques d'intérêt sont identifiés à l'aide de cette modélisation : le biais de localisation, le biais spatio-temporel d'échantillonnage, le biais de détection et le biais de saisie. Ces biais, qui peuvent varier selon les observateurs, constituent des obstacles à la modélisation et nécessitent d'être discutés et pris en compte en pratique. Une revue de la littérature est réalisée afin d'apporter des éléments de réflexion et de réponse pour chacun des biais identifiés.
Le Chapitre 2 applique ces SDMs reposant sur les processus ponctuels aux données opportunistes d'observation des Passeriformes du Parc national des Écrins pour la période 2001-2019. Le biais de localisation est corrigé par une discrétisation de l'espace, et le biais d'échantillonnage spatio-temporel est atténué en utilisant les occurrences d'un groupe cible constitué de l'ensemble des espèces des Passeriformes. Les biais de détection et de saisie peuvent varier spatialement mais sont supposés homogènes entre les espèces analysées. Le modèle spatio-temporel est estimé via l'approche bayésienne INLA-SPDE, permettant d'illustrer la correspondance entre les préférences d'habitats et le statut migratoire des 76 espèces étudiées. Cependant, les résultats sont moins concluants pour les tendances temporelles d'abondance relative, particulièrement pour les espèces communes, comparés aux tendances estimées par les données STOC (Suivi Temporel des Oiseaux Communs) en France.
Le Chapitre 3 examine la correction du biais d'échantillonnage spatial des données opportunistes de présence-seule en intégrant des données protocolées de présence-absence dans un modèle de distribution d'espèces intégré (ISDM). Bien que ces données soient indisponibles pour les Passeriformes du Parc national des Écrins, cette approche est illustrée par des simulations basées sur les données du Chapitre 2, réalisées avec le package R-INLA. Les résultats montrent que l'échantillonnage spatial uniforme des données protocolées est optimal. Même un faible volume de données présence-absence corrige efficacement ce biais, atteignant des performances proches d'un modèle utilisant uniquement des données opportunistes avec un proxy quasi-parfait du biais. Avec plus de données protocolées, l'ISDM surpasse les modèles basés sur un seul type de données. Ces résultats démontrent l'intérêt d'un échantillonnage uniforme et d'un faible volume de données protocolées pour améliorer les SDMs à partir des données opportunistes, dans une optique de conservation.
Enfin, le Chapitre 4 explore plusieurs pistes de recherche abordées dans les chapitres précédents, comme l'utilisation d'un modèle de distribution d'un groupe cible d'espèces comme méthode de correction du biais d'échantillonnage, l'utilisation de packages R basés sur INLA permettant d'implémenter des ISDM, ou des pistes pour corriger le biais de saisie des données du Parc national des Écrins.


Thesis resume

Species Distribution Models (SDMs) enable the analysis of relationships between species and their environment by combining observational data with environmental or climatic variables. They play a crucial role in ecosystem conservation and management. Traditionally, these models rely on observations collected through systematic monitoring protocols, which are often costly and complex to implement. An alternative involves using data collected outside of any scientific protocol: opportunistic presence-only data. This thesis aims to develop a robust statistical framework to incorporate opportunistic presence-only data into SDMs and assess their potential to enhance our understanding and management of species.
Chapter 1 describes the mechanisms underlying the collection of opportunistic presence-only data and proposes a statistical modeling approach based on spatiotemporal point processes. Four biases likely to affect the statistical inference of ecological processes of interest are identified through this modeling: location bias, spatiotemporal sampling bias, detection bias, and reporting bias. These biases, which may vary among observers, represent significant challenges to modeling and must be addressed in practice. A literature review is conducted to provide insights and potential solutions for each identified bias.
Chapter 2 applies these point process-based SDMs to opportunistic observation data of Passeriformes in the Écrins National Park from 2001 to 2019. Location bias is addressed by discretizing the spatial domain, and spatiotemporal sampling bias is mitigated using occurrences of a target group comprising all Passeriformes species. Detection and reporting biases, while potentially spatially variable, are assumed to be homogeneous across the analyzed species. The spatiotemporal model is estimated using the Bayesian INLA-SPDE approach, illustrating the relationship between habitat preferences and the migratory status of the 76 studied species. However, the results are less conclusive for temporal trends in relative abundance, particularly for common species, compared to trends estimated using the French Breeding Bird Survey data (STOC data).
Chapter 3 examines the correction of spatial sampling bias in opportunistic presence-only data by integrating systematic presence-absence data into an Integrated Species Distribution Model (ISDM). Although such data are unavailable for Passeriformes in the Écrins National Park, this approach is illustrated using simulations based on the data from Chapter 2 and implemented with the R-INLA package. The results show that uniform spatial sampling of systematic data is optimal. Even a small volume of presence-absence data effectively corrects this bias, achieving performance similar to a model using only opportunistic data with a nearly perfect bias proxy. With more systematic data, ISDMs outperform models based on a single data type. These findings demonstrate the value of uniform sampling and limited systematic data for improving SDMs based on opportunistic data in conservation contexts.
Finally, Chapter 4 explores several research avenues raised in the previous chapters, such as using a target group species distribution model to correct sampling bias, employing R packages based on INLA to implement ISDMs, and investigating methods to address reporting bias in data from the Écrins National Park.