Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Neurosciences

Etablissement

Aix-Marseille Université

Mots Clés

Poursuite oculaire lisse,Renforcement,Modélisation,Conditionnement opérant,Anticipation,Biais-directionnel

Keywords

Smooth pursuit eye movements,Reinforcement,Modeling,Operant conditioning,Anticipation,Direction-bias

Titre de thèse

Mouvements oculaire de poursuite lisse et apprentissage: rôle des contingences probabilistiques et de renforcement
Smooth pursuit eye movements and learning: role of motion probability and reinforcement contingencies

Date

Monday 11 June 2018

Adresse

27 boulevard Jean Moulin Salle N°2

Jury

Directeur de these Mme Anna MONTAGNINI CNRS-institut de neurosciences de la Timone
Rapporteur M. Alexander SCHüTZ Philipps Universität Marburg
Rapporteur M. Richard KRAUZLIS LABORATORY OF SENSORIMOTOR RESEARCH NATIONAL EYE INSTITUTE
CoDirecteur de these M. Laurent PERRINET CNRS - Institut de Neurosciences de la Timone
Examinateur M. Laurent MADELAIN Université Lille 3 Scalab
Examinateur Mme Françoise VITU Aix-Marseille Université

Résumé de la thèse

L’un des plus grands défis pour les organismes vivants est leur capacité d’adapter constamment leurs comportements moteurs. En vision, suivre précisément un objet en mouvement est une habileté essentielle du système visio-oculomoteur humain. Le mouvement oculaire de poursuite lisse permet l’alignement précis entre le mouvement lent d’une cible et la fovéa pour permettre la stabilisation de l’image rétinienne. Dans la première étude de cette thèse, nous avons étudié le rôle du conditionnement opérant sur la poursuite lisse d’anticipation (PLA). Quand le système a accès à certaines informations sur le mouvement a venir d’une cible, la PLA peut être générée avant même l’apparition d’une cible (Kowler & Steinman, 1979). Elle est vue comme une solution optimale pour réduire le délai visiomoteur pour la foveation d’une cible en mouvement. Nous avons démontré que la PLA est générée de manière cohérente avec le mouvement attendu et que sa vitesse moyenne s’échelonne de manière monotone avec la probabilité de direction. De plus, dans une expérience de conditionnement opérant de la poursuite, nous avons montré que si une récompense monétaire était fonction d’un critère sur la vitesse d’anticipation, cette dernière était modulée, de manière légère mais significative, par les contingences de renforcement. Ces résultats renforcent le fait que la PLA peut être considérée comme un comportement opérant. Des études contrôles ont montré que l’attente d’une récompense non contingente ne peut pas biaiser efficacement la PLA. Dans une seconde étude, nous avons créé un paradigme de poursuite avec un choix entre deux cibles avec trajectoire orthogonale. Dans la condition contrôle, la cible était indiquée par sa couleur. Dans l’expérience principale, chaque direction était associée à une règle différente de renforcement inspirée par l’Iowa Gambling Task (IGT) (Bechara et al, 2004). Dans une seconde version de cette tâche, l’information sur le renforcement était liée cette fois, à la couleur. Comme la poursuite lisse est vue comme un moyen de lecture continue du traitement d’informations cognitives, nous avons analysé la modulation de la poursuite à travers toutes ses étapes en fonction de la manipulation du renforcement. De plus, nous avons testé ce paradigme novateur sur des patients Parkinson (PP, connus pour leurs déficits dans l’IGT), ainsi que sur des personnes âgées contrôles et des adultes jeunes. Chez les participants jeunes, la latence du choix était fortement raccourcie dans la tache IGT en comparaison à la tache contrôle. La poursuite était déviée vers la cible choisie, et ce, dès la phase d’anticipation, et maintenue ainsi pendant la phase d’initiation. Notre conclusion est que plutôt qu’un comportement de moyennage du vecteur entre les deux cibles (Ferrera and Lisberger, 1997), les participants réalisent un choix précoce quand celui-ci est associé à une règle de renforcement. Chez les jeunes participants, nous avons observé une relation intéressante entre la stratégie IGT globale et le délai entre apparition de la cible et information sur la récompense, différente selon les expériences. Chez les patients et les contrôles âgés, malgré une grande variabilité inter-sujets, l’analyse du choix d’une cible a révélé une performance globale altérée. La dernière contribution de cette thèse fut de modéliser le biais directionnel sur la PLA que nous avons observé dans la première étude. Nous avons testé deux modèles simples (moyenne glissante et intégrateur à fuite) afin d’étudier la relation entre la vitesse de la PLA et les biais de direction locaux. Ces modèles furent une première étape vers un modèle de Bayesian Change-point detection (Adams & McKay, 2007), qui imite un agent idéal inférant la probabilité d’occurrence d’un évènement ainsi que la volatilité de l’environnement (i.e. la durée depuis un changement de biais). Ce modèle suggère que nos résultats peuvent être utilisés pour de futurs modèles d’apprentissages par renforcement.

Thesis resume

One of the main challenges for living organisms is the ability to constantly adapt their motor behaviors. In vision, tracking with precision the ever-changing position of a smoothly moving object is an essential ability of the human visuo-oculomotor system. Smooth pursuit eye movements permit an accurate alignment of a slowly moving target with the fovea, and the stabilization of its retinal image. In a first study of this thesis, we investigated the role of operant conditioning on anticipatory smooth eye movements (aSPEM). When the system has access to some information about future target motion, aSPEM can be generated ahead of target appearance (Kowler & Steinman, 1979) and are interpreted as an optimal solution to reduce the visuomotor delay that would retard the foveation of the moving target. In this study we demonstrated on a large set of healthy participants that aSPEM are generated coherently with the expected motion direction and that the mean aSPEM velocity scales monotonically with direction probability. Furthermore, in a gaze-contingent reinforcement paradigm, we showed that when monetary reward was associated to a criterion-matching anticipatory velocity, the latter underwent a small but significant modulation, consistent with operant conditioning. These findings strengthen the notion that aSPEM can be considered as an operant behavior, whereas control experiments showed that expectancy for a non-contingent reward cannot efficiently bias them. In a second study, we designed a choice-tracking task where two targets moved along orthogonal directions. Participants were instructed to select one the targets and track it with their eyes. In the control condition, the target selection was imperatively cued by the target’s color. In the main experiment each target’s direction was associated with a different reinforcement rule inspired by the Iowa Gambling Task (IGT) (Bechara et al, 2004). In a second version of the IGT-pursuit task, the reinforcement was associated to the color of the pursued target instead of the direction. As smooth pursuit can be seen as a continuous read-out of cognitive information processing, we analysed its modulation throughout the whole trial duration as a function of the reinforcement manipulation., Furthermore, we administered this new paradigm to Parkinson’s disease (PD) patients (known for their impairment in the IGT tasks), as well as age-matched control participants and young adult controls. For young participants, choice latency was clearly shortened in the IGT-pursuit task compared to the control-task. Eye movements deviated toward the selected target direction already in the anticipatory phase and maintained this directional bias throughout the initiation phase. Our main conclusion is that rather than a simple vector average behavior (Ferrera and Lisberger, 1997), human participants elicit an early choice behavior when their choice is associated to a reinforcement schedule. On young participants, we observed an interesting relation between the global IGT-strategy performance and specificity of reward-cueing information depending on the experiment. On elderly controls and PD patients, despite the large inter-subjects variability, the analysis of target selection revealed a globally poor performance. The last contribution of this thesis is an attempt to synthesize these results on the modulation of aSPEM. We tested two simple models (fixed memory-window and leaky-integrator) to investigate the relation between aSPEM velocity and local direction-bias. An even better fit was obtained when using a Bayesian Change-point detection model (Adams and McKay, 2007), which mimics an ideal agent inferring both the likelihood of a specific event’s occurrence with the volatility of the environment (e.g the duration since a change in bias). This model suggests that our results could be used for future models of reinforcement learning.